Audio et machine learning : Gaël Richard reçoit une bourse ERC

Chercheur en traitement de l’information à Télécom Paris, Gaël Richard a obtenu cette année une bourse Advanced Grant de l’European Research Council (ERC) pour son projet intitulé HI-Audio. Cette initiative vise à développer des approches hybrides associant le traitement des signaux à l’apprentissage machine profond pour la compréhension et l’analyse du son.

« Actuellement l’intelligence artificielle repose de manière forte sur les réseaux de neurones profonds, dont l’un des principaux défauts est de nécessiter de très grandes bases de données pour l’apprentissage » résume Gaël Richard, chercheur en traitement de l’information à Télécom Paris. Selon lui, « utiliser des modèles de signaux ou des modèles physiques de propagation des sons dans un algorithme d’apprentissage profond aurait pour conséquence une réduction des données nécessaires pour l’apprentissage tout en permettant d’obtenir une forte contrôlabilité de l’algorithme ». Cette perspective de rupture, Gaël Richard compte la mener à bien avec son projet HI-Audio*, lauréat d’une bourse ERC Advanced Grant le 26 avril dernier.

Par exemple, l’intégration de modèles physiques de propagation des sons peut permettre de mieux caractériser et paramétrer le type de sons analysés et ainsi aider à construire un système de reconnaissance automatique des sons. « Les applications des méthodes développées dans le projet s’orienteraient vers l’analyse des signaux musicaux et la reconnaissance des scènes sonores, c’est-à-dire l’identification de l’environnement sonore de l’enregistrement (extérieur, intérieur, aéroport) voire de l’ensemble des sources sonores présentes », indique Gaël Richard.

Des applications pour l’industrie

L’apprentissage des scènes sonores pourrait aider une voiture autonome à se repérer dans son environnement. Grâce à des micros, l’algorithme identifierait les sons environnants. Le véhicule pourrait reconnaître le bruit d’une sirène et ses variations d’intensité sonore. La voiture autonome serait alors en mesure de changer de voie pour laisser une ambulance ou un véhicule de pompier passer, sans attendre de le voir dans des caméras de détection. Les procédés développés dans HI-Audio peuvent trouver des applications dans bien d’autres domaines. Les algorithmes pourraient être utilisés dans la maintenance prédictive pour contrôler la qualité des pièces dans une chaîne de production. Typiquement, la conformité d’une pièce de voiture telle qu’un pare-chocs serait contrôlée via la résonance sonore qu’elle génère lors de l’application d’un impact non destructif sur celle-ci.

Les autres applications au cœur du projet HI-Audio sont dans le domaine de l’IA pour la musique et en particulier dans l’aide à la création musicale en développant de nouvelles méthodes interprétables de synthèse et transformation sonores.

Apprentissage machine et musique

« Un des objectifs du projet est la constitution d’une base de données regroupant des enregistrements de musiques de styles très variés, issues de cultures différentes », explique Gaël Richard. « Cette base qui sera automatiquement annotée (par des informations sémantiques précises) permettra d’élargir les travaux à des musiques peu étudiées ou moins distribuées notamment dans les plateformes de streaming audio », poursuit le lauréat. Un des défis du projet consiste à développer des algorithmes capables de reconnaître les mots et les phrases prononcées par les interprètes, de retranscrire la musique quel que soit son lieu d’enregistrement ou encore d’apporter de nouvelles capacités de transformation musicale (transfert de style, transformation rythmique, changement des paroles).

« Un aspect important du projet est également lié à la séparation de sources sonores », pointe Gaël Richard. Dans un fichier audio, la séparation des sources, qui, dans le cas d’une musique, correspondent chacun à un instrument, se fait généralement par filtrage ou « masquage ». Ce principe consiste à masquer les autres sources afin de ne conserver que la source cible. Une approche moins répandue consiste à isoler l’instrument par synthèse sonore. Le principe est de caractériser, dans la musique, le son de la source sonore à extraire pour le reproduire. Pour Gaël Richard, « l’avantage est que les artefacts des autres sources sont a priori totalement absents. De plus, la source synthétisée est contrôlable grâce à un faible nombre de paramètres interprétables, comme par exemple la fréquence fondamentale qui est directement liée à la hauteur perçue du son », précise-t-il. « Une telle approche ouvre de formidables perspectives pour la manipulation et la transformation sonores avec un véritable potentiel pour faire émerger de nouveaux outils d’aide à la création musicale », estime Gaël Richard.

*HI-Audio débutera le 1^er octobre 2022 et sera financé pendant cinq ans par la bourse ERC Advanced Grant d’un montant de 2,48 millions d’euros.

Rémy Fauvel