Antennes microphoniques intelligentes :
Localisation de sources acoustiques par Deep Learning

Thèse présentée par Hadrien Pujol et soutenue le 22 octobre 2020 devant le jury composé de :

 
 
 
Manuel MELON Laboratoire d'Acoustique de l'Université du Maine (LAUM), Le Mans Rapporteur
Emmanuel VINCENT Laboratoire lorrain de Recherche en Informatique et ses Applications (LORIA), MULTISPEECH, Vandoeuvre-lès-Nancy Rapporteur
Antoine DELEFORGE Laboratoire lorrain de Recherche en Informatique et ses Applications (LORIA), MULTISPEECH, Vandoeuvre-lès-Nancy Examinateur
Laurent GIRIN Grenoble Image Parole Signal Automatique (GIPSA-Lab), Pôle Parole et Cognition (PPC), Grenoble INP Examinateur
Rozenn NICOL Orange Labs, Lannion Examinateur
Nicolas THOME Centre d'études et de recherche en informatique et communications (CÉDRIC), VERTIGO, Le Cnam Paris Examinateur
Alexandre GARCIA LMSSC, Le Cnam Paris Directeur de thèse
Éric BAVU LMSSC, Le Cnam Paris Co-encadrant de thèse

Résumé :

Cette thèse de doctorat propose d'explorer un nouveau paradigme pour la localisation de sources acoustiques : l'apprentissage supervisé. Contrairement aux méthodes plus conventionnelles développées par la communauté scientifique depuis plusieurs décennies, cette approche ne nécessite pas forcément l'utilisation explicite du modèle de propagation des ondes acoustiques, ni de modèles de signaux sousjacents. Au contraire, une architecture de Deep Learning est ici proposée afin d'extraire les informations pertinentes pour la localisation de sources acoustiques, directement depuis un jeux de signaux microphoniques temporels bruts.

Pour être efficace, cette approche, baptisée BeamLearning, nécessite la constitution de jeux de données conséquents et réalistes, afin d’entraîner le réseau de neurones profond associé. Ces jeux de données peuvent être constitués de deux manières complémentaires. La première repose sur l'exploitation de simulations numériques réalistes de la propagation acoustique, en utilisant en particulier un formalisme des sources images pour réaliser une auralisation multicanale de signaux émis par des sources à localiser dans un environnement réverbérant. La seconde, permettant de constituer des jeux de données expérimentaux de manière reproductible et efficace, repose sur l'utilisation du spatialisateur 3D par ambisonie d'ordres élevés disponible au LMSSC, et qui permet la captation automatisée, pendant plusieurs heures, de sources spatialisées, avec n'importe quelle topologie d'antenne – à condition qu'elle soit suffisamment compacte pour occuper la zone du sweet spot de la synthèse ambisonique.

Ces jeux de données permettent alors d'optimiser les variables d'apprentissage d'un réseau de neurones profond développé spécifiquement pour la tâche de localisation de sources au cours de cette thèse, et reposant en particulier sur des couches neuronales de convolutions à trous séparables en profondeur. L'architecture de ce réseau de neurones profond original a été conçue en s'efforçant de dresser un parallèle entre les opérations issues du monde de l'apprentissage par Deep Learning, et les opérations de traitement du signal communément utilisées par les algorithmes de localisation de sources acoustiques conventionnels reposant sur l'utilisation de modèles de propagation d'ondes sonores.

L'approche BeamLearning, est une méthode qui offre divers avantages par rapport aux méthodes conventionnelles. Tout d'abord, à travers les nombreuses situations testées, les résultats observés démontrent que ces performances de localisation sont a minima équivalentes aux performances d'algorithmes de localisation de sources éprouvés, et les dépassent même assez largement en environnement réverbérant et bruité. Par ailleurs, la possibilité d'entraîner le réseau de neurones sur des signaux captés depuis une antenne réelle, permet un étalonnage implicite des capteurs, ainsi que la prise en compte, elle aussi implicite, de la diffraction du corps et du support de l'antenne. Enfin, le temps nécessaire à l'estimation de la position d'une source, est très inférieur à celui des méthodes classiques, ce qui permet d'envisager une détection en temps réel de la position d'une source, en deux ou trois dimensions.