Extension de bande passante de signaux vocaux captés par des microphones à conduction corporelle
L'enregistrement de la voix pour les communications radio est généralement effectué à l'aide de microphones situés près de la bouche de l'orateur. Ces systèmes conventionnels de capture du son sont toutefois sensibles au bruit ambiant, ce qui réduit sensiblement l'intelligibilité de la parole captée par le transducteur. Les solutions actuelles comprennent principalement l'utilisation de microphones différentiels, mais, des microphones à conduction corporelle tels que des transducteurs à conduction osseuse ou des microphones intra-auriculaires émergent.
Grâce à ces systèmes, le locuteur bénéficie d'une protection auditive adaptée et la captation du signal vocal est également plus insensible au bruit ambiant, puisque le microphone est situé à l'intérieur de bouchons d'oreille, ce qui permet d'améliorer les performances de communication dans des environnements difficiles et bruyants. Cependant, la parole enregistrée à l'aide de ces microphones non conventionnels est dégradée en raison du trajet acoustique entre la bouche et les transducteurs : avec les microphones intra-auriculaires, les basses fréquences sont amplifiées et presque aucun signal acoustique n'est enregistré au-dessus de 2 kHz, ce qui motive l'utilisation de méthodes d'amélioration du signal par Deep Learning afin d'extrapoler le contenu manquant en hautes fréquences.
La modélisation générative des signaux audio est un problème fondamental à l'intersection du traitement du signal et de l'apprentissage automatique et l'une des avancées récentes les plus significatives dans le traitement audio basé sur l'IA a été la capacité de modéliser directement les signaux bruts dans le domaine temporel en utilisant des réseaux de neurones. Dans ce projet, nous explorons de nouveaux algorithmes de modélisation pour l'audio. En particulier, nous nous concentrons sur un problème spécifique de génération audio appelé extension de bande passante, dans lequel la tâche consiste à reconstruire un son de haute qualité à partir d'une entrée de basse qualité et sous-échantillonnée. D'un point de vue pratique, cette technique a également des applications dans les domaines de la téléphonie, la compression, la génération de type text-to-speech, l'analyse légale d'enregistrements audios, et dans d'autres domaines.
Partenariats académiques et industriels :
- Institut franco-allemand de recherches de Saint-Louis (ISL) : T. Joubaud, V. Zimpfer
Présentation du projet par Julien Hauret à "Ma thèse en 180 secondes" (Lien)