Extension de bande passante de signaux vocaux captés par des microphones à conduction corporelle

Participants

Éric Bavu , Julien Hauret

Résumé

L'enregistrement de la voix pour les communications radio est généralement effectué à l'aide de microphones situés près de la bouche de l'orateur. Ces systèmes conventionnels de capture du son sont toutefois sensibles au bruit ambiant, ce qui réduit sensiblement l'intelligibilité de la parole captée par le transducteur. Les solutions actuelles comprennent principalement l'utilisation de microphones différentiels, mais, des microphones à conduction corporelle tels que des transducteurs à conduction osseuse ou des microphones intra-auriculaires émergent.

Exemple de dispositif de captation de parole non conventionnel : captation intra-auriculaire derrière protecteur auditif actif/passif

Grâce à ces systèmes, le locuteur bénéficie d'une protection auditive adaptée et la captation du signal vocal est également plus insensible au bruit ambiant, puisque le microphone est situé à l'intérieur de bouchons d'oreille, ce qui permet d'améliorer les performances de communication dans des environnements difficiles et bruyants. Cependant, la parole enregistrée à l'aide de ces microphones non conventionnels est dégradée en raison du trajet acoustique entre la bouche et les transducteurs : avec les microphones intra-auriculaires, les basses fréquences sont amplifiées et presque aucun signal acoustique n'est enregistré au-dessus de 2 kHz, ce qui motive l'utilisation de méthodes d'amélioration du signal par Deep Learning afin d'extrapoler le contenu manquant en hautes fréquences.

La modélisation générative des signaux audio est un problème fondamental à l'intersection du traitement du signal et de l'apprentissage automatique et l'une des avancées récentes les plus significatives dans le traitement audio basé sur l'IA a été la capacité de modéliser directement les signaux bruts dans le domaine temporel en utilisant des réseaux de neurones. Dans ce projet, nous explorons de nouveaux algorithmes de modélisation pour l'audio. En particulier, nous nous concentrons sur un problème spécifique de génération audio appelé extension de bande passante, dans lequel la tâche consiste à reconstruire un son de haute qualité à partir d'une entrée de basse qualité et sous-échantillonnée. D'un point de vue pratique, cette technique a également des applications dans les domaines de la téléphonie, la compression, la génération de type text-to-speech, l'analyse légale d'enregistrements audios, et dans d'autres domaines.

Partenariats académiques et industriels :

Institut franco-allemand de recherches de Saint-Louis (ISL) : T. Joubaud, V. Zimpfer

Présentation du projet par Julien Hauret à "Ma thèse en 180 secondes" (Lien)

Publications

J. Hauret, T. Joubaud, V. Zimpfer, É. Bavu. EBEN: Extreme bandwidth extension network applied to speech signals captured with noise-resilient body-conduction microphones. Proceedings of the 48th IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2023, Rhodes island, Greece, June 4-10, 2023. doi

J. Hauret, É. Bavu, T. Joubaud, V. Zimpfer. Deep Learning pour l'amélioration de signaux vocaux captés avec des transducteurs intra-auriculaire. Actes du 16^ème Congrès Français d'Acoustique, CFA 2022, Marseille, Bouches-du-Rhône, France, 11-15 avril 2022.

Domaines d'application

Télécommunication

Production de la parole

Mots clés

Bruit

Méthodes

Machine learning

Traitement du signal