Segmentation automatique de la parole distante en réunion à l'aide d'antennes de microphones

Au LMSSC, Paris, le 24 mai 2023 à 13h30

Théo Mariotte
Doctorant, Laboratoire d'Acoustique de l'Université du Mans (LAUM),
Laboratoire d'Informatique de l'Université du Mans (LIUM), Le Mans

La segmentation automatique de la parole consiste à détecter des évènements au cours du temps (ex : parole superposée, changement de locuteur...). Elle est un pré-traitement nécessaire pour de nombreuses tâches de traitement automatique de la parole telles que la segmentation et le regroupement en locuteurs. Dans le contexte des réunions, il est plus facile d'acquérir le signal audio à l'aide d'un dispositif distant. Cependant, la qualité de ces signaux est souvent dégradée et présente un rapport signal-à-bruit plus faible que des signaux acquis en champ proche. Dans ces conditions, il est courant d'utiliser des antennes de microphones. Ces dispositifs sont composés de plusieurs microphones organisés selon une certaine géométrie (ex : circulaire). Elles permettent d'acquérir des informations sur la répartition spatiale du champ acoustique.

Les travaux présentés proposent l'utilisation d'antennes de microphones pour la segmentation automatique de la parole. Deux approches sont considérées : la combinaison des canaux et l'extraction de caractéristiques spatiales. La première approche consiste à combiner les canaux dans le domaine temps-fréquence afin d'extraire une représentation du signal de meilleure qualité. Bien que les performances soient meilleures, ces méthodes sont sensibles au nombre de canaux disponibles. Une seconde approche, basée sur le formalisme des harmoniques circulaires, est considérée afin d'améliorer la robustesse au nombre de microphones disponibles.

Bien que les harmoniques circulaires améliorent la robustesse au nombre de capteurs, les performances de segmentations sont dégradées par rapport aux méthodes basées sur la combinaison de canaux. Une méthode d'apprentissage est donc développée pour rendre ces modèles invariants au nombre de capteurs disponibles. Toutes les approches sont évaluées sur la tâche de détection de parole superposée. Les expériences sont menées sur les données en réunion issues du corpus de données AMI.