Reconnaissance vocale par Deep Learning - TimeScaleNet - Approche temporelle multi résolution

Participants
Résumé

Ce projet s'inscrit dans le cadre des activités liées au Deep Learning pour l'audio, développées au laboratoire depuis début 2018.

Ces dernières années, l'utilisation des techniques Deep Learning dans le traitement des signaux audio a permis d'améliorer considérablement les performances des systèmes de reconnaissance sonore. Ce changement de paradigme a incité la communauté scientifique à développer des stratégies d'apprentissage automatique permettant de créer des représentations efficaces, directement à partir de formes d'onde brutes temporelles, pour des tâches de Machine Hearing.

Dans le cadre de ce projet, nous développons une approche multi-résolution, qui permet au réseau de neurones profond de coder efficacement les informations pertinentes contenues dans des signaux acoustiques non traités dans le domaine temporel. Le réseau de neurones développé, TimeScaleNet, vise à apprendre une représentation d'un son, en s'appuyant sur l'analyse des dépendances temporelles, à l'échelle de l'échantillon audio, et à l'échelle de trames audio de 20 ms. L'approche proposée permet d'améliorer l'interprétabilité du schéma d'apprentissage, en unifiant les techniques avancées de Deep Learning et de traitement du signal.

Architecture du réseau de neurones TimeScaleNet

En particulier, l'architecture de TimeScaleNet introduit une nouvelle forme de cellule neuronale récurrente, directement inspirée du traitement numérique du signal IIR, et agissant comme un banc de filtre numérique IIR biquadratique à bande passante réglable, afin de représenter la signature sonore dans une map bidimensionnelle. Cette nouvelle approche permet d'améliorer les performances de reconnaissance, et de construire automatiquement une représentation similaire aux spectrogrammes temps-fréquences, dont les paramètres sont choisis par le réseau de neurones. Cette approche permet d'obtenir une représentation sémantique spécifique du jeu de données d'apprentissage, avec une approche économe en terme de coût calculatoire.

La représentation temps-fréquence obtenue au niveau de la trame est ensuite traitée en utilisant un réseau résiduel de convolutions à trous, séparable en profondeur. Cette deuxième échelle d'analyse vise à coder efficacement les relations entre les fluctuations temporelles à l'échelle de temps de la trame, dans différentes bandes de fréquences regroupées apprises, dans la gamme de [20 ms ; 200 ms].

Réseau séparable en profondeur de convolutions 1D à trous

TimeScaleNet a été testé à la fois à l'aide d'un jeu de données de commandes vocales (Speech Commands Dataset v2) et d'un jeu de données de sons environnementaux (ESC-10). Pour la reconnaissance vocale, nous obtenons une précision très élevée de 94,87±0,24%, qui dépasse les performances de la plupart des algorithmes existants. Pour les sons environnementaux, les performances sont plus modérées, ce qui incitera à affiner l'architecture du réseau à trous pour être plus efficace pour des bases de données de petites dimensions, avec des exemples de signaux qui possèdent des caractéristiques de signaux plutôt stationnaires.

Matrice de confusion obtenue sur le jeu de données vocales

Dans le cadre du projet, nous nous sommes également intéressés à la représentation construite par le réseau de neurones. De manière extrêmement intéressante, celui ci construit une représentation des sons en construisant des filtres s'apparentant à ceux développés dans la littérature concernant les modèles cognitifs d'audition. En revanche, cette représentation utilise une approche de type mel pour des fréquences inférieures à 2500 Hz, pour encoder le contenu des voyelles et des nasales, et passe sur une représentation de type ERB proche du modèle de Glasberg et Moore pour les plus hautes fréquences, qui servent plutôt à encoder les consonnes, les fricatives et les plosives :

Durée du projet : En cours, depuis 2018

Financement et contrats : Sur fonds propres

Publications
Corps

É. Bavu, A. Ramamonjy, H. Pujol, A. Garcia, TimeScaleNet: A multiresolution approach for raw audio recognition using learnable biquadratic IIR filters and residual networks of depthwise-separable one-dimensional atrous convolutions, IEEE Journal of Selected Topics in Signal Processing, 13 (2), 220–235, 2019. doi

Domaines d'application