Reconnaissance vocale

Un article de Wikipédia, l'encyclopédie libre.

Vous avez de nouveaux messages (diff^?).

La reconnaissance vocale ou ASR (Automatic Speech Recognition) est une technologie de transcription d'un système phonatoire organique exploitable par une machine. La reconnaissance vocale couplée à des méthodes de synthèse vocale, de commande vocale, d'identification vocale, et de compréhension forme un élément d'une interface homme-machine idéale (10 fois plus de quantité d'information qu'avec une saisie clavier, confort,...). La reconnaissance vocale fait partie de la branche traitement de la parole.

[modifier] Domaine de recherche

La reconnaissance vocale peut se rattacher à de nombreux pans de la science: Traitement automatique des langues, linguistique, théorie des langages formels, théorie de l'information, traitement du signal, réseaux neuronaux, intelligence artificielle,...

[modifier] Historique

Les travaux sur la reconnaissance vocale datent du début du XX ième siècle. Le premier système pouvant être considéré comme faisant de la reconnaissance vocale date de 1952. Ce système électronique développé par Davis, Biddulph, and Balashek aux laboratoires Bell Labs était essentiellement composé de relais et ses performances se limitait à reconnaître des chiffres isolés (voir référence). La recherche s'est ensuite considérablement accrue durant les années 70 avec les travaux de Jelinek chez IBM (1972-1993),.... Aujourd'hui, la reconnaissance vocale est un domaine à forte croissance grâce à la déferlante des systèmes embarqués.

[modifier] Principe de base

Une phrase enregistrée et numérisée est donnée au programme de reconnaissance vocale. Dans le formalisme ASR, le découpage fonctionnel est le suivant:

le traitement acoustique (front-end) permet principalement d'extraire du signal de parole une image acoustique la plus significative possible sur des tranches de temps d'environ 30ms. Cette image se présente souvent sous la forme d'un vecteur de caractéristiques (features extraction) de taille d'environ 10 à 15 coefficients.
l'apprentissage automatique qui réalise une association entre les segments élémentaires de paroles et les éléments lexicaux. Cette association fait appel à une modélisation statistique entre autre par modèles de Markov cachés (HMM, Hidden Markov Models) et/ou par réseaux de neurones artificiels (ANN, Artificial Neural Networks).
la reconnaissance (back-end) qui en concaténant les segments élémentaires de paroles précédemment appris reconstitue le discours le plus probable. Il s'agit donc d'une correspondance de motif (pattern matching) temporelle, réalisée souvent par l'algorithme de déformation temporelles dynamique (DTW).

[modifier] Les modèles

Un tel système s'appuie sur 3 modèles principaux:

Modèle acoustique. Ce modèle est capable, à partir du signal acoustique, plus précisément du résultat du traitement acoustique, de donner la probabilité que le signal corresponde à chacun des phonèmes possibles de la langue cible.
Modèle de prononciation. Ce modèle donne pour chaque mot du vocabulaire la ou les prononciations possibles au niveau phonétique avec des probabilités associées.
Modèle de langage. Ce modèle donne pour chaque suite de mots sa probabilité dans le langage cible.

La combinaison de ces trois modèles permet de calculer pour toute suite de mots la probabilité que le signal sonore lui corresponde. Effectuer la reconnaissance, souvent appelée décodage, consiste à trouver celle qui a la probabilité la plus élevée.

[modifier] Classification

Un système de reconnaissance vocale se classifie par un petit nombre de paramètres appelés modes de reconnaissance qui sont corréles aux difficultés suivantes:

Variabilité inter et intra-locuteur: Les systèmes monolocuteurs (speaker dependant) effectuent un apprentissage in-situ des mots. Les systèmes multilocuteurs (speaker independant) sont capables de reconnaître un corpus fixe (50 mots environs) quelque soit le locuteur. Les systèmes monolocuteurs sont les plus répandus et tendent notamment à se généraliser grâce à la synthèse Text to speech qui évite la phase d'apprentissage.
Naturel du discours: Les systèmes peuvent travailler sur de la parole continue (continuous speech), des mots isolés (isolated word) ou encore des mots clefs (key spotting).
Taille du vocabulaire
Environnement

[modifier] Performance

Les performances brutes d'un moteur de reconnaissance vocale sont souvent mesurées en taux d'erreur de mots (Word error rate). On peut, réciproquement, évaluer le taux de succès. Voici quelques résultats en termes de taux d'erreur, pour le français :

Textes lus (BREF, système ancien): 8-9%
Emissions de radio (campagne ESTER): 10,3%
Conversations téléphoniques entre gens ne se connaissant pas: 33%
Conversations téléphoniques entre gens se connaissant: 70+%

[modifier] Logiciels Existants

HTK Logiciel développé au CUED
Sphinx 4 Logiciel développé au CMU
[1] Logiciel professionnel de G2 Speech
Dragon naturally Speaking Logiciel professionnel de Scansoft

[modifier] Voir aussi

VoiceXML : standard d'interaction vocale
Linguistique computationnelle
Linguistique, ou science du langage
Synthèse vocale, le procédé inverse
Commande vocale.
G2 Speech [2]

[modifier] Pour en savoir plus

Automatic Recognition of Spoken Digits L'article historique sur le premier système de reconnaissance vocale
EPFL Transparent du GTPB sur le Traitement de la parole
CSLU Survey of the state of the art in human language technology
Jean-Paul Haton, Reconnaissance automatique de la parole : Du signal à son interprétation, Dunod Paris, 2006