Codage spatio-temporel de la parole

Beaucoup de techniques de codage de la parole utilisent l'analyse de Fourier, via une modélisation simplifiée du canal vocal. En reconnaissance de la parole, la modélisation de type Fourier ne fait pas apparaître "d'invariants" permettant de reconnaître des phonèmes, il en résulte que la reconnaissance est effectuée via des algorithmes sophistiqués dont la technologie centrale est la chaîne de Markov cachée. Ces technologies permettent de résoudre le difficile problème de l'alignement temporel. Notre système auditif utilise au contraire une analyse spatio-temporelle, et l'on peut supposer qu'il traite les images sonores de façon à faire apparaître des invariants l'aidant à prendre des décisions. L'approche suivie dans ce projet sera de constituer des images spatio-temporelles à l'aide de technique de traitement du signal. Puis de mettre en œuvre des réseaux de neurones artificiels afin de faire apparaître des images invariantes pour des sons voisés enregistrés pour plusieurs locutrices et locuteurs. La motivation étant de pouvoir faire une première vérification quant à la possibilité d'éviter d'utiliser des chaînes de Markov cachées. Les chaînes de Markov cachées montrant des défaillances quant à la reconnaissance multi-locuteurs de la parole.

Etudiant: Laurent Dormond

Année: 2006

Département: TIC

Filière: Informatique et systèmes de communication (anciennement Télécommunications) avec orientation en Réseaux et Services

Type de formation: Plein temps

Partenaire externe: Institut IICT

Enseignant responsable: Hervé Dedieu

Téléchargement:
- Télécharger l'affiche