Codage spatio-temporel de la parole
Beaucoup de techniques de codage de la parole utilisent l'analyse de Fourier, via une modélisation simplifiée du canal vocal. En reconnaissance de la parole, la modélisation de type Fourier ne fait pas apparaître "d'invariants" permettant de reconnaître des phonèmes, il en résulte que la reconnaissance est effectuée via des algorithmes sophistiqués dont la technologie centrale est la chaîne de Markov cachée. Ces technologies permettent de résoudre le difficile problème de l'alignement temporel. Notre système auditif utilise au contraire une analyse spatio-temporelle, et l'on peut supposer qu'il traite les images sonores de façon à faire apparaître des invariants l'aidant à prendre des décisions. L'approche suivie dans ce projet sera de constituer des images spatio-temporelles à l'aide de technique de traitement du signal. Puis de mettre en œuvre des réseaux de neurones artificiels afin de faire apparaître des images invariantes pour des sons voisés enregistrés pour plusieurs locutrices et locuteurs. La motivation étant de pouvoir faire une première vérification quant à la possibilité d'éviter d'utiliser des chaînes de Markov cachées. Les chaînes de Markov cachées montrant des défaillances quant à la reconnaissance multi-locuteurs de la parole.
Etudiant: Laurent Dormond
Année: 2006
Département: TIC
Filière: Informatique et systèmes de communication (anciennement Télécommunications) avec orientation en Réseaux et Services
Type de formation: Plein temps
Partenaire externe: Institut IICT
Enseignant responsable: Hervé Dedieu
Téléchargement:
- Télécharger l'affiche