Modèles de génération de trajectoires pour l'animation de visages parlants / Oxana Govokhina ; sous la direction de Gérard Bailly et Gaspard Breton

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Animation par ordinateur

Concaténation (informatique)

Simulation par ordinateur

Bailly, Gérard (19..-.... ; linguiste) (Directeur de thèse / thesis advisor)

Breton, Gaspard (Directeur de thèse / thesis advisor)

Institut national polytechnique (Grenoble ; 1900-....) (Organisme de soutenance / degree-grantor)

Grenoble Images parole signal automatique (2007-....) (Laboratoire associé à la thèse / thesis associated laboratory)

Relation : Modèles de génération de trajectoires pour l'animation de visages parlants / Oxana Govokhina / Villeurbanne : [CCSD] , 2009

Relation : Modèles de génération de trajectoires pour l'animation de visages parlants / Oxana Govokhina ; sous la direction de Gérard Bailly et Gaspard Breton / Lille : Atelier national de reproduction des thèses , 2008

Résumé / Abstract : Le travail réalisé durant cette thèse concerne la synthèse visuelle de la parole pour l’animation d’un humanoïde de synthèse. L’objectif principal de notre étude est de proposer et d’implémenter des modèles de contrôle pour l’animation faciale qui puissent générer des trajectoires articulatoires à partir du texte. Pour ce faire nous avons travaillé sur 2 corpus audiovisuels. Tout d’abord, nous avons comparé objectivement et subjectivement les principaux modèles existants de l’état de l’art. Ensuite, nous avons étudié l’aspect spatial des réalisations des cibles articulatoires, pour les synthèses par HMM (Hidden Markov Model) et par concaténation simple. Nous avons combiné les avantages des deux méthodes en proposant un nouveau modèle de synthèse nommé TDA (Task Dynamics for Animation). Ce modèle planifie les cibles géométriques grâce à la synthèse par HMM et exécute les cibles articulatoires ainsi générées grâce à la synthèse par concaténation. Par la suite, nous avons étudié l’aspect temporel de la synthèse de la parole et proposé un second modèle de synthèse intitulé PHMM (Phased Hidden Markov Model) permettant de gérer les différentes modalités liées à la parole. Le modèle PHMM permet de calculer les décalages des frontières des gestes articulatoires par rapport aux frontières acoustiques des allophones. Ce modèle a été également appliqué à la synthèse automatique du LPC (Langage Parlé Complété). Enfin, nous avons réalisé une évaluation subjective des différentes méthodes de synthèse visuelle étudiées (concaténation, HMM, PHMM et TDA).

Résumé / Abstract : The work performed during this thesis concerns visual speech synthesis in the context of humanoid animation. Our study proposes and implements control models for facial animation that generate articulatory trajectories from text. We have used 2 audiovisual corpuses in our work. First of all, we compared objectively and subjectively the main state-of-the-art models. Then, we studied the spatial aspect of the articulatory targets generated by HMM-based synthesis and concatenation-based synthesis that combines the advantages of these methods. We have proposed a new synthesis model named TDA (Task Dynamics for Animation). The TDA system plans the geometric targets by HMM synthesis and executes the computed targets by concatenation of articulatory segments. Then, we have studied the temporal aspect of the speech synthesis and we have proposed a model named PHMM (Phased Hidden Markov Model). The PHMM manages the temporal relations between different modalities related to speech. This model calculates articulatory gestures boundaries as a function of the corresponding acoustic boundaries between allophons. It has been also applied to the automatic synthesis of Cued speech in French. Finally, a subjective evaluation of the different proposed systems (concatenation, HMM, PHMM and TDA) is presented.