Modélisation statistique de l'intonation de la parole expressive / Cédric Boidin ; [sous la dir. de] Olivier Boeffard

Date :

Editeur / Publisher : [S.l.] : [s.n.] , 2009

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Synthèse automatique de la parole

Intonation (linguistique)

Apprentissage automatique

Markov, Processus de

Structures de données (informatique)

Théorie des machines séquentielles

Boëffard, Olivier (19..-....) (Directeur de thèse / thesis advisor)

Université de Rennes 1 (1969-2022) (Organisme de soutenance / degree-grantor)

Université européenne de Bretagne (2007-2016) (Autre partenaire associé à la thèse / thesis associated third party)

École doctorale Mathématiques, télécommunications, informatique, signal, systèmes, électronique (Rennes) (Ecole doctorale associée à la thèse / doctoral school)

Relation : Modélisation statistique de l'intonation de la parole expressive / Cédric Boidin ; [sous la direction de] Olivier Boeffard / Lille : Atelier national de reproduction des thèses , 2009

Résumé / Abstract : La parole expressive est caractérisée par une intonation très variable et fortement empreinte du contenu paralinguistique qu'elle véhicule. Elle constitue un défi majeur pour les technologies de synthèse vocale, et plus particulièrement pour leur module de prédiction prosodique. Dans ce cadre, les travaux de cette thèse proposent un modèle statistique de l'intonation qui autorise, pour un contenu linguistique donné, plusieurs variantes intonatives modélisant les différentes formes d'intonation issues du contenu para-linguistique et de la variabilité de la parole. Ce modèle, dont les paramètres sont appris automatiquement sur un corpus de parole, combine deux étapes : une étape de modélisation de la relation entre le contenu linguistique et l'intonation par le moyen d'un arbre de classification (CART) et une étape de modélisation des variantes intonatives par le moyen d'un modèle de Markov caché (HMM). Initialement conçu pour estimer la qualité de l'intonation par une mesure de vraisemblance, le modèle est utilisé en mode génératif pour déterminer la courbe intonative d'énoncés à synthétiser. Dans le cadre de la synthèse par sélection d'unités, principale cible de ces travaux, le modèle est également intégré dans l'algorithme de sélection des unités acoustiques au moyen d'automates à états finis (FSM). La sélection réalise alors un compromis entre qualité segmentale et qualité de l'intonation des énoncés synthétisés.

Résumé / Abstract : Expressive speech is characterised by its intonation, which is highly variable and strongly dependent on the paralinguistic information it conveys. This type of speech represents a major challenge for speech synthesis technologies, and more particularly for their prosodic prediction modules. In this thesis we propose a statistical model of intonation that, for a given linguistic content, allows for multiple intonative variants, that model various intonation patterns resulting from untagged paralinguistic content and variability intrinsic to speech. This model, whose parameters are automatically trained on a speech corpus, combines two steps: first, a classification tree (CART) models the relationship between the linguistic content and intonation and second, a Hidden Markov Model (HMM) models the competing intonative variants. Originally, the model was designed to calculate a likelihood score that evaluates intonation quality. We then used the model in an inverse fashion, that is, to generate the intonation contour of any new utterance by maximizing the likelihood score. For the target application of this work, namely unit selection speech synthesis, the intonation model is integrated into unit selection with Finite State Machines (FSM). The unit selection then realizes a trade-off between segmental and intonation quality.