Transcription automatique de langues peu dotées / Thomas Pellegrini ; [sous la direction de] Lori Lamel

Date : 2008

Editeur / Publisher : [s.l.] : [s.n.] , 2008

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Reconnaissance automatique de la parole

Pellegrini, Thomas (1978-.... ; enseignant-chercheur en informatique) (Auteur / author)

Lamel, Lori (Directeur de thèse / thesis advisor)

Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne) (Autre partenaire associé à la thèse / thesis associated third party)

Université Paris-Sud (1970-2019) (Organisme de soutenance / degree-grantor)

Relation : Transcription automatique de langues peu dotées / Thomas Pellegrini / Villeurbanne : [CCSD] , 2011

Relation : Transcription automatique de langues peu dotées / Thomas Pellegrini ; [sous la direction de] Lori Lamel / Lille : Atelier national de reproduction des thèses , 2008

Résumé / Abstract : Les technologies liées à la parole, et en particulier la reconnaissance de la parole, suscitent un grand intérêt pour un nombre croissant de langues. La très grande majorité des langues du monde ne possèdent pas de grands corpus de données nécessaires à l'élaboration des systèmes de reconnaissance à l'état de l'art, fondés sur des paradigmes probabilistes pour la plupart. Les travaux menés au cours de cette thèse ont consisté, dans un premier temps, à identifier les difficultés rencontrées lors de l'élaboration d'un système pour une langue peu dotée. Nous avons travaillé principalement sur le problème des forts taux de mots hors-vocabulaire dus au manque de textes, qui est à nos yeux le problème le plus important pour ces langues. Nous défendons l'idée que l'utilisation de sous-unités lexicales correctement sélectionnées, qui peuvent être plus petites que les mots, peut amener des gains significatifs de performances. Nous avons utilisé et modifié un algorithme probabiliste qui propose des frontières de morphe, en introduisant des propriétés qui caractérisent la confusion acoustico-phonétique éventuelle entre les unités lexicales de reconnaissance. Les expériences de reconnaissance ont été menées sur deux langues différentes : l'amharique et le turc, en collaboration avec une équipe de chercheurs turcs, de l'université stambouliote Bogazici. Les expériences de reconnaissance ont permis d'obtenir des gains modestes mais significatifs, autour de 5% relatifs pour les gains les plus élevés, avec des réductions relatives de taux d'OOV comprises entre 30% et 50%, sur les corpus des deux langues étudiées.

Résumé / Abstract : With the development of technologies operating in a multilingual context, portability of speech technologies, and in particular, speech recognition, is a key challenge. State-of-the-Art speech recognizers are typically trained on very large amounts of data, both transcribed speech and texts. Recently there is a growing interest in developing speech technologies for languages for which only small amounts of data, and little or no linguistic expertise are accessible. For such languages, high Out-Of-Vocabulary (OOV) rates, poor language model estimation, are major issues. After studying the impact on recognition performance for the different types of training data: speech material used to train acoustic models; texts corresponding to the transcriptions of the speech corpus; and texts collected from newspapers and newswires available on the Web, automatic word decompounding to reduce OOV rates was investigated, with application to two case of studies: Amharic, the official language of Ethiopia and Turkish, in collaboration with the Bogazici University. A baseline algorithm was enhanced in order to address the problem of increased phonetic confusability arising from word decompounding, by incorporating phonetic properties and some constraints on recognition units derived from prior forced alignment experiments. Speech recognition experiments were carried out to validate the approach. OOV rates were reduced by 30% to 50% and relative word error rate reductions up to 5% were achieved. The algorithm is relatively language independent and requires minimal adaptation to be applied to other languages.