Constitution de ressources linguistiques multilingues à partir de corpus de textes parallèles et comparables / Dhouha Bouamor ; sous la direction de Pierre Zweigenbaum

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Thésaurus multilingues

Traduction automatique

Zweigenbaum, Pierre (1958-....) (Directeur de thèse / thesis advisor)

Yvon, François (19..-.... ; auteur en informatique) (Président du jury de soutenance / praeses)

Gaussier, Éric (19..-....) (Rapporteur de la thèse / thesis reporter)

Rapp, Reinhard (linguiste) (Rapporteur de la thèse / thesis reporter)

Langlais, Philippe (Membre du jury / opponent)

Semmar, Nasredine (19..-....) (Membre du jury / opponent)

Université Paris-Sud (1970-2019) (Organisme de soutenance / degree-grantor)

Ecole doctorale Informatique de Paris-Sud (2000-2015) (Ecole doctorale associée à la thèse / doctoral school)

Laboratoire d'intégration des systèmes et des technologies (Gif-sur-Yvette, Essonne ; 2001-....) (Laboratoire associé à la thèse / thesis associated laboratory)

Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur (Orsay, Essonne ; 1972-2020) (Laboratoire associé à la thèse / thesis associated laboratory)

Laboratoire Vision et Ingénierie des contenus (Gif sur Yvette) (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : Les lexiques bilingues sont des ressources particulièrement utiles pour la Traduction Automatique et la Recherche d’Information Translingue. Leur construction manuelle nécessite une expertise forte dans les deux langues concernées et est un processus coûteux. Plusieurs méthodes automatiques ont été proposées comme une alternative, mais elles qui ne sont disponibles que dans un nombre limité de langues et leurs performances sont encore loin derrière la qualité des traductions manuelles.Notre travail porte sur l'extraction de ces lexiques bilingues à partir de corpus de textes parallèles et comparables, c'est à dire la reconnaissance et l'alignement d'un vocabulaire commun multilingue présent dans ces corpus.

Résumé / Abstract : Bilingual lexicons are central components of machine translation and cross-lingual information retrieval systems. Their manual construction requires extensive expertise in both languages involved and it is a costly process. Several automatic methods were proposed as an alternative but they often rely of resources available in a limited number of languages and their performances are still far behind the quality of manual translations.Our work concerns bilingual lexicon extraction from multilingual parallel and comparable corpora, in other words, the process of finding translation pairs among the common multilingual vocabulary available in such corpora.