Machine translation of proper names from English and French into Vietnamese : an error analysis and some proposed solutions / Thao Phan Thi Thanh ; sous la direction de Sylviane Cardey-Greenfield et de Ha Le An et de Izabella Thomas

Date : 2014

Editeur / Publisher : [S.l.] : [s.n.] , 2014

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Langue / Language : français / French

Langue / Language : vietnamien / Vietnamese

Traduction assistée par ordinateur -- Qualité

Anglais (langue) -- Traduction automatique

Français (langue) -- Traduction automatique

Noms propres anglais -- Traduction

Noms propres français -- Traduction

Vietnamien (langue) -- Traduction automatique

Phan Thi Thanh, Thao (1972-....) (Auteur / author)

Cardey-Greenfield, Sylviane (1951-....) (Directeur de thèse / thesis advisor)

Hà, Lê An (197.-....) (Directeur de thèse / thesis advisor)

Thomas, Izabella (Directeur de thèse / thesis advisor)

Maurel, Denis (1956-.... ; auteur en informatique) (Président du jury de soutenance / praeses)

Cardey-Greenfield, Sylviane (1951-....) (Membre du jury / opponent)

Hà, Lê An (197.-....) (Membre du jury / opponent)

Thomas, Izabella (Membre du jury / opponent)

Mitkov, Ruslan (Membre du jury / opponent)

Maurel, Denis (1956-.... ; auteur en informatique) (Rapporteur de la thèse / thesis reporter)

Mitkov, Ruslan (Rapporteur de la thèse / thesis reporter)

Université de Franche-Comté (1971-....) (Organisme de soutenance / degree-grantor)

Ecole doctorale Langages, Espaces, Temps, Sociétés (Besançon ; 1991-2016) (Ecole doctorale associée à la thèse / doctoral school)

Centre de recherche en linguistique et traitement automatique des langues, Lucien Tesnière (Besançon ; 1980-2015) (Laboratoire associé à la thèse / thesis associated laboratory)

Relation : Machine translation of proper names from english and french into vietnamese : an error analysis and some proposed solutions / Thao Phan Thi Thanh ; sous la direction de Sylviane Cardey-Greenfield et de Lê an Hà et de Izabella Thomas / , 2014

Résumé / Abstract : Dans l'ère de l'information et de la connaissance, la traduction automatique (TA) devient progressivement un outil indispensable pour transposer la signification d'un texte d'une langue source vers une langue cible. La TA des noms propres (NP), en particulier, joue un rôle crucial dans ce processus, puisqu'elle permet une identification précise des personnes, des lieux, des organisations et des artefacts à travers les langues. Malgré un grand nombre d'études et des résultats significatifs concernant la reconnaissance d'entités nommées (dont le nom propre fait partie) dans la communauté de TAL dans le monde, il n'existe presque aucune recherche sur la traduction automatique des noms propres (TANP) pour le vietnamien. En raison des caractéristiques différentes d'écriture de NP, la translittération ou la transcription et la traduction de plusieurs des langues incluant l'anglais, le français, le russe, le chinois, etc. vers le vietnamien, le TANP de ces langues vers le vietnamien est stimulant et problématique. Cette étude se concentre sur les problèmes de TANP d’anglais vers le vietnamien et de français vers le vietnamien résultant du moteurs courants de la TA et présente les solutions de prétraitement de ces problèmes pour améliorer la qualité de la TA. A travers l'analyse et la classification d'erreurs de la TANP faites sur deux corpus parallèles de textes avec PN (anglais-vietnamien et français-vietnamien), nous proposons les solutions concernant deux problématiques importantes: (1) l'annotation de corpus, afin de préparer des bases de données pour le prétraitement et (2) la création d'un programme pour prétraiter automatiquement les corpus annotés, afin de réduire les erreurs de la TANP et d'améliorer la qualité de traduction des systèmes de TA, tels que Google, Vietgle, Bing et EVTran. L'efficacité de différentes méthodes d'annotation des corpus avec des NP ainsi que les taux d'erreurs de la TANP avant et après l'application du programme de prétraitement sur les deux corpus annotés sont comparés et discutés dans cette thèse. Ils prouvent que le prétraitement réduit significativement le taux d'erreurs de la TANP et, par là-même, contribue à l'amélioration de traduction automatique vers la langue vietnamienne.

Résumé / Abstract : Machine translation (MT) has increasingly become an indispensable tool for decoding the meaning of a text from a source language into a target language in our current information and knowledge era. In particular, MT of proper names (PN) plays a crucial role in providing the specific and precise identification of persons, places, organizations, and artefacts through the languages. Despite a large number of studies and significant achievements of named entity recognition in the NLP community around the world, there has been almost no research on PNMT for Vietnamese language. Due to the different features of PN writing, transliteration or transcription and translation from a variety of languages including English, French, Russian, Chinese, etc. into Vietnamese, the PNMT from those languages into Vietnamese is still challenging and problematic issue. This study focuses on theproblems of English-Vietnamese and French-Vietnamese PNMT arising from current MT engines. First,it proposes a corpus-based PN classification, then a detailed PNMT error analysis to conclude with some pre-processing solutions in order to improve the MT quality. Through the analysis and classification of PNMT errors from the two English-Vietnamese and French-Vietnamese parallel corpora of texts with PNs, we propose solutions concerning two major issues: (1) corpus annotation for preparing the pre-processing databases, and (2) design of the pre-processing program to be used on annotated corpora to reduce the PNMT errors and enhance the quality of MTsystems, including Google, Vietgle, Bing and EVTran. The efficacy of different annotation methods of English and French corpora of PNs and the results of PNMT errors before and after using the pre-processing program on the two annotated corpora are compared and discussed in this study. They prove that the pre-processing solution reduces significantly PNMT errors and contributes to the improvement of the MT systems’ for Vietnamese language.