Machine translation of proper names from english and french into vietnamese : an error analysis and some proposed solutions / Thao Phan Thi Thanh ; sous la direction de Sylviane Cardey-Greenfield et de Lê an Hà et de Izabella Thomas

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Langue / Language : français / French

Langue / Language : vietnamien / Vietnamese

Traduction assistée par ordinateur -- Qualité

Anglais (langue) -- Traduction automatique

Français (langue) -- Traduction automatique

Noms propres anglais -- Traduction

Noms propres français -- Traduction

Vietnamien (langue) -- Traduction automatique

Classification Dewey : 418

Cardey-Greenfield, Sylviane (1951-....) (Directeur de thèse / thesis advisor)

Hà, Lê An (197.-....) (Directeur de thèse / thesis advisor)

Thomas, Izabella (Directeur de thèse / thesis advisor)

Maurel, Denis (1956-.... ; auteur en informatique) (Président du jury de soutenance / praeses)

Mitkov, Ruslan (Rapporteur de la thèse / thesis reporter)

Université de Franche-Comté (1971-....) (Organisme de soutenance / degree-grantor)

Ecole doctorale Langages, Espaces, Temps, Sociétés (Besançon ; 1991-2016) (Ecole doctorale associée à la thèse / doctoral school)

Centre de recherche en linguistique et traitement automatique des langues, Lucien Tesnière (Besançon ; 1980-2015) (Laboratoire associé à la thèse / thesis associated laboratory)

Relation : Machine translation of proper names from English and French into Vietnamese : an error analysis and some proposed solutions / Thao Phan Thi Thanh ; sous la direction de Sylviane Cardey-Greenfield et de Ha Le An et de Izabella Thomas / [S.l.] : [s.n.] , 2014

Résumé / Abstract : Dans l'ère de l'information et de la connaissance, la traduction automatique (TA) devientprogressivement un outil indispensable pour transposer la signification d'un texte d'une langue source versune langue cible. La TA des noms propres (NP), en particulier, joue un rôle crucial dans ce processus,puisqu'elle permet une identification précise des personnes, des lieux, des organisations et des artefacts àtravers les langues. Malgré un grand nombre d'études et des résultats significatifs concernant lareconnaissance d'entités nommées (dont le nom propre fait partie) dans la communauté de TAL dans lemonde, il n'existe presque aucune recherche sur la traduction automatique des noms propres (TANP) pourle vietnamien. En raison des caractéristiques différentes d'écriture de NP, la translittération ou la transcription etla traduction de plusieurs de langues incluant l'anglais, le français, le russe, le chinois, etc. vers levietnamien, le TANP de ces langues vers le vietnamien est stimulant et problématique. Cette étude seconcentre sur les problèmes de TANP d’anglais vers le vietnamien et de français vers le vietnamienrésultant du moteurs courants de la TA et présente les solutions de prétraitement de ces problèmes pouraméliorer la qualité de la TA. A travers l'analyse et la classification d'erreurs de la TANP faites sur deux corpus parallèles detextes avec PN (anglais-vietnamien et français-vietnamien), nous proposons les solutions concernant deuxproblématiques importantes: (1) l'annotation de corpus, afin de préparer des bases de données pour leprétraitement et (2) la création d'un programme pour prétraiter automatiquement les corpus annotés, afinde réduire les erreurs de la TANP et d'améliorer la qualité de traduction des systèmes de TA, tels queGoogle, Vietgle, Bing et EVTran. L'efficacité de différentes méthodes d'annotation des corpus avec des NP ainsi que les tauxd'erreurs de la TANP avant et après l'application du programme de prétraitement sur les deux corpusannotés est comparés et discutés dans cette thèse. Ils prouvent que le prétraitement réduitsignificativement le taux d'erreurs de la TANP et, par la même, contribue à l'amélioration de traductionautomatique vers la langue vietnamienne.

Résumé / Abstract : Machine translation (MT) has increasingly become an indispensable tool for decoding themeaning of a text from a source language into a target language in our current information and knowledgeera. In particular, MT of proper names (PN) plays a crucial role in providing the specific and preciseidentification of persons, places, organizations, and artefacts through the languages. Despite a largenumber of studies and significant achievements of named entity recognition in the NLP communityaround the world, there has been almost no research on PNMT for Vietnamese language. Due to the different features of PN writing, transliteration or transcription and translation from a variety of languages including English, French, Russian, Chinese, etc. into Vietnamese, the PNMT from those languages into Vietnamese is still challenging and problematic issue. This study focuses on theproblems of English-Vietnamese and French-Vietnamese PNMT arising from current MT engines. First,it proposes a corpus-based PN classification, then a detailed PNMT error analysis to conclude with somepre-processing solutions in order to improve the MT quality. Through the analysis and classification of PNMT errors from the two English-Vietnamese and French-Vietnamese parallel corpora of texts with PNs, we propose solutions concerning two major issues:(1)corpus annotation for preparing the pre-processing databases, and (2)design of the pre-processingprogram to be used on annotated corpora to reduce the PNMT errors and enhance the quality of MTsystems, including Google, Vietgle, Bing and EVTran. The efficacy of different annotation methods of English and French corpora of PNs and the results of PNMT errors before and after using the pre-processing program on the two annotated corporaare compared and discussed in this study. They prove that the pre-processing solution reducessignificantly PNMT errors and contributes to the improvement of the MT systems’ for Vietnameselanguage.