Méthode d'enrichissement et d'élargissement d'une ontologie à partir de corpus de spécialité multilingues / Yuliya Korenchuk ; sous la direction de Amalia Todiraşcu-Courtier et de Delphine Bernhard

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Informatique -- Recherche

Langages de programmation -- Sémantique

Recherche d'information multilingue

Classification Dewey : 005.13

Todiraşcu-Courtier, Amalia (Directeur de thèse / thesis advisor)

Bernhard, Delphine (1978-.... ; auteure en sciences cognitives) (Directeur de thèse / thesis advisor)

Heid, Ulrich (19..-....) (Président du jury de soutenance / praeses)

Zanni-Merk, Cecilia (1963-.... ; chercheuse en informatique) (Rapporteur de la thèse / thesis reporter)

Université de Strasbourg (2009-....) (Organisme de soutenance / degree-grantor)

École doctorale Humanités (Strasbourg ; 2009-....) (Ecole doctorale associée à la thèse / doctoral school)

Linguistique, langues, parole (Strasbourg) (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : Cette thèse propose une méthode pour alimenter une ontologie, une structure de concepts liés par des relations sémantiques, par des termes français, anglais et allemands à partir de corpus spécialisés comparables. Son apport principal est le développement des méthodes d'extraction utilisant des ressources endogènes apprises à partir de corpus et d'ontologie. Exploitant des n-grammes de caractères, elles sont disponibles et indépendantes vis-à-vis de la langue et du domaine. La première contribution porte sur l'utilisation des ressources morphologiques et morphosyntaxiques endogènes pour extraire des termes mono- et polylexicaux à partir de corpus. La deuxième contribution vise à exploiter des ressources endogènes pour identifier leurs traductions. La troisième contribution concerne la construction des familles morphologiques endogènes servant à alimenter l'ontologie.

Résumé / Abstract : This thesis proposes a method of enrichment and population of an ontology, a structure of concepts linked by semantic relations, by terms in French, English and German from comparable domain-specific corpora. Our main contribution is the development of extraction methods based on endogenous resources, learned from the corpus and the ontology being analyzed. Using caracter n-grams, these resources are available and independent of a particular language or domain. The first contribution concerns the use of endogenous morphological and morphosyntactic resources for mono- and polylexical terms extraction from the corpus. The second contribution aims to use endogenous resources to identify translations for these terms. The third contribution concerns the construction of endogenous morphological families designed to enrich and populate the ontology.