Gestion et extension automatiques du dictionnaire relationnel multilingues de noms propres Prolexbase : mise à jour multilingues et création d'un volume arabe via la Wikipédia / Mouna Elashter ; sous la direction de Denis Maurel

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Catalogue Worldcat

Dictionnaires électroniques

Encyclopédies électroniques

Modules d'extension (logiciels)

Dictionnaires multilingues

Arabe (langue)

Fichiers (informatique) -- Traitement

Automates programmables

Traitement automatique du langage naturel

Noms propres arabes

Hyperliens

Maurel, Denis (Directeur de thèse / thesis advisor)

Daille, Béatrice (Président du jury de soutenance / praeses)

Haddar, Kais (Rapporteur de la thèse / thesis reporter)

Markhoff, Béatrice (1965-....) (Membre du jury / opponent)

Université de Tours (Organisme de soutenance / degree-grantor)

École doctorale Mathématiques, Informatique, Physique Théorique et Ingénierie des Systèmes (Centre-Val de Loire) (Ecole doctorale associée à la thèse / doctoral school)

Laboratoire d'Informatique Fondamentale et Appliquée de Tours (Equipe de recherche associée à la thèse / thesis associated research team)

École polytechnique universitaire (Tours) (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : Les bases de données lexicales jouent un grand rôle dans le TAL, mais, elles nécessitent un développement et un enrichissement permanents via l’exploitation des ressources libres du web sémantique, entre autres, l’encyclopédie Wikipédia, DBpedia, Geonames et Yago2. Prolexbase, comporte à ce jour dix langues, trois parmi elles sont bien couvertes : le francais, l’anglais et le polonais. Il a été conçu manuellement et une première tentative semi-automatique a été réalisée par le projet ProlexFeeder (Savary et al. 2013). L’objectif de notre travail était d’élaborer un outil de mise à jour et d’extension automatiques de ce lexique, et l'ajout de la langue arabe. Un système automatique a également été mis en place pour calculer via la Wikipédia l’indice de notoriété des entrées de Prolexbase ; cet indice dépend de la langue et participe, d'une part, à la construction d'un module de Prolexbase pour la langue arabe et, d'autre part, à la révision de la notoriété présente pour les autres langues de la base.

Résumé / Abstract : Lexical databases play a significant role in natural language processing (NLP), however, they require permanent development and enrichment through the exploitation of free resources from the semantic web, among others, Wikipedia, DBpedia, Geonames and Yago2. Prolexbase, which issued of numerous studies on NLP, has ten languages, three of which are well covered: French, English and Polish. It was manually designed; the first semiautomatic attempt was made by the ProlexFeeder project (Savary et al., 2013). The objective of our work was to create an automatic updating and extension tool for Prolexbase, and to introduce the Arabic language. In addition, a fully automatic system has been implemented to calculate, via Wikipedia, the notoriety of the entries of Prolexbase. This notoriety is language dependent, is the first step in the construction of an Arabic module of Prolexbase, and it takes a part in the notoriety revision currently present for the other languages in the database.