Modèles statistiques pour la prédiction de cadres sémantiques / Olivier Michalon ; sous la direction de Alexis Nasr et de Benoît Favre

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Traitement automatique du langage naturel

Interaction humain-machine

Sémantique

Classification Dewey : 004

Nasr, Alexis (1968-....) (Directeur de thèse / thesis advisor)

Favre, Benoît (19..-....) (Directeur de thèse / thesis advisor)

Constant, Matthieu (Président du jury de soutenance / praeses)

Asher, Nicholas (1954-.... ; chercheur en informatique) (Rapporteur de la thèse / thesis reporter)

Candito, Marie-Hélène (19..-....) (Membre du jury / opponent)

Aix-Marseille Université (2012-....) (Organisme de soutenance / degree-grantor)

Ecole Doctorale Mathématiques et Informatique de Marseille (Marseille) (Ecole doctorale associée à la thèse / doctoral school)

Laboratoire d'informatique fondamentale (Marseille) (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : En traitement automatique de la langue, les différentes étapes d'analyse usuelles ont tour à tour amélioré la façon dont le langage peut être modélisé par les machines. Une étape d'analyse encore mal maîtrisée correspond à l'analyse sémantique. Ce type d'analyse permettrait de nombreuses avancées, telles que de meilleures interactions homme-machine ou des traductions plus fiables. Il existe plusieurs structures de représentation du sens telles que PropBank, les AMR et FrameNet. FrameNet correspond à la représentation en cadres sémantiques dont la théorie a été décrite par Charles Fillmore. Dans cette théorie, chaque situation prototypique et les différents éléments y intervenant sont représentés de telle sorte que deux situations similaires soient représentées par le même objet, appelé cadre sémantique. Le projet FrameNet est une application de cette théorie, dans laquelle plusieurs centaines de situations prototypiques sont définies. Le travail que nous décrirons ici s'inscrit dans la continuité des travaux déjà élaborés pour prédire automatiquement des cadres sémantiques. Nous présenterons quatre systèmes de prédiction, chacun ayant permis de valider une hypothèse sur les propriétés nécessaires à une prédiction efficace. Nous verrons également que notre analyse peut être améliorée en fournissant aux modèles de prédiction des informations raffinées au préalable, avec d'un côté une analyse syntaxique dont les liens profonds sont explicités et de l'autre des représentations vectorielles du vocabulaire apprises au préalable.

Résumé / Abstract : In natural language processing, each analysis step has improved the way in which language can be modeled by machines. Another step of analysis still poorly mastered resides in semantic parsing. This type of analysis can provide information which would allow for many advances, such as better human-machine interactions or more reliable translations. There exist several types of meaning representation structures, such as PropBank, AMR and FrameNet. FrameNet corresponds to the frame semantic framework whose theory has been described by Charles Fillmore (1971). In this theory, each prototypical situation and each different elements involved are represented in such a way that two similar situations are represented by the same object, called a semantic frame. The work that we will describe here follows the work already developed for machine prediction of frame semantic representations. We will present four prediction systems, and each one of them allowed to validate another hypothesis on the necessary properties for effective prediction. We will show that semantic parsing can also be improved by providing prediction models with refined information as input of the system, with firstly a syntactic analysis where deep links are made explicit and secondly vectorial representations of the vocabulary learned beforehand.