Leveraging MWEs in practical TAG parsing : towards the best of the two worlds / Jakub Waszczuk ; sous la direction de Agata Savary et de Yannick Parmentier

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Figement (linguistique)

Syntaxe

Grammaire d'arbres adjoints

Traitement automatique du langage naturel

Analyse automatique (linguistique)

Algorithmes

Savary, Agata (Directeur de thèse / thesis advisor)

Parmentier, Yannick (1979-....) (Directeur de thèse / thesis advisor)

Antoine, Jean-Yves (1966-.... ; auteur en traitement du signal) (Président du jury de soutenance / praeses)

Wintner, Shuly (Rapporteur de la thèse / thesis reporter)

Kallmeyer, Laura (19..-....) (Rapporteur de la thèse / thesis reporter)

Villemonte de la Clergerie, Eric (19..-....) (Membre du jury / opponent)

Duchier, Denys (19..-.... ; professeur en informatique) (Membre du jury / opponent)

Nasr, Alexis (1968-....) (Membre du jury / opponent)

Université de Tours (1971-....) (Organisme de soutenance / degree-grantor)

École doctorale Mathématiques, Informatique, Physique Théorique et Ingénierie des Systèmes (Centre-Val de Loire) (Ecole doctorale associée à la thèse / doctoral school)

Laboratoire d'Informatique Fondamentale et Appliquée de Tours (2012-...) (Equipe de recherche associée à la thèse / thesis associated research team)

École polytechnique universitaire (Tours) (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : Dans ce mémoire, nous nous penchons sur les expressions polylexicales (EP) et leurs relations avec l’analyse syntaxique, la tâche qui consiste à déterminer les relations syntaxiques entre les mots dans une phrase donnée. Le défi que posent les EP dans ce contexte, par rapport aux expressions linguistiques régulières, provient de leurs propriétés parfois inattendues qui les rendent difficiles à gérer dans te traitement automatique des langues. Dans nos travaux, nous montrons qu’il est pourtant possible de profiter de ce cette caractéristique des EP afin d’améliorer les résultats d’analyse syntaxique. Notamment, avec les grammaires d’arbres adjoints (TAGs), qui fournissent un cadre naturel et puissant pour la modélisation des EP, ainsi qu’avec des stratégies de recherche basées sur l’algorithme A* , il est possible d’obtenir des gains importants au niveau de la vitesse sans pour autant détériorer la qualité de l’analyse syntaxique. Cela contraste avec des méthodes purement statistiques qui, malgré l’efficacité, ne fournissent pas de solutions satisfaisantes en ce qui concerne les EP. Nous proposons un analyseur syntaxique novateur qui combine les grammaires TAG avec La technique A*, axé sur la prédiction des EP, dont les fonctionnalités permettent des applications à grande échelle, facilement extensible au contexte probabiliste.

Résumé / Abstract : In this thesis, we focus on multiword expressions (MWEs) and their relationships with syntactic parsing. The latter task consists in retrieving the syntactic relations holding between the words in a given sentence. The challenge of MWEs in this respect is that, in contrast to regular linguistic expressions, they exhibit various irregular properties which make them harder to deal with in natural language processing. In our work, we show that the challenge of the MWE-related irregularities can be turned into an advantage in practical symbolic parsing. Namely, with tree adjoining grammars (TAGs), which provide first-cLass support for MWEs, and A* search strategies, considerable speed-up gains can be achieved by promoting MWE-based analyses with virtually no loss in syntactic parsing accuracy. This is in contrast to purely statistical state-of-the-art parsers, which, despite efficiency, provide no satisfactory support for MWEs. We contribute a TAG-A* -MWE-aware parsing architecture with facilities (grammar compression and feature structures) enabling real-world applications, easily extensible to a probabilistic framework.