Un modèle d'analyseur synthaxique robuste fondé sur la modularité et la lexicalisation de ses grammaires / Nùria Gala Pavia ; sous la dir. de Christian Jacquemin

Date :

Editeur / Publisher : [S.l.] : [s.n.] , 2003

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Jacquemin, Christian (1956-....) (Directeur de thèse / thesis advisor)

Université Paris-Sud (1970-2019) (Organisme de soutenance / degree-grantor)

Relation : Un modèle d'analyseur synthaxique robuste fondé sur la modularité et la lexicalisation de ses grammaires / Nùria Gala Pavia ; sous la direction de Christian Jacquemin / Grenoble : Atelier national de reproduction des thèses , 2003

Résumé / Abstract : Les analyseurs syntaxiques robustes associent automatiquement à la chaîne découpée en unités une représentation des groupements structurels et des relations fonctionnelles existant entre ces unités. L'enjeu auquel ces analyseurs se heurtent est souvent le maintien d'un équilibre entre la finesse de la description linguistique et l'efficacité de l'analyseur, ainsi qu'entre cette finesse descriptive et son adéquation empirique. Il existe un bon nombre de phénomènes mal modélisés ou pas modélisés du tout par les analyseurs existants, parce qu'il s'agit soit de phénomènes peu fréquents dans les corpus généralement utilisés pour le développement des analyseurs (modalités de l'oral, des instructions), soit de phénomènes ayant trait à la structure et à la visualisation des documents (marques typo-dispositionnelles), soit des structures requerant des techniques de traitement au delà de la syntaxe stricte (rattachement de groupes prépositionnels). Tous ces aspects nous amené à proposer et à implémenter une architecture pour un analyseur robuste capable de traiter du texte libre de différents domaines avec une couverture et une précision élévées et homogènes. Notre modèle d'analyseur s'articule ainsi autour de deux notions fondamentales: d'une part une spécialisation et une stratégie d'application modulaire des grammaires pour le traitement précis des corpus hétérogènes et, d'autre part, une lexicalisation des grammaires de dépendance (combinaison de la grammaire symbolique avec un mécanisme d'apprentissage non-supervisé) pour une meilleure résolution des ambigui͏̈tés structurelles liées au rattachement prépositionnel.

Résumé / Abstract : Robust parsers automatically assign to strings already chunked in units a representation of structural groups and functionnal relations existing within these units. The challenge for these systems is to keep a balance between the linguistic description and their performances, as well as between a fine-grained description and an empirical adequacy. There are a number of phenomena that existing parsers wrongly process or not process at all, i. e. structures not frequent in corpora used to develop the parsers, phenomena dealing with the structure and the visualisation of the documents, or phenomena requiring specific techniques going beyond syntax. All these points have lead us to propose and to implement an architecture for a robust parser able to process rough text from different domains with high and homogeneous coverage and precision rates. Our robust parser model is thus based on: first, a specialisation and a modular strategy of application of the different grammars in order to accurately process heterogeneous corpora and, second, dependency grammars lexicalisation (rule-based grammars combined with an unsupervised learning method) for a better resolution of prepositionnal attachment ambiguities.