Fouille de motifs et modélisation statistique pour l'extraction de connaissances textuelles / Pierre Holat ; sous la direction de Thierry Charnois

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Catalogue Worldcat

Traitement automatique du langage naturel

Apprentissage automatique

Exploration de données

Apprentissage automatique

Charnois, Thierry (Directeur de thèse / thesis advisor)

Crémilleux, Bruno (Président du jury de soutenance / praeses)

Teisseire, Maguelonne (Rapporteur de la thèse / thesis reporter)

Jacquenet, François (1961-....) (Rapporteur de la thèse / thesis reporter)

Soldano, Henry (Membre du jury / opponent)

Tomeh, Nadi (1982-....) (Membre du jury / opponent)

Université Sorbonne Paris Cité (Organisme de soutenance / degree-grantor)

École doctorale Galilée (Villetaneuse, Seine-Saint-Denis) (Ecole doctorale associée à la thèse / doctoral school)

Laboratoire informatique de Paris-Nord (Villetaneuse, Seine-Saint-Denis) (Laboratoire associé à la thèse / thesis associated laboratory)

Université Paris 13 (Autre partenaire associé à la thèse / thesis associated third party)

Résumé / Abstract : En traitement automatique des langues, deux grandes approches sont utilisées : l'apprentissage automatique et la fouille de données. Dans ce contexte, croiser les méthodes de fouille de données fondées sur les motifs et les méthodes d’apprentissage automatique statistique est une voie prometteuse mais à peine explorée. Dans cette thèse, nous présentons trois contributions majeures : l'introduction des motifs delta libres,utilisés comme descripteurs de modèle statistiques; l'introduction d'une contrainte de similarité sémantique pour la fouille, calculée grâce à un modèle statistique; l'introduction des règles séquentielles d'étiquetage,crées à partir des motifs et sélectionnées par un modèle statistique.

Résumé / Abstract : In natural language processing, two main approaches are used : machine learning and data mining. In this context, cross-referencing data mining methods based on patterns and statistical machine learning methods is apromising but hardly explored avenue. In this thesis, we present three major contributions: the introduction of delta-free patterns, used as statistical model features; the introduction of a semantic similarity constraint for the mining, calculated using a statistical model; and the introduction of sequential labeling rules, created from the patterns and selected by a statistical model.