Classifieur probabiliste et séparateur à vaste marge : application à la classification de texte et à l'étiquetage d'image / Anh Phuc Trinh ; sous la direction de Patrick Gallinari

Date :

Editeur / Publisher : [S.l.] : [s.n.] , 2012

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Analyse des données

Apprentissage automatique

Modèles log-linéaires

Machines à vecteurs de support

Gallinari, Patrick (19..-....) (Directeur de thèse / thesis advisor)

Université Pierre et Marie Curie (Paris ; 1971-2017) (Organisme de soutenance / degree-grantor)

Relation : Classifieur probabiliste et séparateur à vaste marge : application à la classification de texte et à l'étiquetage d'image / Anh Phuc Trinh ; sous la direction de Patrick Gallinari / Lille : Atelier national de reproduction des thèses , 2012

Résumé / Abstract : Cette thèse propose des estimateurs de probabilités a posteriori pour des Séparateur à Vaste Marge. Elle comporte une partie théorique et une partie expérimentale. La première contribution que nous présentons dans cette thèse est d’introduire un classifieur probabiliste basé sur des SVM pour la classification multi-classes. L’approche que nous utilisons est l’approche 1 contre 1, où pour un problème à k classes k(k - 1)/2 classifieurs sont entrainés. Les sorties binaires de ces classifieurs forment un espace de votes dans lequel sera prise la décision de classe. Nous introduisons un espace de vote enrichi qui permet de prendre en compte des relations entre l’ensemble des classes du problème et proposons une méthode pour apprendre à partir de cet espace binaire à estimer les probabilités a posteriori des classes. La seconde contribution concerne le problème de la classification multi-étiquettes et la prise en compte de dépendances entre étiquettes. La prédiction de sorties structurées a été ces dernières années un domaine extrêmement actif et de nombreux modèles basés sur des extensions des SVMs ou des modèles graphiques on été proposés. Nombre de ces modèles ont une complexité qui empêche toute application sur des données réelles. Nous introduisons un classifieur multi-étiquettes basé sur un formalisme de modèle graphique non dirigé. Nous proposons une méthode d’inférence approchée de complexité limitée qui permet une utilisation pratique de ces méthodes. Nous incorporons dans ce modèle les classifieurs probabilistes mentionnés plus haut pour estimer les probabilités nécessaires au calcul d’inférence. La troisième contribution est la validation expérimentale de ces idées et algorithmes. Une première application nous permet de tester notre classifieur probabiliste multi-classes. Il s’agit du Défi DEFT 1 qui est une compétition française sur la classification de textes. Les données sur lesquelles nous avons travaillé traitent de classification en thème et en genre de corpus journalistiques. La seconde application que nous avons traitée porte sur l’étiquetage d’images en utilisant une information de dépendance entre les étiquettes. Elle correspond à une tâche proposée dans la compétition internationale ImageCLEF08 2. Nous proposons un modèle graphique adapté à cette tâche qui nous permet de valider ce modèle multi-étiquettes.