Etude de la classification dans un trés grand nombre de catégories / Raphael Puget ; sous la direction de Nicolas Baskiotis et de Patrick Gallinari

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Ontologies (informatique)

Données massives

Classification

Classification Dewey : 004

Baskiotis, Nicolas (1980-....) (Directeur de thèse / thesis advisor)

Gallinari, Patrick (19..-....) (Directeur de thèse / thesis advisor)

Lesot, Marie-Jeanne (1978-.... ; enseignante-chercheuse en informatique) (Président du jury de soutenance / praeses)

Amini, Massih-Reza (19..-.... ; chercheur en informatique) (Rapporteur de la thèse / thesis reporter)

Tommasi, Marc (19..-....) (Rapporteur de la thèse / thesis reporter)

Mary, Jérémie (19..-....) (Membre du jury / opponent)

Université Pierre et Marie Curie (Paris ; 1971-2017) (Organisme de soutenance / degree-grantor)

École doctorale Informatique, télécommunications et électronique de Paris (1992-...) (Ecole doctorale associée à la thèse / doctoral school)

LIP6 (1997-....) (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : La croissance des données disponibles aujourd'hui génère de nouvelles problématiques pour lesquelles l'apprentissage statistique ne possède pas de réponses adaptées. Ainsi le cadre classique de la classification qui consiste à affecter une ou plusieurs classes à une instance est étendu à des problèmes avec des milliers, voire des millions de classes différentes. Avec ces problèmes viennent de nouveaux axes de recherches comme \deleted{le temps} \added{la réduction de la compléxité} de classification qui est habituellement linéaire en fonction du nombre de classes du problème\deleted{.} \added{, ce qui est problématique lorsque le nombre de classe devient trop important.} Plusieurs familles de solutions pour cette problématique ont émergé comme la construction d'une hiérarchie de classifieurs ou bien l'adaptation de méthodes ensemblistes de type ECOC. Le travail présenté ici propose deux nouvelles méthodes pour répondre au problème de classification extrême. Le premier travail consiste en une nouvelle mesure asymétrique pour le partitionnement de classes dans le cadre d'une classification hiérarchique alors que le second axe explore l'élaboration d'un algorithme séquentiel actif d'agrégation des classifieurs les plus intéressants.

Résumé / Abstract : The increase in volume of the data nowadays is at the origin of new problematics for which machine learning does not possess adapted answers. The usual classification task which requires to assign one or more classes to an example is extended to problems with thousands or even millions of different classes. Those problems bring new research fields like the complexity reduction of the classification process. That classification process has a complexity usually linear with the number of classes of the problem, which can be an issue if the number of classes is too large. Various ways to deal with those new problems have emerged like the construction of a hierarchy of classifiers or the adaptation of ECOC ensemble methods. The work presented here describes two new methods to answer this extreme classification task. The first one consists in a new asymmetrical measure to help the partitioning of the classes in order to build a hierarchy of classes. The second one proposes a sequential way to aggregate effectively the most interesting classifiers.