Algorithmes de machine learning adaptatifs pour flux de données sujets à des changements de concept / Pierre-Xavier Loeffel ; sous la direction de Marcin Detyniecki et de Christophe Marsala

Date : 2017

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Apprentissage automatique

Algorithmes en ligne

Prédictions conformes (informatique)

Classification Dewey : 004

Loeffel, Pierre-Xavier (1985-....) (Auteur / author)

Detyniecki, Marcin (19..-.... ; informaticien) (Directeur de thèse / thesis advisor)

Marsala, Christophe (19..-.... ; professeur en informatique) (Directeur de thèse / thesis advisor)

Amann, Bernd (19..-....) (Président du jury de soutenance / praeses)

Kuncheva, Ludmila I. (1959-....) (Rapporteur de la thèse / thesis reporter)

Gama, João (19..-....) (Rapporteur de la thèse / thesis reporter)

Bifet, Albert (19..-....) (Membre du jury / opponent)

Lemaire, Vincent (19..-.... ; chercheur en informatique.) (Membre du jury / opponent)

Cornuéjols, Antoine (19..-....) (Membre du jury / opponent)

Université Pierre et Marie Curie (Paris ; 1971-2017) (Organisme de soutenance / degree-grantor)

École doctorale Informatique, télécommunications et électronique de Paris (Ecole doctorale associée à la thèse / doctoral school)

LIP6 (1997-....) (Laboratoire associé à la thèse / thesis associated laboratory)

Accès en ligne / online access

Résumé / Abstract : Dans cette thèse, nous considérons le problème de la classification supervisée sur un flux de données sujets à des changements de concepts. Afin de pouvoir apprendre dans cet environnement, nous pensons qu’un algorithme d’apprentissage doit combiner plusieurs caractéristiques. Il doit apprendre en ligne, ne pas faire d’hypothèses sur le concept ou sur la nature des changements de concepts et doit être autorisé à s’abstenir de prédire lorsque c’est nécessaire. Les algorithmes en ligne sont un choix évident pour traiter les flux de données. De par leur structure, ils sont capables de continuellement affiner le modèle appris à l’aide des dernières observations reçues. La structure instance based a des propriétés qui la rende particulièrement adaptée pour traiter le problème des flux de données sujet à des changements de concept. En effet, ces algorithmes font très peu d’hypothèses sur la nature du concept qu’ils essaient d’apprendre ce qui leur donne une flexibilité qui les rend capable d’apprendre un vaste éventail de concepts. Une autre force est que stocker certaines des observations passées dans la mémoire peux amener de précieuses meta-informations qui pourront être utilisées par la suite par l’algorithme. Enfin, nous mettons en valeur l’importance de permettre à un algorithme d’apprentissage de s’abstenir de prédire lorsque c’est nécessaire. En effet, les changements de concepts peuvent être la source de beaucoup d’incertitudes et, parfois, l’algorithme peux ne pas avoir suffisamment d’informations pour donner une prédiction fiable.

Résumé / Abstract : In this thesis, we investigate the problem of supervised classification on a data stream subject to concept drifts. In order to learn in this environment, we claim that a successful learning algorithm must combine several characteristics. It must be able to learn and adapt continuously, it shouldn’t make any assumption on the nature of the concept or the expected type of drifts and it should be allowed to abstain from prediction when necessary. On-line learning algorithms are the obvious choice to handle data streams. Indeed, their update mechanism allows them to continuously update their learned model by always making use of the latest data. The instance based (IB) structure also has some properties which make it extremely well suited to handle the issue of data streams with drifting concepts. Indeed, IB algorithms make very little assumptions about the nature of the concept they are trying to learn. This grants them a great flexibility which make them likely to be able to learn from a wide range of concepts. Another strength is that storing some of the past observations into memory can bring valuable meta-informations which can be used by an algorithm. Furthermore, the IB structure allows the adaptation process to rely on hard evidences of obsolescence and, by doing so, adaptation to concept changes can happen without the need to explicitly detect the drifts. Finally, in this thesis we stress the importance of allowing the learning algorithm to abstain from prediction in this framework. This is because the drifts can generate a lot of uncertainties and at times, an algorithm might lack the necessary information to accurately predict.