Nouvelles méthodes pour l'apprentissage non-supervisé en grandes dimensions. / Hafiz Tiomoko ali ; sous la direction de Romain Couillet

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Langue / Language : anglais / English

Catalogue Worldcat

Systèmes de grandes dimensions

Matrices aléatoires

Classification

Apprentissage automatique

Couillet, Romain (1983-....) (Directeur de thèse / thesis advisor)

Sebag, Michèle (Président du jury de soutenance / praeses)

Borgnat, Pierre (19..-....) (Rapporteur de la thèse / thesis reporter)

Avrachenkov, Konstantin (1973-....) (Rapporteur de la thèse / thesis reporter)

Zdeborová, Lenka (1980-....) (Membre du jury / opponent)

Lelarge, Marc (1977-....) (Membre du jury / opponent)

Najim, Jamal (Membre du jury / opponent)

Pascal, Frédéric (1979-.... ; (chercheur en traitement du signal)) (Membre du jury / opponent)

Université Paris-Saclay (2015-2019) (Organisme de soutenance / degree-grantor)

École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) (Ecole doctorale associée à la thèse / doctoral school)

CentraleSupélec (2015-....) (Autre partenaire associé à la thèse / thesis associated third party)

Laboratoire des signaux et systèmes (Gif-sur-Yvette, Essonne ; 1974-....) (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : Motivée par les récentes avancées dans l'analyse théorique des performances des algorithmes d'apprentissage automatisé, cette thèse s'intéresse à l'analyse de performances et à l'amélioration de la classification nonsupervisée de données et graphes en grande dimension. Spécifiquement, dans la première grande partie de cette thèse, en s'appuyant sur des outils avancés de la théorie des grandes matrices aléatoires, nous analysons les performances de méthodes spectrales sur des modèles de graphes réalistes et denses ainsi que sur des données en grandes dimensions en étudiant notamment les valeurs propres et vecteurs propres des matrices d'affinités de ces données. De nouvelles méthodes améliorées sont proposées sur la base de cette analyse théorique et démontrent à travers de nombreuses simulations que leurs performances sont meilleures comparées aux méthodes de l'état de l'art. Dans la seconde partie de la thèse, nous proposons un nouvel algorithme pour la détection de communautés hétérogènes entre plusieurs couches d'un graphe à plusieurs types d'interaction. Une approche bayésienne variationnelle est utilisée pour approximer la distribution apostériori des variables latentes du modèle. Toutes les méthodes proposées dans cette thèse sont utilisées sur des bases de données synthétiques et sur des données réelles et présentent de meilleures performances en comparaison aux approches standard de classification dans les contextes susmentionnés.

Résumé / Abstract : Spurred by recent advances on the theoretical analysis of the performances of the data-driven machine learning algorithms, this thesis tackles the performance analysis and improvement of high dimensional data and graph clustering. Specifically, in the first bigger part of the thesis, using advanced tools from random matrix theory, the performance analysis of spectral methods on dense realistic graph models and on high dimensional kernel random matrices is performed through the study of the eigenvalues and eigenvectors of the similarity matrices characterizing those data. New improved methods are proposed and are shown to outperform state-of-the-art approaches. In a second part, a new algorithm is proposed for the detection of heterogeneous communities from multi-layer graphs using variational Bayes approaches to approximate the posterior distribution of the sought variables. The proposed methods are successfully applied to synthetic benchmarks as well as real-world datasets and are shown to outperform standard approaches to clustering in those specific contexts.