Méthodes du noyau pour l'analyse des données de grande dimension / Alba Chiara De Vitis ; sous la direction de Jean-Daniel Boissonnat

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Catalogue Worldcat

Noyaux (analyse fonctionnelle)

Apprentissage automatique

Statistique mathématique

Boissonnat, Jean-Daniel (1953-....) (Directeur de thèse / thesis advisor)

Cazals, Frédéric (Président du jury de soutenance / praeses)

Michel, Bertrand (1978-.... ; mathématicien et informaticien) (Rapporteur de la thèse / thesis reporter)

Pettini, Marco (Rapporteur de la thèse / thesis reporter)

Cohen-Steiner, David (19..-....) (Membre du jury / opponent)

Giulini, Ilaria (1988-....) (Membre du jury / opponent)

Université Côte d'Azur (2015-2019) (Organisme de soutenance / degree-grantor)

École doctorale Sciences et technologies de l'information et de la communication (Sophia Antipolis, Alpes-Maritimes) (Ecole doctorale associée à la thèse / doctoral school)

Université de Nice (1965-2019) (Autre partenaire associé à la thèse / thesis associated third party)

Institut national de recherche en informatique et en automatique (France). Unité de recherche (Sophia Antipolis, Alpes-Maritimes) (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : Les nouvelles technologies permettant la collecte de données dépendant d’un nombre de plus en plus important de paramètres, les ensembles de données voient leur dimension devenir de plus en plus grande. Les problèmes théoriques, qui dépendent notamment de la dimension intrinsèque de l’ensemble des données, et les problèmes de calcul, liés à la dimension de l’espace où vivent les données, affectent l’analyse de données en grandes dimensions. Dans cette thèse, nous étudions le problème de l’analyse de données en grandes dimensions en nous plaçant dans le cadre des espaces métriques mesurés. Nous utilisons la concentration de la mesure pour produire des outils capables de décrire la structure des ensembles de données de grandes dimensions. Nous visons à introduire un nouveau point de vue sur l’utilisation des distances et des mesures de probabilité définies sur les données. Plus précisément, nous montrons que les méthodes de noyau, déjà utilisées en petites dimensions intrinsèques pour réduire la dimensionnalité, peuvent être utilisées en grandes dimensions et appliquées à des cas non traités dans la littérature.

Résumé / Abstract : Since data are being collected using an increasing number of features, datasets are of increasingly high dimension. Computational problems, related to the apparent dimension, i.e. the dimension of the vectors used to collect data, and theoretical problems, which depends notably on the effective dimension of the dataset, the so called intrinsic dimension, have affected high dimensional data analysis. In order to provide a suitable approach to data analysis in high dimensions, we introduce a more comprehensive scenario in the framework of metric measure spaces. The aim of this thesis, is to show how to take advantage of high dimensionality phenomena in the pure high dimensional regime. In particular, we aim at introducing a new point of view in the use of distances and probability measures defined on the data set. More specifically, we want to show that kernel methods, already used in the intrinsic low dimensional scenario in order to reduce dimensionality, can be investigated under purely high dimensional hypotheses, and further applied to cases not covered by the literature.