Learning algorithms and statistical software, with applications to bioinformatics / Toby Dylan Hocking ; sous la direction de Francis Bach

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Bioinformatique -- Modèles mathématiques

Statistique -- Logiciels

Apprentissage automatique

Bach, Francis (1974-....) (Directeur de thèse / thesis advisor)

Robin, Stéphane (1965-.... ; statisticien) (Rapporteur de la thèse / thesis reporter)

Grandvalet, Yves (19..-....) (Rapporteur de la thèse / thesis reporter)

Vert, Jean-Philippe (1973-.... ; mathématicien) (Membre du jury / opponent)

Janoueix-Lerosey, Isabelle (19..-....) (Membre du jury / opponent)

École normale supérieure Paris-Saclay (Gif-sur-Yvette, Essonne ; 1912-....) (Organisme de soutenance / degree-grantor)

École doctorale Sciences pratiques (1998-2015 ; Cachan, Val-de-Marne) (Ecole doctorale associée à la thèse / doctoral school)

Résumé / Abstract : L'apprentissage statistique est le domaine des mathématiques qui aborde le développement des algorithmes d'analyse de données. Cette thèse est divisée en deux parties : l'introduction de modèles mathématiques et l'implémentation d'outils logiciels. Dans la première partie, je présente de nouveaux algorithmes pour la segmentation et pour le partitionnement de données (clustering). Le partitionnement de données et la segmentation sont des méthodes d'analyse qui cherche des structures dans les données. Je présente les contributions suivantes, en soulignant les applications à la bioinformatique. Dans la deuxième partie, je présente mes contributions au logiciel libre pour la statistique, qui est utilisé pour l'analyse quotidienne du statisticien.

Résumé / Abstract : Statistical machine learning is a branch of mathematics concerned with developing algorithms for data analysis. This thesis presents new mathematical models and statistical software, and is organized into two parts. In the first part, I present several new algorithms for clustering and segmentation. Clustering and segmentation are a class of techniques that attempt to find structures in data. I discuss the following contributions, with a focus on applications to cancer data from bioinformatics. In the second part, I focus on statistical software contributions which are practical for use in everyday data analysis.