Model selection via cross-validation in density estimation, regression, and change-points detection / Alain Celisse ; [sous la direction de] Stéphane Robin

Date :

Editeur / Publisher : [s.l.] : [s.n.] , 2008

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Langue / Language : anglais / English

Rééchantillonnage (statistique)

Algorithmes

Densité

Robin, Stéphane (1965-.... ; statisticien) (Directeur de thèse / thesis advisor)

Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne) (Autre partenaire associé à la thèse / thesis associated third party)

Université Paris-Sud (1970-2019) (Organisme de soutenance / degree-grantor)

Relation : Model selection via cross-validation in density estimation, regression, and change-points detection / Alain Celisse / Villeurbanne : [CCSD] , 2008

Relation : Model selection via cross-validation in density estimation, regression, and change-points detection / Alain Celisse ; [sous la direction de] Stéphane Robin / Lille : Atelier national de reproduction des thèses , 2008

Résumé / Abstract : L'objet de cette thèse est l'étude d'un certain type d'algorithmes de rééchantillonnage regroupés sous le nom de validation-croisée, et plus particulièrement du leave-p-out. Ces algorithmes sont encore mal compris d'un point de vue théorique, notamment non-asymptotique. Notre analyse du leave-p-out s'effectue dans les cadres de l'estimation de densité et de la régression. Son objectif est de mieux comprendre la validation-croisée en fonction du cardinal p de l'ensemble test. D'un point de vue général, la validation-croisée est destinée à estimer le risque d'un estimateur. Dans notre cas, le leave-p-out n'est habituellement pas applicable en pratique (grande complexité algorithmique). Pourtant, nous parvenons à obtenir des formules closes de l'estimateur leave-p-out du risque, pour une large gamme d'estimateurs. Nous envisageons le problème de la sélection de modèles par validation-croisée sous deux aspects : l'estimation optimale du risque en termes d'un compromis biais-variance, ce qui donne lieu à une procédure d'estimation de densité basée sur un choix de p entièrement fondé sur les données, et la sélection de modèle. Ce second aspect est lié à l'interprétation de l'estimateur validation-croisée comme critère pénalisé. Sur le plan théorique, la qualité du leave-p-out est garantie par des inégalités oracle ainsi qu'un résultat d'adaptativité en estimation de densité. Le problème de la détection de ruptures est également abordé au travers d'une vaste étude de simulations, basée sur des considérations théoriques. Nous proposons une procédure entièrement fondée sur le rééchantillonnage permettant de traiter le cas de données hétéroscédastiques avec une complexité algorithmique raisonnable.

Résumé / Abstract : In this thesis, we aim at studying a family of resampling algorithms, referred to as cross-validation, and especially of one of them named leave-p-out. Extensively used in practice, these algorithms remain poorly understood, especially in the non-asymptotic framework. Our analysis of the leave-p-out algorithm is carried out both in density estimation and regression. Its main concern is to better understand cross-validation with respect to the cardinality p of the test set. From a general point of view, cross-validation is devoted to estimate the risk of an estimator. Usually due to a prohibitive computational complexity, the leave-p-out is intractable. However, we turned it into a feasible procedure thanks to closed-form formulas for the risk estimator of a wide range of widespread estimators. Besides, the question of model selection via cross-validation is considered through two approaches. The first one relies on the optimal estimation of the risk in terms of a bias-variance tradeoff, which results in a density estimation procedure based on a fully data-driven choice of p. This procedure is successfully applied to the multiple testing problem. The second approach is related to the interpretation of cross-validation in terms of penalized criterion. The quality of the leave-p-out procedure is theoretically assessed through oracle inequalities as well as an adaptivity result in the density estimation setup. The change-points detection problem is another concern of this work. It is explored through an extensive simulation study based on theoretical considerations. From this, we propose a fully resampling-based procedure, which enables to deal with the hard problem of heteroscedasticity, while keeping a reasonable computational complexity.