Inégalités probabilistes pour l'estimateur de validation croisée dans le cadre de l'apprentissage statistique et modèles statistiques appliqués à l'économie et la finance / Matthieu Cornec ; [sous la dir. de] Patrice Bertail

Date :

Editeur / Publisher : [S.l.] : [s.n] , 2009

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Probabilités

Algorithmes

Kalman, Filtrage de

Apprentissage automatique -- Méthodes statistiques

Modèles stochastiques d'apprentissage

Bertail, Patrice (1964-....) (Directeur de thèse / thesis advisor)

Université Paris Nanterre (Organisme de soutenance / degree-grantor)

Relation : Inégalités probabilistes pour l'estimateur de validation croisée dans le cadre de l'apprentissage statistique et modèles statistiques appliqués à l'économie et la finance / Matthieu Cornec / Villeurbanne : [CCSD] , 2010

Relation : Inégalités probabilistes pour l'estimateur de validation croisée dans le cadre de l'apprentissage statistique et modèles statistiques appliqués à l'économie et la finance / Matthieu Cornec ; [sous la direction de] Patrice Bertail / Lille : Atelier national de reproduction des thèses , 2009

Résumé / Abstract : l'objectif initial de la première partie de cette thèse est d'éclairer par la théorie une pratique communément répandue au sein des praticiens pour l'audit (ou risk assessment en anglais) méthodes prédictives (ou prédicteurs) : la validation croisée (ou cross validation en anglais). La seconde partie s'inscrit principalement dans la théorie des processus et son apport concerne essentiellement les applications à des données économiques et financières. Le chapitre un s'intéresse au cas classique de prédicteurs de Vapnik-Chernovenkis dimension (VC-dimension dans la suite) finie obtenus par minimisation du risque empirique. Le chapitre deux s'intéresse donc à une classe plus large que celle du chapitre un : les estimateurs stables. Dans ce cadre, nous montrons que les méthodes de validation croisée sont encore consistantes. Dans le chapitre trois nous exhibons un cas particulier important le subagging où la méthode de validation croisée permet de construire des intervalles de confiance plus étroits que la méthodologie traditionnelle issue de la minimisation du risque empirique sous l'hypothèse de VC-dimension finie. Le chapitre 4 propose un proxy mensuel du taux de croissance du Produit Intérieur Brut français qui est disponible officiellement uniquement à fréquence trimestrielle. Le chapitre cinq décrit la méthodologie pour construire un indicateur synthétique mensuel dans les enquêtes de conjoncture dans le secteur des services en France. L'indicateur synthétique construit est publié mensuellement par l'Insee dans les Informations Rapides. Le chapitre six décrit un modèle semi-paramétrique de prix spot d'électricité sur les marchés de gros ayant des applications dans la gestion du risque de la production d'électricité.

Résumé / Abstract : The initial goal of this thesis is to get a better understanding of a methodology commonly used among practitionners : the cross-validation. The latter is designed to assess the risk of predictors. The second part of this thesis is dedicated to statistical models applied to real word issues encountered in the professional life. It consists mostly in time series models for economic and financial data. In chapter one, we derive concentration inequalities for the cros-validation estimate of the generalization error for empirical error for empirical risk minimizers. In the general setting, we prove sanity-Check bounds : bounds showing that worst-case error of this estimate is not much worse that of training error estimate. In chapter two, we prove probality bounds for the cross-validation estimate of the generalization error for stable predictors in the context of risk assesment. The notion of stability characterizes class of predictors with infinite VC dimension, suchas k-nearest neighbors rules, bayesian algorithm,boosting. In chapter three, we obtain concentration inequalities for the cross-validation estimate of the generaliszation error for subagged estimators. An interesting consequence is that the probability upper bound is bounded by the minimun of a Hoeffding-type bound and a Vapnik-type bounds, and thus is smaller than 1 even for small learning set. Chapter four gives a monthly proxy of the french GDP growth rate through the Kalman filter metthodology. Chapter five extracts a monthly leading indicator of the french business climate in the services sector. Eventually, chapter six gives a semi-parametric approach to simulate spot electricity prices for energy risk management.