Méthodes de fouille de données en épidémiologie psychiatrique : application à l'analyse des facteurs et marqueurs de risque de la symptomatologie dépressive à l'adolescence. / Aminata Ali ; sous la direction de Bruno Falissard et de Caroline Barry

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Dépression

Adolescents dépressifs

Adolescents -- Psychiatrie

Épidémiologie psychiatrique

Exploration de données

Apprentissage automatique

Fouille de données -- Dissertation universitaire

Apprentissage machine supervisé -- Dissertation universitaire

Apprentissage machine non supervisé -- Dissertation universitaire

Falissard, Bruno (1961-.... ; docteur en statistique et psychiatre) (Directeur de thèse / thesis advisor)

Barry, Caroline (19..-....) (Directeur de thèse / thesis advisor)

Chazard, Emmanuel (1977-....) (Président du jury de soutenance / praeses)

Melchior, Maria (19..-.... ; médecin) (Rapporteur de la thèse / thesis reporter)

Galéra, Cédric (1974-...) (Rapporteur de la thèse / thesis reporter)

Sedki, Mohamed (19..-....) (Membre du jury / opponent)

Université Paris-Saclay (2020-....) (Organisme de soutenance / degree-grantor)

École doctorale Santé Publique (Le Kremlin-Bicêtre, Val-de-Marne ; 2015-...) (Ecole doctorale associée à la thèse / doctoral school)

Centre de recherche en épidémiologie et santé des populations (Villejuif, Val-de-Marne ; 2010-....) (Laboratoire associé à la thèse / thesis associated laboratory)

Université Paris-Saclay. Faculté de médecine (Le Kremlin-Bicêtre, Val-de-Marne ; 2020-....) (Autre partenaire associé à la thèse / thesis associated third party)

Résumé / Abstract : L’adolescence est une période de vulnérabilité pour la dépression, sur le plan psychologique et biologique. La littérature sur la dépression à l’adolescence est très fournie sur ses facteurs de risque et de protection ainsi que sur les différentes manifestations externalisées pouvant servir de signe d’appel. Cependant, les modèles de prédiction du risque restent peu performants. La recherche systématique et approfondie des combinaisons entre marqueurs/facteurs de risque pourrait être un moyen d’améliorer ces modèles. Les techniques issues des méthodes de « fouille de données » (data mining, machine Learning DMML) semblent de plus en plus utilisées sur des problématiques similaires. Ce travail de thèse va s’intéresser à l’application des méthodes issues du DMML à la dépression durant l’adolescence. Dans ce contexte, l’objectif sera i) de cartographier l’utilisation réelle de ces méthodes en épidémiologie et santé publique ii) d’analyser les patterns d’interactions entre les facteurs/marqueurs de risque de la dépression à l’adolescence afin de développer de nouvelles pistes utiles dans le repérage de cette population.En premier lieu, une analyse bibliométrique de Medline, sera réalisée afin de quantifier l’essor des méthodes issues du DMML en santé publique et épidémiologie et d’en caractériser les domaines d’application majeurs. Dans un second temps, une comparaison de l’apport de deux méthodes de classification quant à leur capacité à modéliser le risque de dépression : ensemble d’arbres par régression boostée, des forêts aléatoires par rapport à une régression logistique LASSO sans interaction sera réalisée. Pour finir, une méthode de partitionnement supervisée, appelée « Régression sur profil», sera utilisée pour créer des clusters d’adolescents à partir des variables explicatives de la dépression et de la dépression. Les données issues de l’enquête transversale en milieu scolaire «Processus d’adolescence» seront utilisées. Elle inclut, 15235 adolescents, répondant à un auto-questionnaire anonyme contenant la dépression via l’Adolescent Depression Rating Scale et les variables explicatives de la dépression présentes dans l’enquête. Cette thèse a montré les intérêts et les difficultés quant à l’utilisation des méthodes issues du DMML pour la recherche d’associations pertinentes en épidémiologie psychiatrique.

Résumé / Abstract : Adolescence is a vulnerable period for depression, both psychologically and biologically. The literature on depression in adolescence is very extensive on risk and protective factors and on the various externalized manifestations that can serve as warning sign. However, prediction models remain poorly performing. Systematic and in-depth research into the combinations of risk factors/markers could improving these models. Techniques derived from data mining/Machine Learning methods (DMML) now seem to be more and more used on similar issues. This work will focus on the application of DMML methods to depression during adolescence. In this context, the objective will be i) to map the actual use of these methods in epidemiology and public health ii) to analyze the associations between risk factors/markers of depression in adolescence in order to develop new useful leads in the identification of this population. First, a bibliometric analysis of Medline will be conducted in order to quantify the development of DMML methods in public health and epidemiology and to characterize their major fields of application. Secondly, a comparison of the contribution of two classification methods in terms of their capacity to model the risk of depression: boosted regression trees, random forests compared to a logistic LASSO regression without interaction will be carried out. Finally, a supervised partitioning method, called «Bayesian Profile regression", will be used to create clusters of adolescents from the explanatory variables of depression and depression. Data from the cross-sectional school survey "Processus adolescence" will be used. It includes 15235 adolescents, responding to an anonymous self-administered questionnaire containing depression via the Adolescent Depression Rating Scale and the explanatory variables for depression present in the survey. This work showed the interests and difficulties of DMML to analysis relevant associations in psychiatric epidemiology.