Detection of epistasis in genome wide association studies with machine learning methods for therapeutic target identification / Lotfi Slim ; sous la direction de Chloé-Agathe Azencott et de Véronique Stoven

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Apprentissage automatique

Étude d'association pangénomique

Épistasie

Génomique

Thérapie moléculaire ciblée

Classification Dewey : 570.15

Azencott, Chloé-Agathe (Directeur de thèse / thesis advisor)

Stoven, Véronique (Directeur de thèse / thesis advisor)

Blanchard, Gilles (19..-.... ; mathématicien) (Président du jury de soutenance / praeses)

Borgwardt, Karsten (Rapporteur de la thèse / thesis reporter)

Neuvial, Pierre (1979-....) (Membre du jury / opponent)

Chatelain, Clément (1984-....) (Membre du jury / opponent)

Université Paris sciences et lettres (2020-....) (Organisme de soutenance / degree-grantor)

Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique (Paris) (Ecole doctorale associée à la thèse / doctoral school)

Centre de bio-informatique (Fontainebleau, Seine et Marne) (Laboratoire associé à la thèse / thesis associated laboratory)

École nationale supérieure des mines (Paris) (Autre partenaire associé à la thèse / thesis associated third party)

Résumé / Abstract : En offrant une image sans précédent du génome humain, les études d'association pangénomiques (GWAS) expliqueraient pleinement le contexte génétique des maladies complexes. A ce jour, les résultats ont été pour le moins mitigés. Cela peut être partiellement attribué à la méthodologie statistique adoptée, qui ne prend pas souvent en compte l'interaction entre les variants génétiques, ou l'épistasie. La détection d'épistasie à travers des modèles statistiques présente plusieurs défis pour lesquels nous développons dans cette thèse une paire d'outils adéquats. Le premier outil, epiGWAS, utilise l'inférence causale pour détecter les interactions épistatiques entre un SNP cible et le reste du génome. Le deuxième outil, kernelPSI, utilise à la place des méthodes à noyaux pour modéliser l'épistasie entre plusieurs polymorphismes mononucléotidiques (SNPs) voisins. Il tire également partie de l'inférence post-sélection pour effectuer conjointement une sélection au niveau des SNPs et des tests de signification au niveau des gènes. Les outils développés sont - au meilleur de nos connaissances - les premiers à étendre au domains des GWAS des outils puissants d'apprentissage statistique tels que l'inférence causale et l'inférence post-sélection nonlinéaire. En plus des contributions méthodologiques, un accent particulier a été mis sur l'interprétation biologique pour valider nos résultats dans la sclérose en plaques et les variations d'indice de masse corporelle.

Résumé / Abstract : By offering an unprecedented picture of the human genome, genome-wide association studies (GWAS) have been expected to fully explain the genetic background of complex diseases. So far, the results have been mitigated to say the least. This, among other things, can be partially attributed to the adopted statistical methodology, which does not often take into account interaction between genetic variants, or epistasis. The detection of epistasis through statistical models presents several challenges for which we develop in this thesis a pair of adequate tools. The first tool, epiGWAS, uses causal inference to detect epistatic interactions between a target SNP and the rest of the genome. The second tool, kernelPSI, instead uses kernel methods to model epistasis between nearby single-nucleotide polymorphisms (SNPs). It also leverages post-selection inference to jointly perform SNP-level selection and gene-level significance testing. The developed tools are -- to the best of our knowledge -- the first to extend powerful statistical learning frameworks such as causal inference and nonlinear post-selection inference to GWAS. In addition to the methodological contributions, a special emphasis was placed on biological interpretation to validate our findings in multiple sclerosis and body-mass index variations.