Études d'association génome entier guidées par des réseaux / Héctor Climente González ; sous la direction de Véronique Stoven et de Chloé-Agathe Azencott

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Étude d'association pangénomique

Épistasie

Apprentissage automatique

Intelligence artificielle en biologie

Sein -- Cancer

Maladies inflammatoires chroniques de l'intestin

Classification Dewey : 570.15

Stoven, Véronique (Directeur de thèse / thesis advisor)

Azencott, Chloé-Agathe (19..-....) (Directeur de thèse / thesis advisor)

Andrieu, Nadine (1960-....) (Président du jury de soutenance / praeses)

Van Steen, Kristel (Rapporteur de la thèse / thesis reporter)

Rausell, Antonio (Rapporteur de la thèse / thesis reporter)

Furlong, Laura (Membre du jury / opponent)

Université Paris sciences et lettres (2020-....) (Organisme de soutenance / degree-grantor)

Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique (Paris) (Ecole doctorale associée à la thèse / doctoral school)

Centre de bio-informatique (Fontainebleau, Seine et Marne) (Laboratoire associé à la thèse / thesis associated laboratory)

École nationale supérieure des mines (Paris) (Autre partenaire associé à la thèse / thesis associated third party)

Résumé / Abstract : Cette thèse s'intéresse à un ensemble de méthodes utilisées pour identifier les causes génétiques de maladies complexes. Les méthodes d'association génome entier (GWAS), sont généralement utilisées pour étudier des associations univariées, tandis que les méthodes d'association d'interactions génome entier (GWAIS) prennent en considération des interactions entre facteurs génétiques (ou épistasie). Cependant, ces deux approches présentent plusieurs défis, parmi lesquels leur faible puissance statistique, la difficulté de leur interprétation, ainsi que les choix arbitraires qui doivent être faits à différentes étapes de ces études. Dans cette thèse, j'étudie comment l'utilisation de réseaux biologiques permet de répondre à ces défis et faciliter la découverte de nouveaux biomarqueurs. Les réseaux biologiques permettent en effet d'incorporer des connaissances a priori aux analyses statistiques, et de considérer chaque polymorphisme d'un seul nucléotide (SNP) et chaque gène dans leur contexte biologique. En analysant deux jeux de données, un sur le cancer du sein et l'autre sur les maladies chroniques inflammatoires de l'intestin, je montre comment l'utilisation de réseaux biologiques permet de mettre à jour de nouveaux mécanismes de susceptibilité. Ceux-ci impliquent des SNPs individuels, ainsi que des groupes de SNPs en épistasie d'ordre deux ou plus. Je montre aussi comment l'incorporation de réseaux biologique dans les GWAS et GWAIS permet d'améliorer l'interprétabilité des résultats et de produire des hypothèses biologiques convaincantes.

Résumé / Abstract : This thesis tackles methodologies to identify the genetic causes of complex diseases. This is usually done via genome-wide association studies (GWAS), when univariate association is studied, and genome-wide association interaction studies, when interactions between genetic factors (or epistasis) are considered (GWAIS). However, both settings present some challenges, namely low statistical power, difficult interpretation, and arbitrary choices at multiple points of the study. In this thesis I study how a framework that uses biological networks can help overcome these issues and boost biomarker discovery. This is done by incorporating prior knowledge into the statistical analysis and putting every single nucleotide polymorphism (SNP) and gene in relation to their biological context. By analyzing two datasets, on breast cancer and inflammatory bowel disease, I demonstrate the utility of networks to discover new mechanisms of susceptibility. These involve individual SNPs, as well as groups of SNPs in epistasis, two-way and higher. I also show how including networks in GWAS and GWAIS boosts the interpretability of the results and produces compelling biological hypotheses.