Annotation et hiérarchisation de variants non-codants dans le contexte de maladies humaines / Lambert Moyon ; sous la direction de Hugues Roest Crollius

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Génomique

Classification Dewey : 576.5

Roest Crollius, Hugues (Directeur de thèse / thesis advisor)

Bourgeron, Thomas (1965-.... ; généticien) (Président du jury de soutenance / praeses)

Baudot, Anaïs (1980-....) (Rapporteur de la thèse / thesis reporter)

Rihet, Pascal (Rapporteur de la thèse / thesis reporter)

Shkumatava, Alena (19..-....) (Membre du jury / opponent)

Chen, Chunlong (1978-....) (Membre du jury / opponent)

Bardet, Anaïs (Membre du jury / opponent)

Université de Recherche Paris Sciences et Lettres (2015-2019) (Organisme de soutenance / degree-grantor)

École doctorale Complexité du vivant (Paris) (Ecole doctorale associée à la thèse / doctoral school)

Institut de biologie de l'École normale supérieure (Paris ; 2010-....) (Laboratoire associé à la thèse / thesis associated laboratory)

École normale supérieure (Paris ; 1985-....) (Autre partenaire associé à la thèse / thesis associated third party)

Résumé / Abstract : Le séquençage de génome complet est utilisé de façon croissante chez les patients atteints de maladies génétiques pour diagnostiquer les mutations responsables. Cependant, pour une grande proportion de génomes de patients séquencés, aucun gène associé au phénotype ne présente de mutation codante. Dans ces cas, il est possible qu’une mutation non-codante, localisée dans une région cis-régulatrice, modifie l'expression d'un gène impliqué dans la maladie. Malgré l’existence de méthodes pour annoter et prédire des séquences régulatrices sur la base de propriétés biochimiques et épigénétiques, il reste difficile de définir des critères objectifs pour sélectionner efficacement des mutations candidates parmi les millions de variants non-codants présents chez chaque patient. De plus, les gènes cibles de ces séquences de régulation ne sont généralement pas connus, si bien qu’il est difficile de croiser une mutation non-codante avec le phénotype du patient. Je propose ici une stratégie d’apprentissage supervisé par forêts aléatoires, adaptée aux jeux de données complexes et hétérogènes, pour classer et sélectionner des mutations non-codantes dérégulant des gènes responsables de maladies. Une innovation notable de mon approche est de prendre en compte des données d’associations entre régions non-codantes et gènes cibles. Par ailleurs, je propose une méthode d’extraction des règles biologiques identifiées par le modèle pour chaque mutation évaluée, ce qui permet une sélection éclairée des mutations hiérarchisées. Je discute les propriétés fonctionnelles identifiées par le modèle d'apprentissage, à partir d'exemples de variations non-codantes associées à des maladies mendéliennes. J’illustre également le potentiel de cette méthode notamment par une analyse de 255 106 variants de novo identifiés par séquençage complet chez 1902 enfants souffrant de troubles du spectre autistique, et chez lesquels aucune mutation codante pathogénique n’a été identifiée. Cette méthode permet ainsi de hiérarchiser des mutations, dont les plus prometteuses deviennent des hypothèses testables expérimentalement pour confirmer leur implication dans le développement des maladies considérées. Ainsi pour les projets de séquençage génome-complets de cohortes de patients, une application systématique de notre méthode contribuerait à une meilleure compréhension des mécanismes de régulation de l’expression des gènes, et à une amélioration du diagnostic des patients.

Résumé / Abstract : Whole genome sequencing is increasingly used in patients with genetic diseases to diagnose the mutations responsible for the phenotype. However, for a large proportion of sequenced genomes, none of the genes associated with the phenotype have a coding mutation. In these cases, it is possible that a non-coding mutation, located in a cis-regulatory region, modifies the expression of a gene involved in the disease. Despite the existence of methods for annotating and predicting regulatory sequences on the basis of biochemical and epigenetic properties, it remains difficult to define objective criteria for effectively selecting candidate mutations from the millions of non-coding variants present in each patient. In addition, the target genes of these regulatory sequences are generally not known, making it difficult to associate a non-coding mutation with the patient's phenotype.I propose here a supervised learning strategy using random forests, adapted to complex and heterogeneous data sets, to classify and select non-coding mutations deregulating genes responsible for diseases. A notable innovation of my approach is to take into account data of associations between non-coding regions and target genes. In addition, I propose a method for extracting the biological rules identified by the model for each mutation evaluated, allowing an informed selection of candidate mutations.I discuss the functional properties identified by the learning model, based on examples of non-coding variations associated with Mendelian diseases. I also illustrate the potential of this method by analyzing 255,106 de novo variants identified by complete sequencing in 1,902 children with autism spectrum disorders, in whom no pathogenic coding mutations have been identified. This method thus makes it possible to prioritize mutations, the most promising of which become experimentally testable hypotheses to confirm their involvement in the development of the diseases in question. Thus, for whole genome sequencing projects of patient cohorts, a systematic application of our method would contribute to a better understanding of the mechanisms regulating gene expression, and to an improvement in patient diagnosis.