Conceptualisation et exploitation d'un graphe de pangénome partitionné comme représentation compacte de la diversité du répertoire génique des espèces procaryotes / Guillaume Gautreau ; sous la direction de Claudine Médigue et de David Vallenet

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Génomique comparative

Génomique -- Microbiologie

Métagénomique

Bioinformatique

Médigue, Claudine (19..-....) (Directeur de thèse / thesis advisor)

Vallenet, David (1977-...) (Directeur de thèse / thesis advisor)

Schbath, Sophie (19..-.... ; mathématicienne) (Président du jury de soutenance / praeses)

Lopez, Philippe (19..-.... ; professeur en biologie des systèmes) (Rapporteur de la thèse / thesis reporter)

Rivals, Éric (19..-....) (Rapporteur de la thèse / thesis reporter)

Lemaitre, Claire (1982-....) (Membre du jury / opponent)

Jacob, Laurent (1985-....) (Membre du jury / opponent)

Université Paris-Saclay (2020-....) (Organisme de soutenance / degree-grantor)

École doctorale Structure et dynamique des systèmes vivants (Gif-sur-Yvette, Essonne ; 2015-....) (Ecole doctorale associée à la thèse / doctoral school)

Génomique métabolique (Evry, Essonne ; 2000-....) (Laboratoire associé à la thèse / thesis associated laboratory)

Université d'Évry-Val-d'Essonne (1991-....) (Autre partenaire associé à la thèse / thesis associated third party)

Relation : Conceptualisation et exploitation d'un graphe de pangénome partitionné comme représentation compacte de la diversité du répertoire génique des espèces procaryotes / Guillaume Gautreau ; sous la direction de Claudine Médigue et de David Vallenet / , 2020

Résumé / Abstract : Introduites en microbiologie en 2005, les approches pangénomiques visent à compiler l'ensemble de la diversité génomique d'une espèce. Dans ces études, on distingue généralement à l'intérieur du pangénome, le génome coeur, c'est-à-dire l'ensemble des familles de gènes où les représentants géniques sont présents dans tous les organismes; et d'autre part, le génome accessoire qui correspond aux gènes spécifiques à certains organismes seulement. Cependant, on constate que le concept de génome coeur est limitant avec un nombre important d'organismes car des gènes bien que fonctionnellement indispensables peuvent être absents de certains génomes. Pour limiter ce phénomène la quasi-totalité des études utilisent un seuil arbitraire de présence (généralement 95%) pour définir un génome coeur assoupli. De plus, cette dichotomie entre le génome coeur et accessoire ne rend pas compte des nombreuses gammes de fréquence d'apparition des gènes dans un pangénome. Ce travail de thèse a pour objectif de proposer une approche statistique basé sur un modèle mixé multivarié de Bernoulli couplé à un champ de Markov caché pour partitionner le pangénome afin d'être résilient aux absences de gènes et de mieux distinguer les différents schémas de présence/absence des gènes. En parallèle, plusieurs structures de données basées sur des graphes de pangénomes ont été développées ces dernières années. En effet, exploiter la totalité des informations disponibles dans un génome et non plus seulement la présence de gènes isolés est désormais crucial pour correctement rendre compte de l'organisation des génomes et notamment des régions de plasticité génomique dans les espèces. Cette approche se veut le chaînon manquant entre ces nouvelles approches graphiques à l'échelle de la séquence et les approches originelles en familles de gènes isolés. Pour y parvenir, ce travail de thèse s'intéresse donc à la définition, au partitionnement statistique et à l'exploitation d'un graphe d'un pangénome comme représentation compacte de la diversité du répertoire génomique des espèces procaryotes. Enfin, ce graphe est ensuite employé pour analyser la diversité pangénomique de 439 espèces procaryotes.

Résumé / Abstract : Introduced in microbiology in 2005, pangenome approaches aim to compile the entire genomic diversity of a species. In these studies, we generally distinguish within the pangenome, the core genome, i.e. the set of gene families where gene representatives are present in all organisms; and on the other hand, the accessory genome which corresponds to genes specific to certain organisms only. However, we noticed that the concept of the core genome is limiting with a large number of organisms because genes, although functionally essentials, may be absent from some genomes. To deal with this issue, almost all studies use an arbitrary threshold of presence (generally 95%) to define a soft core genome. Moreover, this dichotomy between the core and accessory genome does not account for the many ranges of frequencies at which genes appear in a pangenome. The main goal of this thesis work is to introduce a statistical approach based on a multivariate Bernoulli mixture model coupled with a hidden Markov random field to partition the pangenome in order to be resilient to gene absences and to better distinguish the gene presence/absence patterns. In parallel, several data structures based on pangenome graphs have been developed in recent years. Indeed, exploiting all the information available in genomes and not just the presence of isolated genes is crucial to highlight genomic organization and particularly the regions of genomic plasticity in species. This approach is intended to be the missing link between these new graphic approaches at the sequence scale and the original approaches in isolated gene families. To achieve this, this thesis work therefore focuses on the definition, statistical partitioning and exploitation of a graph of a pangenome as a compact representation of the diversity of the genomic repertoire of prokaryotic species. Finally, this graph is then used to analyze the pangenomic diversity of 439 prokaryotic species.