Méthodes d'étude de la rétention d'intron à partir de données de séquençage de seconde et de troisième générations / Lucile Broseus ; sous la direction de William Ritchie

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

ARN

Bioinformatique

Séquençage des acides nucléiques

Ritchie, William (1979-....) (Directeur de thèse / thesis advisor)

Rau, Andrea (Rapporteur de la thèse / thesis reporter)

Touzet, Hélène (Rapporteur de la thèse / thesis reporter)

Picard, Franck (1978-....) (Membre du jury / opponent)

Université de Montpellier (2015-2021) (Organisme de soutenance / degree-grantor)

Sciences Chimiques et Biologiques pour la Santé (Montpellier ; Ecole Doctorale ; 2015-....) (Ecole doctorale associée à la thèse / doctoral school)

Institut de génétique humaine (Montpellier) (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : On reconnaît maintenant aux transcrits des implications multiples dans le fonctionnement des cellules eucaryotes. En plus de leur rôle originel de messagers assurant la liaison entre l'ADN et la synthèse protéique, l’usage de transcrits alternatifs apparaît comme un mode de contrôle post-transcriptionnel de l'expression génique. Exemplairement, plusieurs mécanismes distincts de régulation impliquant la production de transcrits matures retenant des introns (IRTs) ont été récemment décrits. Ces observations sont largement tributaires du développement de la seconde génération de séquençage haut-débit de l'ARN (RNA-seq). Cependant, ces données ne permettent pas d’identifier la structure complète des IRTs , dont le répertoire est encore très parcellaire. L’émergence d’une troisième génération de séquençage, à même de lire les transcrits dans leur intégralité, pourrait permettre d’y remédier. Bien que chaque technologie présente des inconvénients propres qui n'autorisent qu'une vision partielle et partiale du transcriptome, elles se complètent sur plusieurs points. Leur association, au moyen de méthodes dites hybrides, offre donc des perspectives intéressantes pour aborder l'étude des isoformes. L'objet de cette thèse est d'examiner ce que ces deux types de données peuvent, seuls ou combinés, apporter plus spécifiquement à l'étude des événements de rétention d'intron (IR). Un nombre croissant de travaux exploitent la profondeur et la largeur de couverture des données de seconde génération pour déceler et quantifier l'IR. Toutefois, il existe encore peu de méthodes informatiques dédiées à leur analyse et l’on fait souvent appel à des méthodes conçues pour d'autres usages comme l'étude de l'expression des gènes ou des exons. En tous les cas, leur capacité à apprécier correctement l'IR ne sont pas garanties. C'est la raison pour laquelle nous mettons en place un plan d'évaluation des méthodes de mesure des niveaux d’IR. Cette analyse révèle un certain nombre de biais, susceptibles de nuire à l'interprétation des résultats et nous amène à proposer une nouvelle méthode d’estimation. Au-delà de la vision centrée sur les variants, les données de longs reads Oxford Nanopore ont le potentiel de révéler la structure complète des IRTs, et ainsi, d’inférer un certain nombre de leurs caractéristiques. Cependant, leur taux d’erreur élevé et la troncation des séquences sont des obstacles incontournables. A large échelle, le traitement informatique de ces données nécessite l’introduction d’heuristiques, qui privilégient certaines formes de transcrits et, en général, occultent les formes rares ou inattendues. Il en résulte une perte importante d’information et de qualité d’interprétation. Pour la réduire, nous développons une méthode hybride de correction des séquences et proposons des stratégies ciblées pour reconstituer et caractériser les IRTs.

Résumé / Abstract : In eucaryotic cells, the roles of RNA transcripts are known to be varied. Besides their role as messengers, transferring information from DNA to protein synthesis, the usage of alternative transcripts appears as a means to control gene expression in a post-transcriptional manner. Exemplary, the production of mature transcripts retaining introns (IRTs) was recently shown to take part in several distinct regulatory mechanisms. These observations benefited greatly from the development of the second generation of RNA-sequencing (RNA-seq). However, these data do not allow to identify the entire structure of IRTs, whose catalog is still fragmented. The emerging third generation of RNA-seq, apt to read RNA sequences in their full extent, could help achieve this goal. Despite their respective drawbacks and biases, both technologies are, to some extent, complementary. It is therefore appealing to try and combine them through so-called hybrid methods, so as to perform analyses at the isoform level. In the present thesis, we aim to investigate the potential of these two types of data, alone or in combination, in order to study intron retention (IR) events, more specifically. A growing number of studies harness the high coverage depths provided by second generation data to detect and quantify IR. However, there exist few dedicated computational methods, and many studies rely on methods designed for other purposes, such as gene or exon expression analysis. In any case, their ability to accurately measure IR has not been certified. For this reason, we set up a benchmark of the various IR quantification methods. Our study reveals several biases, prone to prejudice the interpretation of results and prompted us to suggest a novel method to estimate IR levels. Beyond event-centered analyses, Oxford Nanopore long read data have the capability to reveal the full-length structure of IRTs, and thereby to allow to infer some of their features. However, their high error rate and truncation events constitute inescapable impediments. Transcriptome-wide, the computational treatment of these data necessitates heuristics which will favor specific transcript forms, and, generally, overlook rare or unexpected ones. This results in a considerable loss of information and precludes meaningful interpretations. To address these issues, we develop a hybrid correction method and suggest specific strategies to recover and characterize IRTs.