Assessment of supervised classification methods for the analysis of RNA-seq data / Mustafa Abuelqumsan ; sous la direction de Jacques Van Helden et de Badih Ghattas

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Bioinformatique structurale

Biométrie

Génomique

Classification Dewey : 570

Van Helden, Jacques (19..-.... ; chercheur en bioinformatique) (Directeur de thèse / thesis advisor)

Ghattas, Badih (1971-....) (Directeur de thèse / thesis advisor)

Brun, Christine (biologiste) (Président du jury de soutenance / praeses)

Dillies, Marie-Agnès (19..-....) (Rapporteur de la thèse / thesis reporter)

Lelandais, Gaëlle (1978-....) (Rapporteur de la thèse / thesis reporter)

Puthier, Denis (Membre du jury / opponent)

Barbry, Pascal (1961-....) (Membre du jury / opponent)

Aix-Marseille Université (2012-....) (Organisme de soutenance / degree-grantor)

Ecole Doctorale Sciences de la Vie et de la Santé (Marseille) (Ecole doctorale associée à la thèse / doctoral school)

TAGC. Technological advances for genomics and clinics (marseille) (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : Les technologies « Next Generation Sequencing» (NGS), qui permettent de caractériser les séquences génomiques à un rythme sans précédent, sont utilisées pour caractériser la diversité génétique humaine et le transcriptome (partie du génome transcrite en acides ribonucléiques). Les variations du niveau d’expression des gènes selon les organes et circonstances, sous-tendent la différentiation cellulaire et la réponse aux changements d’environnement. Comme les maladies affectent souvent l’expression génique, les profils transcriptomiques peuvent servir des fins médicales (diagnostic, pronostic). Différentes méthodes d’apprentissage artificiel ont été proposées pour classer des individus sur base de données multidimensionnelles (par exemple, niveau d’expression de tous les gènes dans des d’échantillons). Pendant ma thèse, j’ai évalué des méthodes de « machine learning » afin d’optimiser la précision de la classification d’échantillons sur base de profils transcriptomiques de type RNA-seq.

Résumé / Abstract : Since a decade, “Next Generation Sequencing” (NGS) technologies enabled to characterize genomic sequences at an unprecedented pace. Many studies focused of human genetic diversity and on transcriptome (the part of genome transcribed into ribonucleic acid). Indeed, different tissues of our body express different genes at different moments, enabling cell differentiation and functional response to environmental changes. Since many diseases affect gene expression, transcriptome profiles can be used for medical purposes (diagnostic and prognostic). A wide variety of advanced statistical and machine learning methods have been proposed to address the general problem of classifying individuals according to multiple variables (e.g. transcription level of thousands of genes in hundreds of samples). During my thesis, I led a comparative assessment of machine learning methods and their parameters, to optimize the accuracy of sample classification based on RNA-seq transcriptome profiles.