Méthodes d'apprentissage structuré pour la microbiologie : spectrométrie de masse et séquençage haut-débit. / Kevin Vervier ; sous la direction de Jean-Philippe Vert

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Catalogue Worldcat

Spectroscopie de masse

Diagnostic biologique

Séquençage des acides nucléiques

Classification Dewey : 570.15

Vert, Jean-Philippe (1973-....) (Directeur de thèse / thesis advisor)

École nationale supérieure des mines (Paris) (Organisme de soutenance / degree-grantor)

École doctorale Sciences des métiers de l'ingénieur (Paris) (Ecole doctorale associée à la thèse / doctoral school)

Centre de bio-informatique (Fontainebleau, Seine et Marne) (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : L'utilisation des technologies haut débit est en train de changer aussi bien les pratiques que le paysage scientifique en microbiologie. D'une part la spectrométrie de masse a d'ores et déjà fait son entrée avec succès dans les laboratoires de microbiologie clinique. D'autre part, l'avancée spectaculaire des technologies de séquençage au cours des dix dernières années permet désormais à moindre coût et dans un temps raisonnable de caractériser la diversité microbienne au sein d'échantillons cliniques complexes. Aussi ces deux technologies sont pressenties comme les piliers de futures solutions de diagnostic. L'objectif de cette thèse est de développer des méthodes d'apprentissage statistique innovantes et versatiles pour exploiter les données fournies par ces technologies haut-débit dans le domaine du diagnostic in vitro en microbiologie. Le domaine de l'apprentissage statistique fait partie intégrante des problématiques mentionnées ci-dessus, au travers notamment des questions de classification d'un spectre de masse ou d'un “read” de séquençage haut-débit dans une taxonomie bactérienne.Sur le plan méthodologique, ces données nécessitent des développements spécifiques afin de tirer au mieux avantage de leur structuration inhérente: une structuration en “entrée” lorsque l'on réalise une prédiction à partir d'un “read” de séquençage caractérisé par sa composition en nucléotides, et un structuration en “sortie” lorsque l'on veut associer un spectre de masse ou d'un “read” de séquençage à une structure hiérarchique de taxonomie bactérienne.

Résumé / Abstract : Using high-throughput technologies is changing scientific practices and landscape in microbiology. On one hand, mass spectrometry is already used in clinical microbiology laboratories. On the other hand, the last ten years dramatic progress in sequencing technologies allows cheap and fast characterization of microbial diversity in complex clinical samples. Consequently, the two technologies are approached in future diagnostics solutions. This thesis aims to play a part in new in vitro diagnostics (IVD) systems based on high-throughput technologies, like mass spectrometry or next generation sequencing, and their applications in microbiology.Because of the volume of data generated by these new technologies and the complexity of measured parameters, we develop innovative and versatile statistical learning methods for applications in IVD and microbiology. Statistical learning field is well-suited for tasks relying on high-dimensional raw data that can hardly be used by medical experts, like mass-spectrum classification or affecting a sequencing read to the right organism. Here, we propose to use additional known structures in order to improve quality of the answer. For instance, we convert a sequencing read (raw data) into a vector in a nucleotide composition space and use it as a structuredinput for machine learning approaches. We also add prior information related to the hierarchical structure that organizes the reachable micro-organisms (structured output).