Practical and theoretical approaches for module analysis of protein-protein interaction networks / Thomas Hume ; sous la direction de Macha Nikolski

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Bioinformatique

Optimisation combinatoire

Nikolski, Macha (1972-....) (Directeur de thèse / thesis advisor)

Pellegrini, François (1968-....) (Président du jury de soutenance / praeses)

Touzet, Hélène (19..-....) (Rapporteur de la thèse / thesis reporter)

Couvreur, Jean-Michel (1959-....) (Rapporteur de la thèse / thesis reporter)

Université de Bordeaux (2014-....) (Organisme de soutenance / degree-grantor)

École doctorale Mathématiques et informatique (Talence, Gironde ; 1991-....) (Ecole doctorale associée à la thèse / doctoral school)

Laboratoire bordelais de recherche en informatique (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : Un des principaux défis de la bioinformatique moderne est de saisir le sens des données biologiques en constante croissance. Il est prépondérant de trouver de bons modèles pour toutes ces données, modèles qui servent à la fois à expliquer les données et à produire des réponses aux questions biologiques sous-jacentes. Une des nombreuses difficultés d’une telle approche est la grande variété dans les types des données manipulées. La biologie computationnelle moderne propose des approches qui combinent ces types de données dans des techniques dites intégratives. Cette thèse contribue au problème de l’identification de module biologique en intégrant les informations de conservation dans les modèles modernes d’identification d’ensemble de protéines. Nous introduisons un modèle pour la détection de modules connexes actifs et conservés, c’est-à-dire des modules connexes dont une majorité d’éléments sont similaires entre deux espèces. Nous présentons une formulation de notre modèle sous forme de programmation linéaire en nombres entiers, et proposons un algorithme branch-and-cut qui résout le modèle à l’optimalité en temps raisonnable. Nous appliquons notre modèle sur des données de différentiation cellulaire, à savoir les cellules Th0 en Th17 pour l’humain et la sourie. Nous analysons également notre modèle du point du vue de la complexité algorithmique, et fournissons des résultats pour le cas général ainsi que des cas spéciaux.

Résumé / Abstract : One of the major challenge for modern bioinformatics is making sense of the ever increasing size of biological data. Finding good models for all this data, models that can both explain the data and provide insight into biological questions, is paramount. One of the many difficulties of such path is the variety in the types of data. Modern computational biology approaches combine these many data into integrative approaches, that combine the knowledge inside the data in the hope to extract higher level information. This thesis contribute to the biological module identification problem by integrating conservation information with modern models of modular detection of protein sets. We introduce a model for the detection of conserved active connected modules, that is connected modules that are conversed across two species. These active connected modules are similar in sequence composition between the two species. We present a mixed-integer linear programming formulation of our model, and propose a branch-and-cut algorithm to solve to provable optimality in reasonable run time. We apply our model to cell line differentiation data, namely Th0 into Th17 for both human and mouse. We also analyse the model from a complexity standpoint, and provide general as well as special cases complexity results.