Exploration de méthodes statistiques pour la modélisation de la relation séquence-activité de protéines d'intérêt industriel / Magali Berland ; sous la direction de Bernard Offmann et de Magali Remaud

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Catalogue Worldcat

Protéines

Enzymes

Mutation (biologie)

Traitement du signal

Offmann, Bernard (1971-....) (Directeur de thèse / thesis advisor)

Remaud, Magali (1963-....) (Directeur de thèse / thesis advisor)

Cadet, Frédéric (1963-....) (Président du jury de soutenance / praeses)

Chabbert, Marie (Rapporteur de la thèse / thesis reporter)

Narayanaswamy, Srinivasan (Rapporteur de la thèse / thesis reporter)

André, Isabelle (1975-.... ; ingénieur en biologie) (Membre du jury / opponent)

Sinoquet, Christine (1961-....) (Membre du jury / opponent)

Charton, Philippe (1968-....) (Membre du jury / opponent)

Université de la Réunion (Organisme de soutenance / degree-grantor)

École doctorale Sciences, Technologies et Santé (Saint-Denis, La Réunion) (Ecole doctorale associée à la thèse / doctoral school)

Laboratoire d'ingénierie des systèmes biologiques et des procédés (Toulouse) (Equipe de recherche associée à la thèse / thesis associated research team)

Unité de Fonctionnalité et Ingénierie des Protéines (Nantes) (Laboratoire associé à la thèse / thesis associated laboratory)

Dynamique des structures et interactions des macromolécules biologiques (Saint-Denis, Réunion) (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : Par l'accumulation de mutations bénéfiques lors de cycles successifs de mutagénèse, l'évolution dirigée offre un cadre rationnel pour l'amélioration des protéines à vocation industrielle. Elle permet une exploration large de l'espace possible des séquences ainsi que leurs capacités fonctionnelles. Elle est cependant lourde à mettre en oeuvre et nécessite des moyens importants. Des approches in silico font usage d'un jeu minimal de données expérimentales et utilisent la modélisation statistique combinée à des algorithmes d'apprentissage machine. Elles ont été développées pour explorer de façon heuristique l'espace possible des séquences et de la fitness et d'identifier les mutations et interactions entre résidus les plus intéressantes. C'est l'objet de cette thèse qui explore la construction et l'application de modèles statistiques s'appuyant sur des jeux minimaux de données expérimentales pour relier fitness, ou activité, à la séquence biologique des variants. L'étude s'articule autour d'un choix crucial d'une méthode de numérisation, de descripteurs de la séquence et de méthodes de régression. La méthode ProSAR de R. Fox (2005) et les limites de son applicabilité sur des jeux de données expérimentales ont été étudiées. De nouvelles méthodes ont aussi été développées, prenant en compte les propriétés physico-chimiques des acides aminés et leurs périodicités. Elle a permis de découvrir de nouveaux descripteurs reliant la séquence à l'activité et propose des approches innovantes qui ont la capacité de traiter des cadres biologiques très divers, même lorsque peu de données biologiques sont disponibles.

Résumé / Abstract : Via the accumulation of beneficial mutations through successive rounds of mutations, directed evolution offers a rational framework for the amelioration of protein of industrial interest. It enables the large exploration of the sequence space and fitness. However, they are wet-lab intensive and may reveal to be time consuming and costly. In silico approaches using minimal sets of experimental data and statistical models combined with machine learning algorithms have been developed to explore heuristically the sequence space and to identify the effect of the potential epistatic interactions between residues on protein fitness. This work focused on the construction and application of statistical models relying on minimal experimental datasets to study protein sequence to activity relationships (ProSAR). In particular, the choices of appropriate numerical encoding methods, of descriptors extracted from protein sequences and of regression methods were investigated. The original ProSAR method from R. Fox (2005) and the limits of its applicability on experimental datasets have been studied. New methods that consider physico-chemical features of amino acids and their periodicities have been explored. This study unveils novel descriptors of the sequence-activity relationship and provides innovative approaches that can deal with very diverse biological datasets, even when few biological data are available.