Network inference from incomplete abundance data / Raphaëlle Momal ; sous la direction de Stéphane Robin et de Christophe Ambroise

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Arbres (théorie des graphes)

Réseaux (mathématiques)

Robin, Stéphane (1965-....) (Directeur de thèse / thesis advisor)

Ambroise, Christophe (1969-....) (Directeur de thèse / thesis advisor)

Tran, Viet Chí (1980-....) (Président du jury de soutenance / praeses)

Forbes, Florence (19..-....) (Rapporteur de la thèse / thesis reporter)

Ovaskainen, Otso (19..-....) (Rapporteur de la thèse / thesis reporter)

Coron, Camille (1987-....) (Membre du jury / opponent)

Dray, Stéphane (1976-....) (Membre du jury / opponent)

Université Paris-Saclay (2020-....) (Organisme de soutenance / degree-grantor)

École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....) (Ecole doctorale associée à la thèse / doctoral school)

Université Paris-Saclay. Faculté des sciences d’Orsay (Essonne ; 2020-....) (Autre partenaire associé à la thèse / thesis associated third party)

Laboratoire Mathématiques et Informatique Appliquées (Paris) (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : Les réseaux sont utilisés comme outils en microbiologie et en écologie pour représenter des relations entre espèces. Les modèles graphiques gaussiens sont le cadre mathématique dédié à l'inférence des réseaux de dépendances conditionnelles, qui permettent une séparation claires des effets directs et indirects. Cependant, les données observées sont souvent des comptages discrèts qui ne permettent pas l'utilisation de ce modèle. Cette thèse développe une méthodologie pour l'inférence de réseaux à partir de données d'abondance d'espèces. La méthode repose sur une exploration efficace et exhaustive de l'espace des arbres couvrants dans un espace latent des comptages observés, rendue possible par les propriétés algébriques de ces structures.Par ailleurs, il est probable que les comptages observés dépendent d'acteurs non mesurés (espèces ou covariable). Ce phénomène produit des arêtes supplémentaires dans le réseau marginal entre les espèces liées à l'acteur manquant dans le réseau complet, ce qui fausse la suite des analyses. Le second objectif de ce travail est de prendre en compte les acteurs manquants lors de l'inférence de réseau. Les paramètres du modèle proposé sont estimés par une approche variationnelle, qui fournit des éléments d'information pertinents à propos des données non observées.

Résumé / Abstract : Networks are tools used to represent species relationships in microbiology and ecology. Gaussian Graphical Models provide with a mathematical framework for the inference of conditional dependency networks, which allow for a clear separation of direct and indirect effects. However observed data are often discrete counts and the inference cannot be directly performed with this model. This work develops a methodology for network inference from species observed abundances. The method relies on specific algebraic properties of spanning tree structures to perform an efficient and complete exploration of the space of spanning trees. The inference takes place in a latent space of the observed counts.Then, observed abundances are likely to depend on unmeasured actors (e.g. species or covariate). This results in spurious edges in the marginal network between the species linked to the latter in the complete network, causing inaccurate further analysis. The second objective of this work is to account for missing actors during network inference. To do so we adopt a variational approach yielding valuable insights about the missing actors.