Learning causal graphs from continuous or mixed datasets of biological or clinical interest / Vincent Cabeli ; sous la direction de Hervé Isambert

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Catalogue Worldcat

Statistique bayésienne

Graphes de lien

Bases de données médico-administratives

Dossiers médicaux -- Numérisation

Exploration de données

Causalité

Classification Dewey : 005.7

Isambert, Hervé (Directeur de thèse / thesis advisor)

Cocco, Simona (1970-....) (Président du jury de soutenance / praeses)

Givry, Simon de (Rapporteur de la thèse / thesis reporter)

Leray, Philippe (informaticien) (Rapporteur de la thèse / thesis reporter)

Azencott, Chloé-Agathe (19..-....) (Membre du jury / opponent)

Wuillemin, Pierre-Henri (1969-....) (Membre du jury / opponent)

Sorbonne université (Paris ; 2018-....) (Organisme de soutenance / degree-grantor)

École doctorale Informatique, télécommunications et électronique de Paris (Ecole doctorale associée à la thèse / doctoral school)

Physico-chimie Curie (Paris ; 1996-....) (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : Les travaux de cette thèse s’inscrivent dans la théorie principalement développée par Judea Pearl sur les diagrammes causaux; des modèles graphiques qui permettent de dériver toutes les quantités causales d’intérêt formellement et intuitivement. Nous traitons le problème de l’inférence de réseau causal à partir uniquement de données d’observation, c’est-à-dire sans aucune intervention de la part de l’expérimentateur. En particulier, nous proposons d’améliorer les méthodes existantes pour les rendre plus aptes à analyser des données issues du monde réel, en nous affranchissant le plus possible des contraintes sur les distributions des données, et en les rendant plus interprétables. Nous proposons une extension de MIIC, une approche basée sur les contraintes et la théorie de l’information pour retrouver la classe d’équivalence du graphe causal à partir d’observations. Notre contribution est un algorithme de discrétisation optimale basé sur le principe de description minimale pour simultanément estimer la valeur de l’information mutuelle (et multivariée) et évaluer sa significativité entre des échantillons de variables de n’importe quelle nature : continue, catégorique ou mixte. Nous mettons à profit ces développements pour analyser des jeux de données mixtes d'intérêt clinique (dossiers médicaux de patients atteints de troubles cognitifs; ou du cancer du sein) ou biologique (réseaux de régulation génique de cellules précurseur hématopoïétiques).

Résumé / Abstract : The work in this thesis follows the theory primarily developed by Judea Pearl on causal diagrams; graphical models that allow all causal quantities of interest to be derived formally and intuitively. We address the problem of causal network inference from observational data alone, i.e., without any intervention from the experimenter. In particular, we propose to improve existing methods to make them more suitable for analyzing real-world data, by freeing them as much as possible from constraints on data distributions, and by making them more interpretable. We propose an extension of MIIC, a constraint-based information-theoretic approach to recover the equivalence class of the causal graph from observations. Our contribution is an optimal discretization algorithm based on the minimum description length principle to simultaneously estimate the value of mutual (and multivariate) information and evaluate its significance between samples of variables of any nature: continuous, categorical or mixed. We use these developments to analyze mixed datasets of clinical (medical records of patients with cognitive disorders; or breast cancer and being treated by neoadjuvant chemotherapy) or biological interest (gene regulation networks of hematopoietic stem and precursor cells).