Data mining and learning for markers extraction to improve the medical monitoring platforms / Carine Bou Rjeily ; sous la direction de Amir Hajjam El Hassani et de Emmanuel Andrès

Date : 2019

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Insuffisance respiratoire

Systèmes virtuels (informatique)

Prédiction séquentielle

Classification Dewey : 004

Bou Rjeily, Carine (1991-....) (Auteur / author)

Hajjam El Hassani, Amir (Directeur de thèse / thesis advisor)

Andrès, Emmanuel (médecin) (Directeur de thèse / thesis advisor)

Abel, Marie-Hélène (19..-.... ; chercheur en génie informatique) (Président du jury de soutenance / praeses)

Zanni-Merk, Cecilia (1963-.... ; chercheuse en informatique) (Rapporteur de la thèse / thesis reporter)

Badr, Georges (?-....) (Membre du jury / opponent)

Sèdes, Florence (1962-.... ; chercheuse en informatique) (Membre du jury / opponent)

Université Bourgogne Franche-Comté (2015-....) (Organisme de soutenance / degree-grantor)

École doctorale Sciences pour l'ingénieur et microtechniques (Besançon ; 1991-....) (Ecole doctorale associée à la thèse / doctoral school)

Nanomédecine, imagerie, thérapeutique (Besançon) (Laboratoire associé à la thèse / thesis associated laboratory)

Université de technologie de Belfort-Montbéliard (1999-....) (Autre partenaire associé à la thèse / thesis associated third party)

Résumé / Abstract : Selon l’Organisation mondiale de la santé, environ 31% des décès dans le monde sont causés par des maladies cardiaques chaque année. L’exploration de données est un processus d’extraction intéressant d’informations non triviales, implicites et potentiellement utiles, à partir de grands ensembles de données. L’exploration de données médicales est la science qui consiste à examiner des données médicales (signes vitaux) pour explorer des informations importantes. L’analyse et l’interprétation des données complexes dans un diagnostic thérapeutique approprié avec les bons résultats, est une tâche assez ardue. Néanmoins, le fait qu’il soit possible de combiner ces facteurs jusqu’à un certain point et d’extraire un plan de traitement, de prévention et de rétablissement généralement couronnée de succès, est un signe des avantages à venir. Grâce à cela, il est maintenant possible d’améliorer la qualité de vie des patients, de prévenir une aggravation de la maladie tout en maintenant les coûts médicaux à la baisse. Cela explique la popularité croissante de l’utilisation et de l’application des techniques d’apprentissage automatique pour analyser, prédire et classifier les données médicales. Dans une première contribution, nous avons étudié de nombreux algorithmes de motifs séquentiels qui sont des techniques prometteuses pour l’exploration de données. Nous les avons classés afin de choisir un algorithme approprié pour prédire les classes d’insuffisance cardiaque et sa présence. Après avoir comparé tous les algorithmes et les avoir mis en œuvre sur le même ensemble de données médicales, le CPT +, un algorithme de prédiction de séquence, a été choisi en donnant les résultats les plus précis avec une précision de 90,5% dans la prédiction de l’insuffisance cardiaque et de ses classes. En utilisant cet algorithme, avec des données des patients réels, nous avons pu prédire une insuffisance cardiaque 10 à 12 jours à priori. Après, nous avons basculé nos études vers une stratégie de séries chronologiques et nous avons utilisé des données réelles extraites de patients réels. 5 paramètres ont été extraits de 3 patients au cours de quelques années. L’algorithme RandomTree a donné plus de 85% de prédictions correctes de l’insuffisance cardiaque 7 jours à l’avance.

Résumé / Abstract : The World Health Organization accords that about 31 % of deaths worldwide are caused by heart diseases every year. Data mining is a process of extracting interesting non-trivial, previously unknownand potentially useful information from huge amount of data. Medical data mining is the science of investigating medical data (i.e. vital signs) to explore significant information. Analyzing and interpreting the huge amount of complicated data into an appropriate therapeutic diagnosis with the right results is quite challenging task. Still, the fact that it is possible to combine these factors up to a certain point and extract a usually successful treatment, prevention and recovery plan is a sign of the good things to come. Thanks to that, it is now possible to improve patients’ quality of life, prevent condition worsening while maintaining medical costs at the decrease. This explains the increasing popularity in the usage and application of machine learning techniques to analyze, predict and classify medical data. As a first contribution, we studied many sequential patterns algorithms that are promising techniques in exploring data and we classified them in order to choose an appropriate one for predicting Heart Failure classes and presence. After comparing all the algorithms and implementing them on the same medical dataset, the CPT+ a sequence prediction algorithm has been chosen as it gave the most accurate results reaching an accuracy of 90.5% in predicting heart failure and its classes. By using the CPT+ algorithm with real patients dataset, we predicted heart failure 10 to 12 days prior. Thereafter, we switched our studies to time series strategy, and worked on real data extracted from real patients. 5 parameters were extracted from 3 patients over the course of a few years. The Random Tree algorithm yielded more the 85% correct predictions of heart failure 7 days prior.