A Pattern Model and Algebra for Representing and Querying Relative Information Completenes / Fatma-Zohra Hannou ; sous la direction de Bernd Amann

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Données massives -- Qualité

Analyse des données

Informatique -- Mathématiques

Classification Dewey : 005.743

Amann, Bernd (19..-....) (Directeur de thèse / thesis advisor)

Marsala, Christophe (19..-.... ; professeur en informatique) (Président du jury de soutenance / praeses)

Bidoit-Tollu, Nicole (1959-....) (Rapporteur de la thèse / thesis reporter)

Kotzinos, Dimitris (19..-....) (Rapporteur de la thèse / thesis reporter)

Baazizi, Mohamed-Amine (1985-....) (Membre du jury / opponent)

Bellatreche, Ladjel (Membre du jury / opponent)

Berti-Équille, Laure (Membre du jury / opponent)

Sorbonne université (Paris ; 2018-....) (Organisme de soutenance / degree-grantor)

École doctorale Informatique, télécommunications et électronique de Paris (Ecole doctorale associée à la thèse / doctoral school)

LIP6 (1997-....) (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : L'incomplétude des données est un problème majeur de qualité qui s'amplifie par la quantité croissante de données collectées par des sources peu fiables. L'évaluation de l'exhaustivité des données est cruciale pour déterminer leur qualité mais aussi la validité des réponses de requêtes qui en découlent. Dans le contexte de l'information relative, la complétude d'une base de données est évaluée en comparaison à une base référence. Nous apportons deux principales contributions à ce domaine: un modèle de motifs produisant des couvertures minimales résumant l’étendue des partitions de données complètes et manquantes, ainsi qu'une algèbre de motifs permettant de dériver des couvertures minimales pour l'analyse de la validité des réponses des requêtes. Ce modèle de motifs offre une opportunité intéressante pour réaliser de nombreuses applications, en particulier celles visant à améliorer la qualité des tâches affectées par les données manquantes. Nous adoptons une technique de réécriture de requêtes à base de règles pour imputer les réponses des requêtes d'agrégation manquantes ou présentant des valeurs incorrectes. Nous étudions également la généralisation de notre modèle de motifs pour effectuer la synthèse des fragments de données. Les résumés peuvent être interrogés pour analyser et comparer les fragments de données de manière synthétique et flexible.

Résumé / Abstract : Information incompleteness is a major data quality issue which is amplified by the increasing amount of data collected from unreliable sources. Assessing the completeness of data is crucial for determining the quality of the data and the validity of query answers.In this work, we tackle the issue of extracting and reasoning about complete and missing information under relative information completeness setting. Under this setting, the completeness of a dataset is assessed with respect to a complete reference dataset. We advance the field by proposing two contributions: a pattern model for providing minimal covers summarizing the extent of complete and missing data partitions and a pattern algebra for deriving minimal pattern covers for query answers to analyze their validity.The completeness pattern framework presents an intriguing opportunity to achieve many applications, particularly those aiming at improving the quality of tasks impacted by missing data. Data imputation is a well-known technique for repairing missing data values but can incur a prohibitive cost when applied to large data sets. Query-driven imputation offers a better alternative as it allows for We adopt a rule-based query rewriting technique for imputing the answers of aggregation queries that are missing or suffer from incorrectness due to data incompleteness. We present a novel query rewriting mechanism that is guided by the completeness pattern model and algebra.We also investigate the generalization of our pattern model for summarizing any data fragments. Summaries can be queried to analyze and compare data fragments in a synthetic and flexible way.