Cross-model queries and schemas : complexity and learning / Radu Ciucanu ; sous la direction de Angela Bonifati et de Aurélien Lemay

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Catalogue Worldcat

Bases de données

XML (langage de balisage)

Langages formels

Expressions rationnelles

Échange électronique d'information

Apprentissage par la pratique

Classification Dewey : 005.74

Bonifati, Angela (Directeur de thèse / thesis advisor)

Lemay, Aurélien (Directeur de thèse / thesis advisor)

Université Lille 1 - Sciences et technologies (Villeneuve-d'Ascq ; 1970-2017) (Organisme de soutenance / degree-grantor)

École doctorale Sciences pour l'ingénieur (Lille) (Ecole doctorale associée à la thèse / doctoral school)

Centre de recherche en informatique, signal et automatique de Lille (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : La spécification de requêtes est généralement une tâche difficile pour les utilisateurs non-experts. Le problème devient encore plus difficile quand les utilisateurs ont besoin d'interroger des bases de données de grande taille et donc difficiles à visualiser. Le schéma pourrait aider à cette spécification, mais celui-ci manque souvent ou est incomplet quand les données viennent de sources hétérogènes. Dans cette thèse, nous abordons le problème de la spécification de requêtes pour les utilisateurs non-experts. Nous identifions deux approches pour attaquer ce problème : apprendre les requêtes à partir d'exemples ou transformer les données dans un format plus facilement interrogeable par l'utilisateur. Nos contributions suivent ces deux directions et concernent trois modèles de données parmi les plus populaires : XML, relationnel et orienté graphe. Cette thèse comprend deux parties, consacrées à (i) la définition et la transformation de schémas, et (ii) l'apprentissage de schémas et de requêtes. Dans la première partie, nous définissons des formalismes de schémas pour les documents XML non-ordonnés et nous analysons leurs propriétés computationnelles; nous étudions également la complexité du problème d'échange de données entre une source relationnelle et une cible orientée graphe. Dans la deuxième partie, nous étudions le problème de l'apprentissage à partir d'exemples pour les schémas XML proposés dans la première partie, ainsi que pour les requêtes de jointures relationnelles et les requêtes de chemins sur les graphes. Nous proposons notamment un scénario interactif qui permet d'aider des utilisateurs non-experts à définir des requêtes dans ces deux classes.

Résumé / Abstract : Specifying a database query using a formal query language is typically a challenging task for non-expert users. In the context of big data, this problem becomes even harder because it requires the users to deal with database instances of large size and hence difficult to visualize. Such instances usually lack a schema to help the users specify their queries, or have an incomplete schema as they come from disparate data sources. In this thesis, we address the problem of query specification for non-expert users. We identify two possible approaches for tackling this problem: learning queries from examples and translating the data in a format that the user finds easier to query. Our contributions are aligned with these two complementary directions and span over three of the most popular data models: XML, relational, and graph. This thesis consists of two parts, dedicated to (i) schema definition and translation, and to (ii) learning schemas and queries. In the first part, we define schema formalisms for unordered XML and we analyze their computational properties; we also study the complexity of the data exchange problem in the setting of a relational source and a graph target database. In the second part, we investigate the problem of learning from examples the schemas for unordered XML proposed in the first part, as well as relational join queries and path queries on graph databases. The interactive scenario that we propose for these two classes of queries is immediately applicable to assisting non-expert users in the process of query specification.