Raisonnement efficace sur des grands graphes hétérogènes / Maxime Buron ; sous la direction de Ioana Gabriela Manolescu Goujot et de Marie-Laure Mugnier

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Intelligence artificielle

Bases de données sur le Web

Logique informatique

Web sémantique

Classification Dewey : 005.743

Manolescu Goujot, Ioana Gabriela (1975-....) (Directeur de thèse / thesis advisor)

Mugnier, Marie-Laure (Directeur de thèse / thesis advisor)

Rousset, Marie-Christine (Président du jury de soutenance / praeses)

Lenzerini, Maurizio (Rapporteur de la thèse / thesis reporter)

Bienvenu, Meghyn (1981-....) (Membre du jury / opponent)

Deutsch, Alin (19..-....) (Membre du jury / opponent)

Abiteboul, Serge (1953-....) (Membre du jury / opponent)

Suchanek, Fabian (Membre du jury / opponent)

Institut polytechnique de Paris (Organisme de soutenance / degree-grantor)

École doctorale de l'Institut polytechnique de Paris (Ecole doctorale associée à la thèse / doctoral school)

Laboratoire d'informatique de l'École polytechnique (Palaiseau, Essonne) (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : Le Web sémantique propose des représentations de connaissances, qui permettent d'intégrer facilement des données hétérogènes issues de plusieurs sources en une base de connaissances unifiée. Dans cette thèse, nous étudions des techniques d'interrogation de telles bases de connaissances.La première partie est dédiée à des techniques de réponse à des requêtes sur une base de connaissances représentée par un graphe RDF sous des contraintes ontologiques. Les connaissances implicites produites par le raisonnement, à partir des règles de déduction RDFS, doivent être prises en compte pour répondre correctement à de telles requêtes.Pour commencer, nous présentons un algorithme de reformulation de requêtes dites Basic Graph Pattern (BGP), qui exploite une partition des règles de déduction en des règles sur les assertions et sur les contraintes. Puis nous introduisons une nouvelle disposition du stockage des graphes RDF, qui combine deux dispositions connues. Pour ces deux contributions, des expérimentations permettent de valider nos résultats théoriques et algorithmiques.Dans la deuxième partie, nous considérons le problème d'interrogation, par des requêtes BGP, de sources de données hétérogènes intégrées en un graphe RDF. Nous introduisons un cadre d'intégration de données sous des contraintes ontologiques RDFS, utilisant une spécification d'intégration basée sur des mappings Global-Local-As-View, rarement considérée jusqu'ici dans la littérature. Nous présentons plusieurs stratégies de réponse à des requêtes, qui, soit matérialisent les données en un graphe RDF, soit laissent ce graphe virtuel. Ces stratégies diffèrent sur quand et comment le raisonnement RDFS est supporté. Nous avons implémenté ces stratégies dans une plate-forme et mené des expérimentations qui démontrent l'intérêt particulier d'une des stratégies basée sur la saturation des mappings. Finalement, nous montrons que cette dernière technique peut être étendue au delà des règles de déduction RDFS au raisonnement défini par un sous-ensemble des règles existentielles.

Résumé / Abstract : The Semantic Web offers knowledge representations, which allow to integrate heterogeneous data from several sources into a unified knowledge base. In this thesis, we investigate techniques for querying such knowledge bases.The first part is devoted to query answering techniques on a knowledge base, represented by an RDF graph subject to ontological constraints. Implicit information entailed by the reasoning, enabled by the set of RDFS entailment rules, has to be taken into account to correctly answer such queries. First, we present a sound and complete query reformulation algorithm for Basic Graph Pattern queries, which exploits a partition of RDFS entailment rules into assertion and constraint rules. Second, we introduce a novel RDF storage layout, which combines two well-known layouts. For both contributions, our experiments assess our theoretical and algorithmic results.The second part considers the issue of querying heterogeneous data sources integrated into an RDF graph, using BGP queries. Following the Ontology-Based Data Access paradigm, we introduce a framework of data integration under an RDFS ontology, using the Global-Local-As-View mappings, rarely considered in the literature.We present several query answering strategies, which may materialize the integrated RDF graph or leave it virtual, and differ on how and when RDFS reasoning is handled. We implement these strategies in a platform, in order to conduct experiments, which demonstrate the particular interest of one of the strategies based on mapping saturation. Finally, we show that mapping saturation can be extended to reasoning defined by a subset of existential rules.