Uncertainty-Sensitive Reasoning over the Web of Data / Mustafa Al Bakri ; sous la direction de Marie-Christine Rousset et de Manuel Atencia

Date : 2014

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Web sémantique

Classification Dewey : 004

Bakri, Mustafa al (1988-....) (Auteur / author)

Rousset, Marie-Christine (19..-.... ; auteur en informatique) (Directeur de thèse / thesis advisor)

Atencia, Manuel (199.-.... ; auteur en informatique) (Directeur de thèse / thesis advisor)

Euzenat, Jérôme (19..-.... ; informaticien) (Président du jury de soutenance / praeses)

Hacid, Mohand Saïd (1963-...) (Rapporteur de la thèse / thesis reporter)

Tettamanzi, Andrea (Rapporteur de la thèse / thesis reporter)

Mugnier, Marie-Laure (Membre du jury / opponent)

Université de Grenoble (2009-2014) (Organisme de soutenance / degree-grantor)

École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....) (Ecole doctorale associée à la thèse / doctoral school)

Laboratoire d'informatique de Grenoble (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : Dans cette thèse, nous étudions plusieurs approches destinées à aider les utilisateurs à trouver des informations utiles et fiables dans le Web de données, en utilisant les technologies du Web sémantique. Nous abordons pour cela deux thèmes de recherche: le liage de données dans le Linked-Data et la confiance dans les réseaux P2P sémantiques. Nous modélisons le problème de liage dans le Web de données comme un problème de raisonnement sur des données incomplètes, qu'il s'agit d'enrichir en interrogeant de façon précise et pertinente le cloud du Linked Data. Nous avons conçu et implémenté un nouvel algorithme qui, à partir d'une requête de liage (du type et d'une base de règles modélisant de manière uniforme diverses connaissances du domaine (contraintes du schéma, axiomes d'inclusion ou d'exclusion d'une ontologie, règles expertes, mappings), construit itérativement des requêtes SPARQL pour importer des sources externes pertinentes du Linked Data les données utiles pour répondre à la requête de liage. Les expérimentations que nous avons menées sur des données réelles ont démontré la faisabilité de cette approche et son utilité dans la pratique pour le liage de données et la résolution d'homonymie. En outre, nous proposons une adaptation de cette approche pour prendre en compte des données et des connaissances éventuellement incertaines, avec en résultat l'inférence de liens ‘sameAs' et ‘differentFrom' associés à des poids de probabilité. Dans cette adaptation nous modélisons l'incertitude comme des valeurs de probabilité. Nos expérimentations ont montré que notre approche passe à l'échelle pour des bases de connaissances constituées de plusieurs millions de faits RDF et produit des poids probabilistes fiables. Concernant la confiance, nous introduisons un mécanisme de confiance permettant de guider le processus de réponse aux requêtes dans des Réseaux P2P sémantiques. Les différents pairs dans les réseaux P2P sémantiques organisent leur information en utilisant des ontologies distinctes et d épendent d'alignements entre ontologies pour traduire leurs requêtes. La notion de confiance dans un tel contexte est subjective ; elle estime la probabilité qu'un pair apportera des réponses satisfaisantes pour les requêtes spécifiques dans les interactions futures. Le mécanisme proposé de calcul de valeurs de confiance combine les informations fournies par les alignements avec celles provenant des interactions passées entre pairs. Les valeurs de confiances calculées sont affinées progressivement à chaque cycle de requête/réponse en utilisant l'inférence bayésienne. Pour l'évaluation de notre mécanisme, nous avons construit un système P2P de partage de signets sémantiques (TrustMe) dans lequel il est possible de faire varier différents paramètres quantitatifs et qualitatifs. Les résultats expérimentaux montrent la convergence des valeurs de confiance ;.ils mettent également en évidence le gain en terme de qualité des réponses des pairs - mesurées selon la précision et le rappel- lorsque le processus de réponse aux requêtes est guidé par notre mécanisme de confiance.

Résumé / Abstract : In this thesis we investigate several approaches that help users to find useful and trustful informationin the Web of Data using the Semantic Web technologies. In this purpose, we tackle tworesearch issues: Data Linkage in Linked Data and Trust in Semantic P2P Networks. We model the problem of data linkage in Linked Data as a reasoning problem on possibly decentralized data. We describe a novel Import-by-Query algorithm that alternates steps of subquery rewriting and of tailored querying the Linked Data cloud in order to import data as specific as possible for inferring or contradicting given target same-as facts. Experiments conducted on real-world datasets have demonstrated the feasibility of this approach and its usefulness in practice for data linkage and disambiguation. Furthermore, we propose an adaptation of this approach to take into account possibly uncertain data and knowledge, with a result the inference of same-as and different-from links associated with probabilistic weights. In this adaptation we model uncertainty as probability values. Our experiments have shown that our adapted approach scales to large data sets and produces meaningful probabilistic weights. Concerning trust, we introduce a trust mechanism for guiding the query-answering process in Semantic P2P Networks. Peers in Semantic P2P Networks organize their information using separate ontologies and rely on alignments between their ontologies for translating queries. Trust is such a setting is subjective and estimates the probability that a peer will provide satisfactory answers for specific queries in future interactions. In order to compute trust, the mechanism exploits the information provided by alignments, along with the one that comes from peer's experiences. The calculated trust values are refined over time using Bayesian inference as more queries are sent and answers received. For the evaluation of our mechanism, we have built a semantic P2P bookmarking system (TrustMe) in which we can vary different quantitative and qualitative parameters. The experimental results show the convergence of trust, and highlight the gain in the quality of peers' answers —measured with precision and recall— when the process of query answering is guided by our trust mechanism.