Modèle flexible pour la recherche d'information dans des corpus de documents semi-structurés / Karen Sauvagnat ; Claude Chrisment, directeur de thèse, Mohand Boughanem,directeur de thèse

Date :

Editeur / Publisher : [S.l.] : [s.n.] , 2005

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Informatique documentaire

Structures de données (informatique)

XML (langage de balisage)

Chrisment, Claude (1949-....) (Directeur de thèse / thesis advisor)

Boughanem, Mohand (1964-.... ; enseignant-chercheur en informatique) (Directeur de thèse / thesis advisor)

Université Toulouse 3 Paul Sabatier (1969-....) (Organisme de soutenance / degree-grantor)

Relation : Modèle flexible pour la recherche d'information dans des corpus de documents semi-structurés / Karen Sauvagnat / Villeurbanne : [CCSD] , 2009

Relation : Modèle flexible pour la recherche d'information dans des corpus de documents semi-structurés / Karen Sauvagnat ; Claude Chrisment, directeur de thèse, Mohand Boughanem,directeur de thèse / Grenoble : Atelier national de reproduction des thèses , 2005

Résumé / Abstract : L'information structurelle des documents semi-structurés sert à affiner le concept de granule documentaire. Le but pour les "Systèmes de recherche d'information" est alors de retrouver des unités d'information (et non plus de documents) pertinentes à des requêtes utilisateur. Ceci nous conduit à proposer le modèle XFIRM (XML Flexible Information Retrieval Model) reposant sur: (i) Un modèle de représentation des données générique, permettant de modéliser des documents possédant des structures différentes ; (ii) Un langage de requête flexible, permettant à l'utilisateur d'exprimer son besoin selon divers degrés de précision, en exprimant ou non des conditions sur la structure des documents ; (iii) Un modèle de recherche basée sur une méthode de propagation de la pertinence, ayant pour but de trouver les unités d'information les plus exhaustives et spécifiques à la requête. L'évaluation de notre modèle, grâce au prototype que nous avons développé, montre l'intérêt de nos propositions.

Résumé / Abstract : Structural information contained in semi-structured documents can be used to focus on relevant information. The aim of Information Retrieval System is then to retrieve relevant information units instead of whole documents. We propose here the XFIRM model (XML Flexible Information Retrieval model), which is based on: (i) a generic data representation model, allowing the modelling of documents having heterogeneous structures; (ii) a flexible query language that allows the expression of users needs according to many precision degrees, by expressing (or not) conditions on the documents structure; (iii) a retrieval model based on a relevance propagation method, which aims at finding the most exhaustive and specific information units answering the query. The interest of our propositions has been shown thanks to the prototype we developed.