Text Mining Approaches for Semantic Similarity Exploration and Metadata Enrichment of Scientific Digital Libraries / Hussein Al-Natsheh ; sous la direction de Djamel Abdelkader Zighed et de Fabrice Muhlenbach

Date : 2019

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Bibliothèques numériques -- Bases de données

Classification Dewey : 004

Al-Natsheh, Hussein (1983-....) (Auteur / author)

Zighed, Djamel Abdelkader (1955-....) (Directeur de thèse / thesis advisor)

Muhlenbach, Fabrice (Directeur de thèse / thesis advisor)

Aussenac-Gilles, Nathalie (1964-.... ; chercheuse en informatique) (Président du jury de soutenance / praeses)

Dibie-Barthélemy, Juliette (19..-....) (Rapporteur de la thèse / thesis reporter)

Venturini, Gilles (1967-....) (Rapporteur de la thèse / thesis reporter)

Bennani, Younès (Membre du jury / opponent)

Loudcher Rabaseda, Sabine (1969-....) (Membre du jury / opponent)

Université de Lyon (2015-....) (Organisme de soutenance / degree-grantor)

École doctorale en Informatique et Mathématiques de Lyon (Ecole doctorale associée à la thèse / doctoral school)

Entrepôts, Représentation et Ingénierie des Connaissances (Equipe de recherche associée à la thèse / thesis associated research team)

Université Lumière (Lyon ; 1969-....) (Autre partenaire associé à la thèse / thesis associated third party)

Accès en ligne / online access

Résumé / Abstract : Pour les scientifiques et chercheurs, s’assurer que la connaissance est accessible pour pouvoir être réutilisée et développée est un point crucial. De plus, la façon dont nous stockons et gérons les articles scientifiques et leurs métadonnées dans les bibliothèques numériques détermine la quantité d’articles pertinents que nous pouvons découvrir et auxquels nous pouvons accéder en fonction de la signification réelle d’une requête de recherche. Cependant, sommes-nous en mesure d’explorer tous les documents scientifiques sémantiquement pertinents avec les systèmes existants de recherche d’information au moyen de mots-clés ? Il s’agit là de la question essentielle abordée dans cette thèse. L’objectif principal de nos travaux est d’élargir ou développer le spectre des connaissances des chercheurs travaillant dans un domaine interdisciplinaire lorsqu’ils utilisent les systèmes de recherche d’information des bibliothèques numériques multidisciplinaires. Le problème se pose cependant lorsque de tels chercheurs utilisent des mots-clés de recherche dépendant de la communauté dont ils sont issus alors que d’autres termes scientifiques sont attribués à des concepts pertinents lorsqu’ils sont utilisés dans des communautés de recherche différentes. Afin de proposer une solution à cette tâche d’exploration sémantique dans des bibliothèques numériques multidisciplinaires, nous avons appliqué plusieurs approches de fouille de texte. Tout d’abord, nous avons étudié la représentation sémantique des mots, des phrases, des paragraphes et des documents pour une meilleure estimation de la similarité sémantique. Ensuite, nous avons utilisé les informations sémantiques des mots dans des bases de données lexicales et des graphes de connaissance afin d’améliorer notre approche sémantique. En outre, la thèse présente quelques implémentations de cas d’utilisation du modèle que nous avons proposé

Résumé / Abstract : For scientists and researchers, it is very critical to ensure knowledge is accessible for re-use and development. Moreover, the way we store and manage scientific articles and their metadata in digital libraries determines the amount of relevant articles we can discover and access depending on what is actually meant in a search query. Yet, are we able to explore all semantically relevant scientific documents with the existing keyword-based search information retrieval systems? This is the primary question addressed in this thesis. Hence, the main purpose of our work is to broaden or expand the knowledge spectrum of researchers working in an interdisciplinary domain when they use the information retrieval systems of multidisciplinary digital libraries. However, the problem raises when such researchers use community-dependent search keywords while other scientific names given to relevant concepts are being used in a different research community.Towards proposing a solution to this semantic exploration task in multidisciplinary digital libraries, we applied several text mining approaches. First, we studied the semantic representation of words, sentences, paragraphs and documents for better semantic similarity estimation. In addition, we utilized the semantic information of words in lexical databases and knowledge graphs in order to enhance our semantic approach. Furthermore, the thesis presents a couple of use-case implementations of our proposed model