Connaissances a priori pour la Recherche d'Information textuelle basée sur l'apprentissage profond / Jibril Frej ; sous la direction de Jean-Pierre Chevallet

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Catalogue Worldcat

Réseaux neuronaux (informatique)

Apprentissage profond

Wikis

Classification Dewey : 004

Chevallet, Jean-Pierre (Directeur de thèse / thesis advisor)

Berrut, Catherine (1961-....) (Président du jury de soutenance / praeses)

Boughanem, Mohand (1964-.... ; enseignant-chercheur en informatique) (Rapporteur de la thèse / thesis reporter)

Zweigenbaum, Pierre (1958-....) (Rapporteur de la thèse / thesis reporter)

Soulier, Laure (1987-.... ; enseignante-chercheuse en informatique) (Membre du jury / opponent)

Université Grenoble Alpes (2020-....) (Organisme de soutenance / degree-grantor)

École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble) (Ecole doctorale associée à la thèse / doctoral school)

Laboratoire d'informatique de Grenoble (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : Ce travail de thèse se situe dans les domaines de la recherche d'information (RI) textuelle et de l'apprentissage profond utilisant des réseaux de neurones. Les travaux effectués dans ce travail de thèse sont motivés par le fait que l'utilisation de réseaux de neurones en RI textuelle s'est révélée efficace sous certaines conditions mais que leur utilisation présente néanmoins plusieurs limitations pouvant grandement restreindre leur application en pratique.Dans ce travail de thèse, nous proposons d'étudier l'incorporation de connaissances a priori pour aborder 3 limitations de l'utilisation de réseaux de neurones pour la RI textuelle : (1) la nécessité de disposer de grandes quantités de données étiquetées, (2) les représentations du texte sont basées uniquement sur des analyses statistiques, (3) le manque d'efficience.Nous nous sommes intéressés à trois types de connaissances a priori pour aborder les limitations mentionnées ci-dessus: (1) des connaissances issues d'une ressource semi-structurée : Wikipédia; (2) des connaissances issues de ressources structurées sous forme de ressources sémantiques telles que des ontologies ou des thésaurus; (3) des connaissances issues de texte non structurées.Dans un premier temps, nous proposons WIKIR : un outil libre d'accès permettant de créer automatiquement des collections de RI depuis Wikipédia. Les réseaux de neurones entraînés sur les collections créées automatiquement ont besoin par la suite de moins de données étiquetées pour atteindre de bonnes performances. Dans un second temps, nous avons développé des réseaux de neurones pour la RI utilisant des ressources sémantiques. L'intégration de ressources sémantiques aux réseaux de neurones leur permet d'atteindre de meilleures performances pour la recherche d'information dans le domaine médical. Finalement, nous présentons des réseaux de neurones utilisant des connaissances issues de texte non structurées pour améliorer la performance et l'efficience des modèles de référence de RI n'utilisant pas d'apprentissage.

Résumé / Abstract : This thesis work is in the fields of textual information retrieval (IR) and deep learning using neural networks. The motivation for this thesis work is that the use of neural networks in textual IR has proven to be efficient under certain conditions but that their use still presents several limitations that can greatly restrict their application in practice.In this thesis work, we propose to study the incorporation of prior knowledge to address 3 limitations of the use of neural networks for textual IR: (1) the need to have large amounts of labeled data, (2) a representation of the text-based only on statistical analysis, (3) the lack of efficiency.We focused on three types of prior knowledge to address the limitations mentioned above: (1) knowledge from a semi-structured resource: Wikipedia; (2) knowledge from structured resources in the form of semantic resources such as ontologies or thesauri; (3) knowledge from unstructured text.At first, we propose WIKIR: an open-access toolkit to automatically build IR collections from Wikipedia. The neural networks trained on the collections created automatically need less labeled data afterward to achieve good performance. Secondly, we developed neural networks for IR that use semantic resources. The integration of semantic resources into neural networks allows them to achieve better performance for information retrieval in the medical field. Finally, we present neural networks that use knowledge from unstructured text to improve the performance and efficiency of non-learning baseline IR models.