Analyse automatique de micro-corpus de ressentis / Pauline Soutrenon ; sous la direction de Thomas Lebarbé

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Catalogue Worldcat

Traitement automatique du langage naturel

Sémantique

Classification Dewey : 410

Lebarbé, Thomas (1973-.... ; professeur en humanités numériques) (Directeur de thèse / thesis advisor)

Kraif, Olivier (1969-....) (Président du jury de soutenance / praeses)

Fabre, Cécile (1969-....) (Rapporteur de la thèse / thesis reporter)

Lafourcade, Mathieu (1969-.... ; chercheur en informatique) (Rapporteur de la thèse / thesis reporter)

Grabar, Natalia (1970-....) (Membre du jury / opponent)

Université Grenoble Alpes (2020-....) (Organisme de soutenance / degree-grantor)

École doctorale langues, littératures et sciences humaines (Grenoble) (Ecole doctorale associée à la thèse / doctoral school)

Laboratoire Arts et pratiques du texte, de l’image, de l’écran et de la scène (Grenoble) (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : Dans le cadre d’une thèse au sein d’une collaboration entre l’UMR Litt&Arts 5316 et la startup Comongo, nos recherches portent sur le domaine du Traitement Automatique des Langues (TAL) et plus particulièrement sur l’analyse automatique de production de ressentis. Le coeur de métier de l’entreprise est l’accompagnement et la gestion d’image des personnes morales et physiques. Notre démarche a consisté dans un premier temps à transposer une pratique de collecte de données en présentiel papier vers une pratique distancielle numérique. Les données langagières sur lesquelles nous travaillons sont des productions écrites sous forme de réponses à des questions ouvertes (ressentis). Dans un second temps, nous avons développé un outil de Traitement Automatique des Langues et intégré des ressources sémantiques à cette démarche professionnelle d’entreprise pour le traitement des données.Cette transformation d’une pratique métier nous a menée à poser deux grandes hypothèses : 1. les ressources sémantiques permettent une meilleure appréhension des données textuelles traitées, cependant une démarche incrémentale d’amélioration de ces ressources doit être envisagée afin d’obtenir des résultats optimaux 2. la transition numérique a un impact sur la qualité des données collectées et leur traitement.La finalité de l’outil est d’identifier et de regrouper des idées similaires dans des productions de très faible volumétrie (micro-corpus). Ce qui écarte toutes notions d’apprentissage et c’est pourquoi nous proposons une nouvelle façon d’aborder ce traitement pour répondre à un besoin industriel.

Résumé / Abstract : The work that we present is part of a collaborative research project between the University Grenoble Alpes and the company Comongo. Our research focuses on the field of Natural Language Processing (NLP) and more particularly on the automatic analysis of written productions. The core business of the company is the image management of persons. In a first step, our work consisted in transposing a focus group based approach into a distant digital practice. The data we are working on are written productions (answers to open questions) that we call feelings. In a second step, we developed a Natural Language Processing tool and integrated semantic esources to this approach for data processing.This digital transition led us to make two main hypothesis : 1. semantic resources allow a better understanding of the data, however an incremental approach to improve these resources may be necessary in order to obtain optimal results 2. the digital transition has an impact on the quality of the data and the processing.The purpose of the tool is to identify and group similar ideas in productions of very low volume (micro-corpus). This discards any notion of machine learning and this is why we propose a new way to process data with an industrial need.