Domaines et fouille d'opinion : une étude des marqueurs multi-polaires au niveau du texte / Morgane Marchand ; sous la direction de Anne Vilnat et de Romaric Besançon

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Exploration de données

Traitement automatique du langage naturel

Apprentissage automatique

Polarité (linguistique)

Contexte (linguistique)

Vilnat, Anne (Directeur de thèse / thesis advisor)

Besançon, Romaric (Directeur de thèse / thesis advisor)

Rosset, Sophie (1970-....) (Président du jury de soutenance / praeses)

Daille, Béatrice (Rapporteur de la thèse / thesis reporter)

Poibeau, Thierry (Rapporteur de la thèse / thesis reporter)

Valette, Mathieu (19..-....) (Membre du jury / opponent)

Université Paris-Sud (1970-2019) (Organisme de soutenance / degree-grantor)

Ecole doctorale Informatique de Paris-Sud (Ecole doctorale associée à la thèse / doctoral school)

Résumé / Abstract : Cette thèse s’intéresse à l’adaptation d’un classifieur statistique d’opinion au niveau du texte d’un domaine à un autre. Cependant, nous exprimons notre opinion différemment selon ce dont nous parlons. Un même mot peut ne pas désigner pas la même chose ou bien ne pas avoir la même connotation selon le thème de la discussion. Si ces mots ne sont pas détectés, ils induiront des erreurs de classification.Nous appelons donc marqueurs multi-polaires des mots ou bigrammes dont la présence indique une certaine polarité du texte entier, différente selon le domaine du texte. Cette thèse est consacrées à leur étude. Ces marqueurs sont détectés à l’aide d’un test du khi2 lorsque l’on dispose d’annotations au niveau du texte dans les deux domaines d’intérêt. Nous avons également proposé une méthode de détection semi-supervisé. Nous utilisons une collections de mots pivots auto-épurés afin d’assurer une polarité stable d’un domaine à un autre.Nous avons également vérifié la pertinence linguistique des mots sélectionnés en organisant une campagne d’annotation manuelle. Les mots ainsi validés comme multi-polaires peuvent être des éléments de contexte, des mots exprimant ou expliquant une opinion ou bien désignant l’objet sur lequel l’opinion est portée. Notre étude en contexte a également mis en lumière trois causes principale de changement de polarité : le changement de sens, le changement d’objet et le changement d’utilisation.Pour finir, nous avons étudié l’influence de la détection des marqueurs multi-polaires sur la classification de l’opinion au niveau du texte par des classifieurs automatiques dans trois cas distincts : adaptation d’un domaine source à un domaine cible, corpus multi-domaine, corpus en domaine ouvert. Les résultats de ces expériences montrent que plus le transfert initial est difficile, plus la prise en compte des marqueurs multi-polaires peut améliorer la classification, allant jusqu’à plus cinq points d’exactitude.

Résumé / Abstract : In this thesis, we are studying the adaptation of a text level opinion classifier across domains. Howerver, people express their opinion in a different way depending on the subject of the conversation. The same word in two different domains can refer to different objects or have an other connotation. If these words are not detected, they will lead to classification errors.We call these words or bigrams « multi-polarity marquers ». Their presence in a text signals a polarity wich is different according to the domain of the text. Their study is the subject of this thesis. These marquers are detected using a khi2 test if labels exist in both targeted domains. We also propose a semi-supervised detection method for the case with labels in only one domain. We use a collection of auto-epurated pivot words in order to assure a stable polarity accross domains.We have also checked the linguistic interest of the selected words with a manual evaluation campaign. The validated words can be : a word of context, a word giving an opinion, a word explaining an opinion or a word wich refer to the evaluated object. Our study also show that the causes of the changing polarity are of three kinds : changing meaning, changing object or changing use.Finally, we have studyed the influence of multi-polarity marquers on opinion classification at text level in three different cases : adaptation of a source domain to a target domain, multi-domain corpora and open domain corpora. The results of our experiments show that the potential improvement is bigger when the initial transfer was difficult. In the favorable cases, we improve accurracy up to five points.