Construction de fiches de synthèse par annotation sémantique automatique des publications scientifiques : application aux articles en biologie / Olfa Makkaoui ; sous la direction de Jean-Pierre Desclès et de Christophe Jouis

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Synthèse de haut niveau (informatique)

Langages de programmation -- Sémantique

Classification Dewey : 004

Desclès, Jean-Pierre (Directeur de thèse / thesis advisor)

Jouis, Christophe (Directeur de thèse / thesis advisor)

Hassoun, Mohamed (1951-....) (Président du jury de soutenance / praeses)

Meunier, Jean-Guy (Membre du jury / opponent)

Ganascia, Jean-Gabriel (1955-....) (Membre du jury / opponent)

Mourad, Ghassan (1960-....) (Membre du jury / opponent)

Université Paris-Sorbonne (1970-2017) (Organisme de soutenance / degree-grantor)

École doctorale Concepts et langages (Paris) (Ecole doctorale associée à la thèse / doctoral school)

Sens, texte, informatique, histoire (Paris) (Laboratoire associé à la thèse / thesis associated laboratory)

Langues, logiques, informatique, cognition (Paris) (Equipe de recherche associée à la thèse / thesis associated research team)

Résumé / Abstract : Les fiches de synthèse multi-documents sont considérées comme une représentation textuelle organisée et structurée des segments textuels. La construction de ces fiches repose sur l’annotation sémantique des publications scientifiques suivant un ensemble de catégories discursives qu’on appelle des points de vue de fouille (comme les hypothèses plausibles, les résultats, ou les conclusions,…). L’annotation sémantique est réalisée automatiquement par la méthode de l’Exploration Contextuelle. Il s’agit d’une méthode linguistique computationnelle, implémentée par un moteur d’annotation sémantique, qui repose sur un ensemble de marqueurs linguistiques associés à des points de vue de fouille. Afin de pouvoir expérimenter la pertinence des résultats de notre système, nous avons procédé à l’évaluation des annotations automatiques sur des textes en biologie. La notion des spéculations (hypothèses plausibles), particulièrement décrite dans ce travail, a été évaluée sur le corpus BioScope annoté manuellement pour les spéculations et les négations. Nous proposons une application informatique qui permet aux utilisateurs d’obtenir des fiches de synthèse organisées suivant des critères sémantiques paramétrables par l’utilisateur.

Résumé / Abstract : Multi-documents thematic sheets are considered as an organized and structured textual representationof textual segments. The thematic sheets construction is based on the semantic annotation ofscientific publications according to a set of discursive categories called search view points (such asspeculation, results or conclusions, ?). The semantic annotation is performed automatically by theContextual Exploration process. It is a computational linguistic method based on a set of linguisticmarkers associated with search view points. This method is implemented by a semantic annotationengine. In order to evaluate the relevance of the results of our system, we used biological papers toevaluate the automatic annotation. The concept of speculation (plausible hypothesis), specificallydescribed in this work, was evaluated on the Bioscope corpus which is manually annotated forspeculation and negation. We propose an application that allows users to obtain thematic sheetsorganized according to semantic criteria configurable by the user.