Évaluation adaptative des systèmes de transcription en contexte applicatif / Mohamed Amer Ben Jannet ; sous la direction de Sophie Rosset

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Traitement automatique du langage naturel

Technologie -- Évaluation

Reconnaissance automatique de la parole

Rosset, Sophie (1970-.... ; Directrice d'une thèse de doctorat en Informatique médicale) (Directeur de thèse / thesis advisor)

Béchet, Frédéric (19..-....) (Président du jury de soutenance / praeses)

Besacier, Laurent (Rapporteur de la thèse / thesis reporter)

Estève, Yannick (Rapporteur de la thèse / thesis reporter)

Galibert, Olivier (1971-....) (Membre du jury / opponent)

Zweigenbaum, Pierre (1958-....) (Membre du jury / opponent)

Université Paris-Saclay (2015-2019) (Organisme de soutenance / degree-grantor)

École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) (Ecole doctorale associée à la thèse / doctoral school)

Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur (Orsay, Essonne ; 1972-2020) (Laboratoire associé à la thèse / thesis associated laboratory)

Université Paris-Sud (1970-2019) (Autre partenaire associé à la thèse / thesis associated third party)

Laboratoire national de métrologie et d'essais (France) (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : Il est important d'évaluer régulièrement les produits de l'innovation technologique afin d'estimer le niveau de maturité atteint par les technologies et d'étudier les cadres applicatifs dans lesquels elles pourront être exploitées. Le traitement automatique des langues (TAL) relève à la fois de la recherche et de l'innovation technologique et a pour but la modélisation et le développement d'outils permettant de traiter automatiquement le langage naturel. Pendant longtemps, les différentes briques technologiques issues du TAL étaient développées séparément. Par conséquent, les méthodes d'évaluation existantes sont dans la plupart modulaires et ne permettent d'évaluer qu'un seul module à la fois, alors qu'aujourd'hui nombreuses applications nécessitent de combiner plusieurs modules de TAL pour résoudre des tâches complexes. Le nouveau défi en terme d'évaluation est alors de pouvoir évaluer les différents modules (ou briques) tout en prenant en compte le contexte applicatif.Notre travail porte sur l'évaluation des systèmes de reconnaissance automatique de la parole (RAP) en contexte applicatif, en particulier, celui de la reconnaissance d'entités nommées (REN).En première partie, nous abordons la problématique de l'évaluation des systèmes de RAP en contexte applicatif à travers une étude de l'état de l'art. Nous y décrivons les tâche de RAP et de REN proposées dans les campagnes d'évaluation ainsi que les protocoles mis en place pour leurs évaluation. Nous y discutons également les limites des approches d'évaluations modulaires et nous y exposons les mesures alternatives proposées dans la littératures. En deuxième partie, nous décrivons la tâche de détection, classification et décomposition d'entités nommées étudiée et nous proposons une nouvelle métriques ETER (Entity Tree Error Rate) permettant de prendre en compte les spécificité de cette tâche et le contexte applicatif lors de l'évaluation. ETER permet également de supprimer les biais observés avec les métriques existantes. En troisième partie, nous définissons une nouvelle mesure ATENE (Automatic Transcriptions Evaluation for Named Entities) qui permet d'évaluer la qualité des systèmes de RAP et l'impact de leurs erreurs pour des systèmes de REN appliqués en aval. ATENE consiste à comparer les probabilités de présence d'entités sur les transcriptions de référence et d'hypothèse plutôt qu'une comparaison directe des graphèmes. Elle est composée de deux mesures élémentaires. Une première permettant l'évaluation de risque d'erreur d'omission et de substitution d'entités et une seconde permettant d'évaluer le risque d'erreur d'insertion d'entités causé par les erreurs de RAP.Nos expériences de validation montrent que les mesures données par ATENE corrèlent mieux que les autres mesures de l'état de l'art avec les performances des systèmes de REN.

Résumé / Abstract : It is important to regularly assess the technological innovation products in order to estimate the level of maturity reached by the technology and study the applications frameworks in which they can be used. Natural language processing (NLP) aims at developing modules and applications that automatically process the human language. That makes the field relevant to beth research and technological innovation. For years, the different technological modules from the NLP were developed separately. Therefore, the existing evaluation methods are in most modular. They allow to evaluate only one module at a time, while today, many applications need to combine several NLP modules to solve complex tasks. The new challenge in terms of evaluation is then to evaluate the different modules while taking into account the applicative context.Our work addresses the evaluation of Automatic Speech Recognition (ASR) systems according to the applicative context. We will focus on the case of Named Entities Recognition (NER) from spoken documents transcriped automatically. In the first part, we address the issue of evaluating ASR systems according to the application context through a study of the state of the art. We describes the tasks of ASR and NER proposed during several evalution campaigns and we discuss the protocols established for their evaluation. We also point the limitations of modular evaluation approaches and we expose the alternatives measures proposed in the literature. In the second part we describe the studied task of named entities detection, classification and decomposition and we propose a new metric ETER (Entity Tree Error Rate) which allows to take into account the specificity of the task and the applicative context during the evaluation. ETER also eliminates the biases observed with the existing metrics. In the third part, we define a new measure ATENE (Automatic Transcriptions Evaluation for Named Entities) that evaluates the quality of ASR systems and the impact of their errors for REN systems applied downstream. Rather than directly comparing reference and hypothesis transcriptions, ATENE measure how harder it becames to identify entities given the differences between hypothesis and reference by comparing an estimated likelihood of presence of entities. It is composed of two elementary measurements. The first aims to assess the risk of entities deletions and substitutions and the second aims to assess the risk of entities insertions caused by ASR errors.Our validation experiments show that the measurements given by ATENE correlate better than other measures from the state of the art with the performance of REN systems.