Une normalisation de l'emploi de la majuscule et sa représentation formelle pour un système de vérification automatique des majuscules dans un texte / Mounira Bioud ; sous la direction de Sylviane Cardey

Date :

Editeur / Publisher : [S.l.] : [s.n.] , 2006

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Français (langue) -- Majuscules

Français (langue) -- Noms

Analyse automatique (linguistique)

Traitement automatique du langage naturel

Cardey-Greenfield, Sylviane (1951-....) (Directeur de thèse / thesis advisor)

Université de Franche-Comté. UFR des Sciences du langage, de l'homme et de la société (Autre partenaire associé à la thèse / thesis associated third party)

Université de Franche-Comté (1971-....) (Organisme de soutenance / degree-grantor)

Relation : Une normalisation de l'emploi de la majuscule et sa représentation formelle pour un système de vérification automatique des majuscules dans un texte / Mounira Bioud ; sous la direction de Sylviane Cardey / Lille : Atelier national de reproduction des thèses , 2006

Résumé / Abstract : Cette recherche repose sur l'étude des problèmes relatifs à l'emploi de la majuscule dans une perspective de traitement automatique des langues en vue d'une correction automatique. L'usage des majuscules en français souffre d'une absence de norme fixe et universelle qui entraîne inévitablement leur placement aléatoire et souvent injustifié. Cette absence fait apparaître d'une part des phénomènes appelés majusculite (abus des majuscules) et minusculite (abus des minuscules) et d'autre part la présence de variantes orthographiques (la Montagne noire, la montagne Noire, la Montagne Noire, la montagne noire). Les correcticiels actuels semblent incapables de dire quelle est la bonne orthographe. Le véritable sens des majuscules tend à disparaître et leur pertinence à devenir moins évidente. Tant d'incertitudes, d'hésitations et de flottements dans les règles d'usage, tant de différences de traitement d'un ouvrage à un autre rendent toute tentative d'automatisation très difficile. Cette normalité bancale touche plus particulièrement les noms propres dits complexes ou dénominations. La solution la plus logique pour que cesse la dérive, est de normaliser l'emploi des majuscules. En nous basant sur un certain nombre d'ouvrages de référence, nous avons élaboré des règles claires et logiques régissant l'emploi de la majuscule afin de créer un modèle théorique à la base d'un système de vérification automatique des majuscules. Cette solution voit ainsi la disparition des variantes orthographiques dont l'existence constitue également un problème majeur dans la recherche en extraction de formes figées.

Résumé / Abstract : This research deals with the study of the problems relating to the use of the upper case letter from the point of view of Natural Language Processing for an automatic spelling correction. The use of the French capital letters suffers from a lack of fixed standardization which inevitably involves that they are used without methodology. This absence reveals on the one hand phenomenon called “majusculite” (abuse of the capital letters) and “minusculite” (abuse of small letters) and on the other hand the presence of spelling variants (la Montagne noire, la montagne Noire, la Montagne Noire, la montagne noire). The current spelling checkers seem unable to say which the good form is. The true direction of upper case letters tends to disappear and their relevance becoming less obvious. Such an amount of doubts, hesitations and fluctuations in the rules of employment, so many differences between the different authors return any attempt of automatic processing very difficult. This wobbly normality more particularly touches the proper nouns known as complex or “dénominations”. The most logical solution so that cease the drift, is to standardize the use of the capital letters. Basing us on various reference works, we worked out clear and logical rules governing the use of the capital letter in order to create a theoretical model of an automatic system checking capital letters. Thus, this solution sees the disappearance of the spelling variants whose existence also constitutes a major problem in research in extraction of fixed forms.