Classification et parallélisme en reconnaissance optique de caractères / Abdellatif Ennaji ; sous la direction de Yves Lecourtier

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Reconnaissance des formes (informatique)

Reconnaissance optique des caractères

Classification automatique

Apprentissage automatique

Lecourtier, Yves (Directeur de thèse / thesis advisor)

Université de Rouen Normandie (1966-....) (Organisme de soutenance / degree-grantor)

Résumé / Abstract : Le travail présenté dans cette thèse se situe dans le cadre général de la reconnaissance automatique de texte, et aborde plus particulièrement les problèmes de classification et de reconnaissance des caractères dactylographiés multifontes. L'approche proposée repose sur la mise en coopération de trois méthodes de classification où chacune correspond a priori à un point de vue différent du caractère. Trois méthodologies différentes sont donc développées, basées sur trois représentations différentes du caractère. Le premier classifieur est un classifieur à plusieurs niveaux de décision. L'extraction des traits horizontaux et verticaux du caractère permet d'émettre des hypothèses de classes qui sont vérifiées en parcourant un arbre de décisions selon le résultat de tests appropriés. Le deuxième classifieur est basé sur une description du type chaîne de symboles obtenue à partir de l'image squelettisée du caractère. La classification est réalisée ensuite par le calcul de distances d'éditions entre la représentation du caractére à reconnaître et celles de caractères modèles. Enfin, la troisième approche est une approche connexionniste originale par réseaux d'yprels. Un réseau à structure incrémentale est construit pendant la phase d'apprentissage supervisé pour chaque classe. Le processeur élémentaire, ou yprel, utilisé a au plus deux entrées. Ces trois approches sont mises en coopération selon deux stratégies différentes et des résultats comparatifs pour ces trois approches ainsi que l'évaluation de l'apport de la coopération sont fournis sur une base de 3880 caractères de taille variable provenant de 11 fontes différentes (majuscules, minuscules et chiffres)