Construction et utilisation de la sémantique dans le cadre de l'annotation automatique d'images / Christophe Millet ; sous la direction d'Isabelle Bloch

Date :

Editeur / Publisher : [S.l.] : [s.n.] , 2008

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Traitement d'images

Indexation automatique

Pertinence (logique)

Bloch, Isabelle (19..-.... ; mathématicienne, spécialiste du traitement des images) (Directeur de thèse / thesis advisor)

Télécom Paris (Palaiseau ; 1977-....) (Organisme de soutenance / degree-grantor)

Relation : Construction et utilisation de la sémantique dans le cadre de l'annotation automatique d'images / Christophe Millet / Villeurbanne : [CCSD] , 2009

Relation : Construction et utilisation de la sémantique dans le cadre de l'annotation automatique d'images / Christophe Millet ; sous la direction d'Isabelle Bloch / Lille : Atelier national de reproduction des thèses , 2008

Résumé / Abstract : Cette thèse vise à améliorer l'annotation automatique d'images en introduisant de la connaissance et en proposant un système complètement automatique, où notamment la base d’apprentissage est construite automatiquement à partir des images du Web. Cette thèse est constituée de trois parties : La première partie catégorise une image en fonction de son type (photo, carte, peinture, clipart) puis pour les photographies, détermine le contexte de la scène : intérieur, extérieur, nuit, jour, nature, ville ? Y a-t-il des visages dans la photo ? Y a-t-il du ciel, de l���herbe, de l’eau, de la neige, une route dans l’image ? La deuxième partie construit automatiquement une base d’apprentissage pour n’importe quel objet. Ne connaissant que le nom de l'objet à apprendre, nous déduisons automatiquement sa couleur et le milieu dans lequel il se trouve à partir du web. Nous utilisons ces connaissances pour filtrer des images récupérées également sur Internet, c’est-à-dire rejeter les images ne correspondant pas au concept recherché, et isoler la région correspondant à l’objet dans l’image. La troisième partie concerne la désambiguïsation, i.e. la manière de choisir parmi plusieurs hypothèses de reconnaissance pour une région donnée celle qui permet une annotation globale de l’image sémantiquement cohérente. Deux sortes de désambiguïsation sont développées : l'une utilise les relations spatiales, et s’assure que par exemple le ciel est toujours au-dessus de la mer ; l'autre tient compte du contexte de l’image, en utilisant la relation entre les objets et les milieux dans lesquels ils se trouvent : on a plus de chance de trouver un éléphant dans la savane et un dauphin dans l'eau.

Résumé / Abstract : This thesis tries to improve automatic image annotation by introducing knowledge in automatic image annotation, and by proposing a totally automatic system, where in particular the learning image database is automatically constructed with images from the Internet. This thesis is divided into three parts :The first part categorizes an image based on its type (photograph, map, painting, clipart) and, for photographs, determines the context of the depicted scene : indoor, outdoor, night, day, nature, city? Is there any face in the photograph ? Is there sky, grass, water, snow, road, etc. in the image ? The second part studies the possibility to automatically build a learning image database for any given object. Starting only from the name of the object that we wish to learn, we automatically deduce from the Web its colour and its typical environment. We then use this knowledge to filter the images retrieved from the Internet by removing the images that do not correspond to the concept of interest, and by isolating the region in the image that corresponds to the object. Eventually, the third part is about disambiguation, i.e. how to choose, among several hypotheses of recognized objects in each region, the one which gives the most semantically consistent annotation of the image. Two kinds of disambiguation are developed: the first one ensures that spatial relationships are respected, for example that a sky region is always above a water region. The second one takes into account the context of the image by using the relation between the objects and their typical context: the probability is higher to find an elephant in the savannah and a dolphin in the water.