Vers des modèles synergiques de l'estimation du mouvement en vision biologique et artificielle / Naga Venkata Kartheek Medathati ; sous la direction de Pierre Kornprobst et de Guillaume S. Masson

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Catalogue Worldcat

Perception visuelle du mouvement

Bifurcation, Théorie de la

Vision par ordinateur

Kornprobst, Pierre (1973-....) (Directeur de thèse / thesis advisor)

Masson, Guillaume S. (19..-....) (Directeur de thèse / thesis advisor)

Precioso, Frédéric (1974-.... ; professeur des universités) (Président du jury de soutenance / praeses)

Benosman, Ryad (Rapporteur de la thèse / thesis reporter)

Deco, Gustavo (Rapporteur de la thèse / thesis reporter)

Cessac, Bruno (19..-....) (Membre du jury / opponent)

Paragios, Nikos (Membre du jury / opponent)

Université Côte d'Azur (2015-2019) (Organisme de soutenance / degree-grantor)

École doctorale Sciences et technologies de l'information et de la communication (Sophia Antipolis, Alpes-Maritimes) (Ecole doctorale associée à la thèse / doctoral school)

Université de Nice (1965-2019) (Autre partenaire associé à la thèse / thesis associated third party)

Institut national de recherche en informatique et en automatique (France). Unité de recherche (Sophia Antipolis, Alpes-Maritimes) (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : Dans cette thèse, nous avons étudié le problème de l'estimation de mouvement chez les mammifères et nous proposons que passer à l’échelle des modèles ancrés dans la biologie pour les applications du monde réel peut nous donner de nouvelles perspectives en vision biologique. En utilisant un modèle classique qui décrit l'activité des neurones dans les aires corticales V1 et MT du cerveau des primates, nous avons proposé une architecture montante pour l'estimation de mouvement et l’avons évaluée sur des exemples de référence de vision par ordinateur (une première pour ce type de modèles), révélant des lacunes telles que le manque de sélectivité au niveau des frontières de mouvement et l'absence d'association spatiale du champ de vitesses. Pour y remédier, nous avons proposé deux extensions, une stratégie d’intégration modulée par la forme pour minimiser les erreurs aux discontinuités de texture et un schéma de régression pour le décodage. Ces extensions ont amélioré la précision de l'estimation, mais aussi souligné à nouveau le débat sur le rôle des différents types de cellules dans le codage mouvement, par exemple le rôle relatif des cellules “pattern” par rapport aux cellules “component”. Pour comprendre cela, nous avons utilisé un modèle de champs neuronaux représentant une population de cellules MT pour comprendre le rôle des récurrences. Nos résultats montrent qu'une variété de comportements peuvent être reproduits, ils expliquent les changements dynamiques en fonction des stimuli, et nous conduisent à remettre en cause les régimes élevés d'inhibition généralement choisis dans la littérature.

Résumé / Abstract : In this thesis, we studied the problem of motion estimation in mammals and propose that scaling up models rooted in biology for real world applications can give us fresh insights into the biological vision. Using a classic model that describes the activity of directionally-selective neurons in V1 and MT areas of macaque brain, we proposed a feedforward V1-MT architecture for motion estimation and benchmarked it on computer vision datasets (first publicly available evaluation for this kind of models), revealing interesting shortcomings such as lack of selectivity at motion boundaries and lack of spatial association of the flow field. To address these, we proposed two extensions, a form modulated pooling strategy to minimize errors at texture boundaries and a regression based decoding scheme. These extensions improved estimation accuracy but also reemphasized the debate about the role of different cell types (characterized by their tuning curves) in encoding motion, for example relative role of pattern cells versus component cells. To understand this, we used a phenomenological neural fields model representative of a population of directionally tuned MT cells to check whether different tuning behaviors could be reproduced by a recurrently interacting population or if we need different types of cells explicitly. Our results indicated that a variety of tuning behavior can be reproduced by a minimal network, explaining dynamical changes in the tuning with change of stimuli leading us to question the high inhibition regimes typically considered by models in the literature.