Geometrical and contextual scene analysis for object detection and tracking in intelligent vehicles / Bihao Wang ; sous la direction de Vincent Frémont et de Sergio Alberto Rodríguez Florez

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Réseaux routiers intelligents

Automobiles -- Systèmes anticollision

Analyse de scènes (informatique)

Reconnaissance des formes (informatique)

Vision par ordinateur

Traitement d'images

Analyse du mouvement

Capteurs (technologie)

Accidents de la route -- Prévention

Automobiles -- Dispositifs de sécurité

Sécurité routière

Frémont, Vincent (19..-.... ; enseignant-chercheur en automatique) (Directeur de thèse / thesis advisor)

Rodríguez Flórez, Sergio Alberto (19..-....) (Directeur de thèse / thesis advisor)

Université de Technologie de Compiègne (1972-...) (Organisme de soutenance / degree-grantor)

École doctorale 71, Sciences pour l'ingénieur (Compiègne) (Ecole doctorale associée à la thèse / doctoral school)

Résumé / Abstract : Pour les véhicules intelligents autonomes ou semi-autonomes, la perception constitue la première tâche fondamentale à accomplir avant la décision et l’action. Grâce à l’analyse des données vidéo, Lidar et radar, elle fournit une représentation spécifique de l’environnement et de son état, à travers l’extraction de propriétés clés issues des données des capteurs. Comparé à d’autres modalités de perception telles que le GPS, les capteurs inertiels ou les capteurs de distance (Lidar, radar, ultrasons), les caméras offrent la plus grande quantité d’informations. Grâce à leur polyvalence, les caméras permettent aux systèmes intelligents d’extraire à la fois des informations contextuelles de haut niveau et de reconstruire des informations géométriques de la scène observée et ce, à haute vitesse et à faible coût. De plus, la technologie de détection passive des caméras permet une faible consommation d’énergie et facilite leur miniaturisation. L’utilisation des caméras n’est toutefois pas triviale et pose un certain nombre de questions théoriques liées à la façon dont ce capteur perçoit son environnement. Dans cette thèse, nous proposons un système de détection d’objets mobiles basé seule- ment sur l’analyse d’images. En effet, dans les environnements observés par un véhicule intelligent, les objets en mouvement représentent des obstacles avec un risque de collision élevé, et ils doivent être détectés de manière fiable et robuste. Nous abordons le problème de la détection d’objets mobiles à partir de l’extraction du contexte local reposant sur une segmentation de la route. Après transformation de l’image couleur en une image invariante à l’illumination, les ombres peuvent alors être supprimées réduisant ainsi leur influence négative sur la détection d’obstacles. Ainsi, à partir d’une sélection automatique de pixels appartenant à la route, une région d’intérêt où les objets en mouvement peuvent apparaître avec un risque de collision élevé, est extraite. Dans cette zone, les pixels appartenant à des objets mobiles sont ensuite identifiés à l’aide d’une approche plan+parallaxe. À cette fin, les pixels potentiellement mobiles et liés à l’effet de parallaxe sont détectés par une méthode de soustraction du fond de l’image; puis trois contraintes géométriques différentes: la contrainte épipolaire, la contrainte de cohérence structurelle et le tenseur trifocal, sont appliquées à ces pixels pour filtrer ceux issus de l’effet de parallaxe. Des équations de vraisemblance sont aussi proposées afin de combiner les différents contraintes d’une manière complémentaire et efficace. Lorsque la stéréovision est disponible, la segmentation de la route et la détection d’obstacles peuvent être affinées en utilisant une segmentation spécifique de la carte de disparité. De plus, dans ce cas, un algorithme de suivi robuste combinant les informations de l’image et la profondeur des pixels a été proposé. Ainsi, si l’une des deux caméras ne fonctionne plus, le système peut donc revenir dans un mode de fonctionnement monoculaire ce qui constitue une propriété importante pour la fiabilité et l’intégrité du système de perception. Les différents algorithmes proposés ont été testés sur des bases de données d’images publiques en réalisant une évaluation par rapport aux approches de l’état de l’art et en se comparant à des données de vérité terrain. Les résultats obtenus sont prometteurs et montrent que les méthodes proposées sont efficaces et robustes pour différents scénarios routiers et les détections s’avèrent fiables notamment dans des situations ambiguës.

Résumé / Abstract : For autonomous or semi-autonomous intelligent vehicles, perception constitutes the first fundamental task to be performed before decision and action/control. Through the analysis of video, Lidar and radar data, it provides a specific representation of the environment and of its state, by extracting key properties from sensor data with time integration of sensor information. Compared to other perception modalities such as GPS, inertial or range sensors (Lidar, radar, ultrasonic), the cameras offer the greatest amount of information. Thanks to their versatility, cameras allow intelligent systems to achieve both high-level contextual and low-level geometrical information about the observed scene, and this is at high speed and low cost. Furthermore, the passive sensing technology of cameras enables low energy consumption and facilitates small size system integration. The use of cameras is however, not trivial and poses a number of theoretical issues related to how this sensor perceives its environmen. In this thesis, we propose a vision-only system for moving object detection. Indeed,within natural and constrained environments observed by an intelligent vehicle, moving objects represent high risk collision obstacles, and have to be handled robustly. We approach the problem of detecting moving objects by first extracting the local contextusing a color-based road segmentation. After transforming the color image into illuminant invariant image, shadows as well as their negative influence on the detection process can be removed. Hence, according to the feature automatically selected onthe road, a region of interest (ROI), where the moving objects can appear with a high collision risk, is extracted. Within this area, the moving pixels are then identified usin ga plane+parallax approach. To this end, the potential moving and parallax pixels a redetected using a background subtraction method; then three different geometrical constraints : the epipolar constraint, the structural consistency constraint and the trifocaltensor are applied to such potential pixels to filter out parallax ones. Likelihood equations are also introduced to combine the constraints in a complementary and effectiveway. When stereo vision is available, the road segmentation and on-road obstacles detection can be refined by means of the disparity map with geometrical cues. Moreover, in this case, a robust tracking algorithm combining image and depth information has been proposed. If one of the two cameras fails, the system can therefore come back to a monocular operation mode, which is an important feature for perception system reliability and integrity. The different proposed algorithms have been tested on public images data set with anevaluation against state-of-the-art approaches and ground-truth data. The obtained results are promising and show that the proposed methods are effective and robust on the different traffic scenarios and can achieve reliable detections in ambiguous situations.