Segmentation d'instance dans des images fisheye et détection de points clés de squelette dans des vidéos : application à la vidéoprotection à bord du futur train autonome / Rémi Dufour ; sous la direction de Marion Berbineau et de Olivier Lézoray

Date : 2022

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Vision par ordinateur

Apprentissage profond

Traitement d'images -- Techniques numériques

Vidéosurveillance

Reconnaissance de l'activité humaine (informatique)

Dufour, Rémi (1994-....) (Auteur / author)

Berbineau, Marion (1962-....) (Directeur de thèse / thesis advisor)

Lézoray, Olivier (1972-....) (Directeur de thèse / thesis advisor)

Brémond, François (1968-....) (Président du jury de soutenance / praeses)

Achard, Catherine (1970-.... ; chercheuse en informatique) (Rapporteur de la thèse / thesis reporter)

Ainouz, Samia (1979-.... ; chercheuse en informatique) (Rapporteur de la thèse / thesis reporter)

Meurie, Cyril (1976-....) (Membre du jury / opponent)

Université de Lille (2022-....) (Organisme de soutenance / degree-grantor)

École doctorale Sciences de l’ingénierie et des systèmes (Lille) (Ecole doctorale associée à la thèse / doctoral school)

Laboratoire Électronique Ondes et Signaux pour les Transports (LEOST) (Laboratoire associé à la thèse / thesis associated laboratory)

Accès en ligne / online access

Résumé / Abstract : Les projets de train autonomes se multiplient à travers le monde. En france un consortium dirigé par l'IRT Railenium a pour objectif de construire un prototype de train atteignant GoA4 (Grade of Automation 4) et qui serait capable de circuler sans pilote et sans personnel humain à bord. En l'absence de personnel, les besoins de services et de sécurité des passagers doivent être pris en charge par des systèmes automatisés. De tels systèmes doivent disposer d'informations variées et détaillées, en particulier sur l'état et les actions des passagers à bords. Les algorithmes de vision par ordinateur, en particulier ceux basés sur l'apprentissage automatique par réseaux de neurones profonds, aussi appelé Deep Learning, ont récemment atteint des niveaux de performances convenables pour analyser des flux vidéos de caméras de surveillance. Plusieurs défis spécifiques au contexte des trains autonomes doivent cependant être relevés. Certaines caméras chargées de surveiller les passagers à l'intérieur du train seront de type grand angle ou Fisheye. Ces caméras produisent des images présentant des distorsions en barillet importantes, qui ne sont pas présentes dans les principales bases de données d'entraînement, et qui permettent l'apprentissage des réseaux de neurones convolutifs modernes. Une méthode a été développée pour entraîner des algorithmes de segmentation sémantique sur des images fisheye artificielles. Nous appliquons pour la première fois cette méthode à la tâche de segmentation d'instance, et nous étudions ses performances sur deux nouvelles bases annotées d'images présentant des distorsions en barillet, ainsi que l'effet de l'initialisation et de certains paramètres. De plus, les nouveaux algorithmes de suivi de pose ont atteint une certaine maturité. Cependant, ils sont généralement top-down, et ne disposent pas d'une mémoire à long terme. Nous proposons une nouvelle méthode de détection de points clés de squelette, qui adapte un algorithme récent de Video Object Segmentation (VOS), qui dispose d'une mémoire à long terme, à la tâche de détection de points clés de squelette en vidéo. Ces algorithmes ont ensuite été testés sur des données réelles enregistrées dans le modèle de train utilisé pour le train autonome.

Résumé / Abstract : Autonomous train projects are multiplying around the world. In France a consortium directed by IRT Railenium has the goal to build a train prototype that achieves GoA4 (Grade of Automation 4) that would be able to navigate without a pilot and without on-board staff. In the absence of staff, the needs of services and security of the passengers must be taken care of by automatic systems. Such systems must have varied and detailed information, in particular on the state and actions of the passengers on board. Computer vision algorithms, in particular those based on machine larning by deep neural networks, also called "Deep Learning" algorithms, have recently achieved a level of performance adequate to analyse video streams from surveillance cameras. However, many challenges specific to the context of autonommous trains need to be adressed. Some cameras tasked with surveillance of passengers inside the train will be of the wide-angle or Fisheye type. Those cameras produce images that contain important barrel distortions, that are not present in the main datasets that permit the training of modern convolutional neural networks. A method was developed to train semantic segmentation algorithm on artificial fisheye images. We apply for the first time this method for the task of instance segmentation, and we study its performance on two new annotated image datasets with barrel distortions, as well as the effect of distorsions and certain parameters. Moreover, recent pose tracking algorithms have achieved some degree of maturity. However, they are generally top-down, and do not make use of a long term memory. We propose a new method for skeleton key-points detection in video, that adapts a recent Video Object Segmentation (VOS) algorithm, that makes use of a long term memory, to the task of skeleton key-points detection in videos.