Indexation vidéo par l'analyse de codage / par Lionel Brunel ; sous la direction de Pierre Mathieu

Date :

Editeur / Publisher : [S.l.] : [s.n.] , 2004

Type : Livre / Book

Langue / Language : français / French

Vidéo

MPEG (norme de codage vidéo)

Traitement d'images -- Techniques numériques

Splines, Théorie des

Mathieu, Pierre (19..-....) (Directeur de thèse / thesis advisor)

École doctorale Sciences et technologies de l'information et de la communication (Sophia Antipolis, Alpes-Maritimes) (Organisme de soutenance / degree-grantor)

Université de Nice (1965-2019) (Organisme de soutenance / degree-grantor)

Université de Nice-Sophia Antipolis. Faculté des sciences (Organisme de soutenance / degree-grantor)

Résumé / Abstract : Ce travail de thèse porte sur l'indexation, normalisée par MPEG7, de séquences vidéos. A partir d'un flux MPEG1-2, ou de tout autre codec basé sur la prédiction de mouvement et la DCT, sans totalement le décompresser, nous exploitons l'analyse effectuée lors du codage. Ainsi de façon non-supervisée et en quasi temps réel, nous proposons une méthode d'estimation du mouvement de la caméra ainsi que d'extraction des objets en déplacement. Pour l'estimation du mouvement de la caméra, nous utilisons les vecteurs de prédiction temporelle présents dans le flux. L'étude des images d'erreur nous permet d'en évaluer la pertinence. Pour la détection des objets en mouvement, nous segmentons tout d'abord la séquence en zones de couleur uniforme directement sur les coefficients DCT. Nous établissons une distance colorimétrique, non seulement entre deux pixels voisins d'une image, mais aussi entre deux images successives, ce qui définit une zone en trois dimensions. Afin de segmenter plus précisement et de régulariser les contours sur chaque image, nous utilisons les B-Splines. Chaque objet candidat est déformé par la présence de tous ses voisins à partir d'un potentiel de couleur, ce qui, itérativement, permet d'éliminer les zones trop réduites. En combinant le mouvement de la caméra, les vecteurs de prédiction et les zones de couleur 2D+t, nous réalisons une fusion adaptative de façon à obtenir une bonne représentation des objets.

Résumé / Abstract : This thesis work concerns indexation, normalized by MPEG7, of video sequences. From a MPEG1-2 stream, or from any other codec based on movement prediction and DCT, without decompressing it completely, we exploit the analysis carried out during the encoding process. This way, unsupervised and in quasi real-time, we provide a method to estimate the camera movement as well as moving objects extraction. As far as camera movement estimation is concerned, we use motion vectors included in the stream. Studying the error images allows us to assess its relevance. In order to detect moving objects, we first segment the sequence into uniform color zones directly on the DCT coefficients. We establish a colorimetric distance, not only between two neighbouring pixels in the same image, but also in two successive images, which allows to define a three-dimensional zone. In order to provide a more accurate segmentation, and to regularize the contours on every image, we use B-splines. Every candidate object is distorted by the presence of all its neighbors, based on a color potential. This allows iteratively to eliminate zones which were excessively reduced. By combining camera movements, prediction vectors and 2D+t color zones, we create an adaptative fusion in order to obtain a good representation of objects, and thus of their monitoring.