Interaction multimodale oro-gestuelle personne libre : application à l'interaction multi-utilisateur avec de grands écrans / Sébastien Carbini ; sous la direction de Pierre-Yves Coulon

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Perception des visages

Reconnaissance des formes (informatique)

Coulon, Pierre-Yves (19..-.... ; auteur en automatique) (Directeur de thèse / thesis advisor)

Caelen, Jean (19..-....) (Président du jury de soutenance / praeses)

Carbonell, Noëlle (19..-....) (Rapporteur de la thèse / thesis reporter)

Dalle, Patrice (1948-2014 ; informaticien) (Rapporteur de la thèse / thesis reporter)

Viallet, Jean Emmanuel (19..-....) (Membre du jury / opponent)

Institut national polytechnique (Grenoble ; 1900-....) (Organisme de soutenance / degree-grantor)

École doctorale électronique, électrotechnique, automatique, traitement du signal (Grenoble ; 199.-....) (Ecole doctorale associée à la thèse / doctoral school)

France Télécom R&D (2001-2007) (Entreprise associée à la thèse / thesis associated company)

Relation : Interaction multimodale oro-gestuelle personne libre : application à l'interaction multi-utilisateur avec de grands écrans / Sébastien Carbini ; sous la direction de Pierre-Yves Coulon / Grenoble : Atelier national de reproduction des thèses , 2006

Résumé / Abstract : Cette thèse propose de concevoir et d'étudier une interface multimodale permettant d'interagir à la voix et au geste avec un grand écran. Pour la reconnaissance de geste, la tête et les mains d'un utilisateur sont détectées et suivies en temps réel à partir d'une caméra stéréo. Chaque partie du corps a un modèle statistique dont les paramètres sont estimés à chaque nouvelle image par l'algorithme Expectation Maximisation. Le suivi permet de reconnaître des gestes de pointage, de sélection et des gestes bi-manuels simples (rotation, redimensionnement). Pour la parole, une brique de reconnaissance multi-locuteur déjà disponible a été utilisée. Dans un premier temps, la fusion du geste et de la parole permet d'obtenir une souris "oro-gestuelle" sans contact permettant d'interfacer la plupart des applications. Dans une version plus avancée, la prise en compte du contexte de l'application lors de la fusion permet des commandes multimodales plus intuitives.

Résumé / Abstract : This thesis studies a multimodal interface for speech and gesture interactions with a large screen. For gesture recognition, the head and the hands of a user are detected and tracked in real time from a stereo camera. Each body part has a statistical model whose parameters are estimated at each new image by the Expectation Maximisation algorithm. The tracking allows to recognize pointing, selection and simple bi-manual gestures (rotation, resizing). For speech recognition, a yet available multi-speaker automatic speech recognition system was used. First, speech is fused with gesture to obtain an "oro-gestural" contact-Iess mouse to interface most applications. Then, in a more advanced version, taking into account the context of the application during modalities fusion allows more intuitive multimodal commands.