Date : 2006
Type : Livre / Book
Type : Thèse / ThesisLangue / Language : français / French
Reconnaissance des formes (informatique)
Résumé / Abstract : Cette thèse propose de concevoir et d'étudier une interface multimodale permettant d'interagir à la voix et au geste avec un grand écran. Pour la reconnaissance de geste, la tête et les mains d'un utilisateur sont détectées et suivies en temps réel à partir d'une caméra stéréo. Chaque partie du corps a un modèle statistique dont les paramètres sont estimés à chaque nouvelle image par l'algorithme Expectation Maximisation. Le suivi permet de reconnaître des gestes de pointage, de sélection et des gestes bi-manuels simples (rotation, redimensionnement). Pour la parole, une brique de reconnaissance multi-locuteur déjà disponible a été utilisée. Dans un premier temps, la fusion du geste et de la parole permet d'obtenir une souris "oro-gestuelle" sans contact permettant d'interfacer la plupart des applications. Dans une version plus avancée, la prise en compte du contexte de l'application lors de la fusion permet des commandes multimodales plus intuitives.
Résumé / Abstract : This thesis studies a multimodal interface for speech and gesture interactions with a large screen. For gesture recognition, the head and the hands of a user are detected and tracked in real time from a stereo camera. Each body part has a statistical model whose parameters are estimated at each new image by the Expectation Maximisation algorithm. The tracking allows to recognize pointing, selection and simple bi-manual gestures (rotation, resizing). For speech recognition, a yet available multi-speaker automatic speech recognition system was used. First, speech is fused with gesture to obtain an "oro-gestural" contact-Iess mouse to interface most applications. Then, in a more advanced version, taking into account the context of the application during modalities fusion allows more intuitive multimodal commands.