Towards comfortable virtual reality viewing of virtual environments created from photographs of the real world / Grégoire Dupont de Dinechin ; sous la direction de Alexis Paljic

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Réalité virtuelle

Imagerie tridimensionnelle

Apprentissage profond

Parallaxe

Vidéos

Photographies

Art interactif

Classification Dewey : 006.8

Classification Dewey : 629.89

Paljic, Alexis (19..-....) (Directeur de thèse / thesis advisor)

Lécuyer, Anatole (1973-....) (Président du jury de soutenance / praeses)

Steed, Anthony (Rapporteur de la thèse / thesis reporter)

Gutierrez, Diego (19..-....) (Membre du jury / opponent)

Farrugia, Jean-Philippe (1973-....) (Membre du jury / opponent)

RIZVIĆ, Selma (Membre du jury / opponent)

Université Paris sciences et lettres (2020-....) (Organisme de soutenance / degree-grantor)

Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique (Paris) (Ecole doctorale associée à la thèse / doctoral school)

Centre de robotique (Paris) (Laboratoire associé à la thèse / thesis associated laboratory)

École nationale supérieure des mines (Paris) (Autre partenaire associé à la thèse / thesis associated third party)

Résumé / Abstract : La reconstitution en réalité virtuelle de lieux, personnes, et objets réels ouvre la voie à de nombreux usages, tels que préserver et promouvoir des sites culturels, générer des avatars photoréalistes pour se retrouver virtuellement avec famille et amis à distance, ou encore recréer des lieux ou situations spécifiques à des fins thérapeutiques ou de formation. Tout cela s'appuie sur notre capacité à transformer des images du monde réel (photos et vidéos) en environnements 360° immersifs et objets 3D interactifs. Cependant, ces environnements virtuels à base d'images demeurent souvent imparfaits, et peuvent ainsi rendre le visionnage en réalité virtuelle inconfortable pour les utilisateurs. En particulier, il est difficile de reconstituer avec précision la géométrie d'une scène réelle, et souvent de nombreuses approximations sont ainsi faites qui peuvent être source d'inconfort lors de l'observation ou du déplacement. De même, il est difficile de restituer fidèlement l'aspect visuel de la scène : les méthodes classiques ne peuvent ainsi restituer certains effets visuels complexes tels que transparence et réflexions spéculaires, tandis que les algorithmes de rendu plus spécialisés ont tendance à générer des artefacts visuels et peuvent être source de latence. Par ailleurs, ces problèmes deviennent d'autant plus complexes lorsqu'il s'agit de reconstituer des personnes, l'oeil humain étant très sensible aux défauts dans l'apparence ou le comportement de personnages virtuels. Par conséquent, l'objectif de cette thèse est d'étudier les méthodes permettant de rendre les utilisateurs plus confortables lors du visionnage immersif de reconstitutions digitales du monde réel, par l'amélioration et le développement de nouvelles méthodes de création d'environnements virtuels à partir de photos. Nous démontrons et évaluons ainsi des solutions permettant (1) de fournir une meilleure parallaxe de mouvement lors du visionnage d'images 360°, par le biais d'une interface immersive pour l'estimation de cartes de profondeur, (2) de générer automatiquement des agents virtuels 3D capables d'interaction à partir de vidéos 360°, en combinant des modèles pré-entrainés d'apprentissage profond, et (3) de restituer des effets visuels de façon photoréaliste en réalité virtuelle, par le développement d'outils que nous appliquons ensuite pour recréer virtuellement la collection d'un musée de minéralogie. Nous évaluons chaque approche par le biais d'études utilisateur, et rendons notre code accessible sous forme d'outils open source.

Résumé / Abstract : There are many applications to capturing and digitally recreating real-world people and places for virtual reality (VR), such as preserving and promoting cultural heritage sites, placing users face-to-face with faraway family and friends, and creating photorealistic replicas of specific locations for therapy and training. This is typically done by transforming sets of input images, i.e. photographs and videos, into immersive 360° scenes and interactive 3D objects. However, such image-based virtual environments are often flawed such that they fail to provide users with a comfortable viewing experience. In particular, accurately recovering the scene's 3D geometry is a difficult task, causing many existing approaches to make approximations that are likely to cause discomfort, e.g. as the scene appears distorted or seems to move with the viewer during head motion. In the same way, existing solutions most often fail to accurately render the scene's visual appearance in a comfortable fashion. Standard 3D reconstruction pipelines thus commonly average out captured view-dependent effects such as specular reflections, whereas complex image-based rendering algorithms often fail to achieve VR-compatible framerates, and are likely to cause distracting visual artifacts outside of a small range of head motion. Finally, further complications arise when the goal is to virtually recreate people, as inaccuracies in the appearance of the displayed 3D characters or unconvincing responsive behavior may be additional sources of unease. Therefore, in this thesis, we investigate the extent to which users can be made more comfortable when viewing digital replicas of the real world in VR, by enhancing, combining, and designing new solutions for creating virtual environments from input sets of photographs. We thus demonstrate and evaluate solutions for (1) providing motion parallax during the viewing of 360° images, using a VR interface for estimating depth information, (2) automatically generating responsive 3D virtual agents from 360° videos, by combining pre-trained deep learning networks, and (3) rendering captured view-dependent effects at high framerates in a game engine widely used for VR development, which we apply to digitally recreate a museum's mineralogy collection. We evaluate and discuss each approach by way of user studies, and make our codebase available as an open-source toolkit.