Un nouveau modèle peut créer des images photoréalistes 3D en temps réel

Des chercheurs de la Institut Max Planck d’informatique et le Université de Hong Kong a développé StyleNeRFun modèle génératif sensible à la 3D qui crée des images photoréalistes haute résolution pouvant être entraînées sur des images 2D non structurées.

DPReview rapports que le modèle est capable de synthétiser les images avec une cohérence multi-vues que, par rapport aux approches existantes qui ont du mal à créer des images haute résolution avec des détails fins ou à produire des artefacts 3D incohérents, StyleNeRF fournit des images efficaces et plus cohérentes grâce à une intégration de son champ de rayonnement neuronal (NeRF) dans un générateur basé sur le style.

Les chercheurs affirment que les travaux récents sur les modèles génératifs renforcent les structures 3D en incorporant NeRF. Cependant, ils ne peuvent pas synthétiser des images haute résolution avec des détails délicats en raison du processus de rendu coûteux en calcul de NeRF.

“Nous effectuons un rendu en volume uniquement pour produire une carte de caractéristiques basse résolution et appliquons progressivement un suréchantillonnage en 2D pour résoudre le premier problème”, déclarent les chercheurs, faisant référence à la difficulté de la méthode existante à créer des images haute résolution avec des détails fins.

“Pour atténuer les incohérences causées par le suréchantillonnage 2D, nous proposons plusieurs conceptions, y compris un meilleur suréchantillonneur et une nouvelle perte de régularisation.”

StyleNeRF permet de contrôler la pose d’une caméra 3D et permet de contrôler des attributs de style spécifiques et intègre des représentations de scène 3D dans un modèle génératif basé sur le style. Cette méthode permet à StyleNeRF de généraliser les perspectives invisibles d’une photo et prend également en charge des tâches plus difficiles comme le zoom avant et arrière et l’inversion.

“Pour éviter le rendu d’image couleur direct coûteux de l’approche NeRF originale, nous n’utilisons NeRF que pour produire une carte de caractéristiques à basse résolution et la suréchantillonner progressivement à haute résolution”, expliquent les chercheurs.

Un nouveau modèle peut créer des images 3D photo-réalistes en temps réel
Les chercheurs expliquent : « Mélange de styles (en haut) : les images ont été générées en copiant les styles spécifiés de la source B vers la source A. Toutes les images sont rendues à partir de la même pose de caméra. Interpolation de style (milieu) : nous interpolons linéairement deux ensembles de vecteurs de style (images les plus à gauche et les plus à droite) tout en faisant pivoter la caméra. Inversion et édition de style (ci-dessous) : l’image cible est sélectionnée dans l’ensemble de données DFDC (Dolhansky et al., 2019). Pour éditer avec les scores CLIP, nous saisissons « une personne aux cheveux verts » comme texte cible. »

Pour améliorer la cohérence 3D, nous proposons plusieurs conceptions, y compris un suréchantillonneur souhaitable qui atteint une cohérence élevée tout en atténuant les artefacts dans les sorties, un nouveau terme de régularisation qui force la sortie à correspondre au résultat de rendu du NeRF d’origine et résout les problèmes de condition de direction de vue. et l’injection de bruit.

Le modèle est formé à l’aide d’images non structurées du monde réel. La stratégie de formation progressive que l’équipe décrit dans son document de recherche complet améliore considérablement la stabilité du processus.

Comme DPReview Souligne, la meilleure visualisation de ce système est à travers la vidéo de démonstration en temps réel ci-dessous. Dans celui-ci, le modèle est utilisé pour mélanger deux images ensemble pour en créer une nouvelle qui peut être ajustée rapidement et prend en charge des angles qui ne sont visibles dans aucune des deux images d’entrée d’origine.

Ceux qui veulent plus de détails sur le modèle StyleNeRF peuvent lire le document de recherche complet.


Crédits image : Photos et vidéo de l’équipe de recherche StyleNeRF : Jiatao Gu, Lingjie Liu, Peng Wang et Christian Theobalt et l’Institut Max Planck pour l’informatique et l’Université de Hong Kong

Leave a Comment