L'Université ShanghaiTech a développé un modèle d'IA révolutionnaire appelé CLAY, capable de générer des objets 3D détaillés basés sur des descriptions textuelles ou des images bidimensionnelles. Grâce à sa vitesse de génération efficace et à ses résultats de haute qualité, CLAY a montré un grand potentiel dans le domaine de la modélisation 3D et devrait révolutionner des secteurs tels que le développement de jeux, la production de films et l'impression 3D. Le cœur du modèle CLAY réside dans l'auto-encodeur variationnel multi-résolution et le transformateur de diffusion. Il peut traiter directement le contenu 3D sans conversion en images 2D, et aide les utilisateurs à contrôler avec précision les résultats générés via des formes personnalisées ou des cadres de délimitation, faisant preuve d'une grande flexibilité.
Des scientifiques de l'Université Tech de Shanghai ont récemment développé un modèle d'intelligence artificielle appelé CLAY, capable de générer des objets 3D détaillés à partir de descriptions textuelles ou d'images 2D. Par rapport aux technologies précédentes, CLAY a réalisé des avancées significatives dans la qualité et la diversité des objets 3D générés.
Le cœur du modèle CLAY comprend un auto-encodeur variationnel (VAE) multi-résolution et un transformateur de diffusion (DiT). VAE est responsable de l'encodage des géométries 3D à différents niveaux de détail dans l'espace latent, tandis que DiT est responsable de la génération de ces géométries. Contrairement à de nombreux autres systèmes, CLAY est capable de traiter directement le contenu 3D sans conversion préalable en images 2D.
Les données d'entraînement de CLAY dépassent les 500 000 modèles 3D, couvrant un large éventail d'objets, depuis les simples objets du quotidien jusqu'aux créatures fantastiques complexes. De plus, CLAY a également la capacité d'être contrôlé via des entrées supplémentaires. Les utilisateurs peuvent obtenir un contrôle précis sur les résultats générés en spécifiant des formes approximatives (telles que des structures de voxels, des nuages de points) ou des cadres de délimitation. Cette flexibilité permet à CLAY de générer des scènes de ville entières et même de reconstruire des modèles 3D détaillés à partir de croquis dessinés à la main.
Comparé à d'autres systèmes (tels que Shap-E, DreamFusion, Wonder3D), CLAY présente des avantages évidents. Que le texte soit converti en 3D ou l'image en 3D, CLAY peut générer des formes géométriques plus cohérentes, des surfaces plus lisses et des détails plus fins. CLAY est également incroyablement rapide pour générer des ressources 3D de haute qualité, ne prenant que 45 secondes environ, alors que l'optimisation de certains systèmes de comparaison peut prendre des heures.
CLAY a un large éventail d’applications potentielles, notamment le développement de jeux, la production de films et l’impression 3D. Néanmoins, les chercheurs sont conscients des risques potentiels du contenu virtuel généré par l’IA et prévoient donc d’ajouter davantage de mesures de sécurité pour garantir une utilisation responsable.
À l'avenir, les chercheurs prévoient également d'étendre davantage les données de formation, d'améliorer la qualité du modèle et d'intégrer la génération de géométrie et la synthèse de matériaux dans un modèle unique pour obtenir des fonctionnalités plus complètes. Une version de CLAY est accessible via le service 3D-Gen Rodin.
Entrée du produit : https://hyperhuman.deemos.com/rodin
L'émergence du modèle CLAY marque une avancée majeure dans la technologie de modélisation 3D. Ses capacités de génération efficaces et de haute qualité et ses vastes perspectives d'application en font un outil important dans le domaine de la future création de contenu 3D. À l'avenir, avec le développement et l'amélioration continus de la technologie, CLAY apportera sûrement plus d'innovations et de possibilités à tous les horizons.