上海理工大学は、テキストの説明や 2 次元画像に基づいて詳細な 3D オブジェクトを生成できる、CLAY と呼ばれる画期的な AI モデルを開発しました。 CLAY は、効率的な生成速度と高品質の出力により、3D モデリングの分野で大きな可能性を示しており、ゲーム開発、映画制作、3D プリンティングなどの業界に革命を起こすことが期待されています。 CLAY モデルの中核は、マルチ解像度変分オートエンコーダーと拡散トランスフォーマーにあり、2D 画像に変換せずに 3D コンテンツを直接処理でき、ユーザーがカスタム形状やバウンディング ボックスを通じて生成結果を正確に制御できるようにサポートし、強力な柔軟性を示します。
上海理工大学の科学者たちは最近、テキストの説明や 2D 画像から詳細な 3D オブジェクトを生成できる CLAY と呼ばれる人工知能モデルを開発しました。以前のテクノロジーと比較して、CLAY は生成される 3D オブジェクトの品質と多様性において大幅な進歩を遂げました。
CLAY モデルのコアには、マルチ解像度変分オートエンコーダー (VAE) と拡散トランスフォーマー (DiT) が含まれています。 VAE は、さまざまな詳細レベルで 3D ジオメトリを潜在空間にエンコードする役割を果たし、DiT はこれらのジオメトリを生成する役割を担います。他の多くのシステムとは異なり、CLAY は、最初に 2D 画像に変換せずに、3D コンテンツを直接処理できます。
CLAY の学習データは 500,000 を超える 3D モデルで、単純な日常の物体から複雑なファンタジーの生き物まで幅広いオブジェクトをカバーしています。さらに、CLAY には追加入力を通じて制御する機能もあり、ユーザーは大まかな形状 (ボクセル構造、点群など) または境界ボックスを指定することで、生成された結果を正確に制御できます。この柔軟性により、CLAY は都市全体のシーンを生成し、手描きのスケッチから詳細な 3D モデルを再構築することもできます。
他のシステム (Shap-E、DreamFusion、Wonder3D など) と比較すると、CLAY には明らかな利点があります。テキストが 3D に変換される場合でも、画像が 3D に変換される場合でも、CLAY はより一貫性のある幾何学的形状、より滑らかな表面、より細かいディテールを生成できます。また、一部の比較システムでは最適化に数時間かかる場合があるのに対し、CLAY は高品質の 3D アセットの生成にかかる時間はわずか約 45 秒と驚くほど高速です。
CLAY には、ゲーム開発、映画制作、3D プリントなど、幅広い用途の可能性があります。それでも、研究者らは AI が生成した仮想コンテンツの潜在的なリスクを認識しているため、責任ある使用を保証するためにセキュリティ対策をさらに追加する予定です。
研究者らは将来的には、トレーニング データをさらに拡張し、モデルの品質を向上させ、ジオメトリ生成と材料合成を単一のモデルに統合して、より包括的な機能を実現することも計画しています。 CLAY のバージョンには、3D-Gen サービス Rodin を通じてアクセスできます。
製品入口: https://hyperhuman.deemos.com/rodin
CLAY モデルの登場は、3D モデリング テクノロジの大きな進歩を示し、その効率的で高品質な生成機能と幅広い用途の可能性により、CLAY モデルは将来の 3D コンテンツ作成の分野で重要なツールになります。 今後もテクノロジーの継続的な開発と改善により、CLAYはあらゆる分野にさらなる革新と可能性をもたらすでしょう。