ShanghaiTech University telah mengembangkan model AI terobosan yang disebut CLAY, yang dapat menghasilkan objek 3D detail berdasarkan deskripsi teks atau gambar dua dimensi. Dengan kecepatan pembangkitan yang efisien dan keluaran berkualitas tinggi, CLAY telah menunjukkan potensi besar di bidang pemodelan 3D dan diperkirakan akan merevolusi industri seperti pengembangan game, produksi film, dan pencetakan 3D. Inti dari model CLAY terletak pada autoencoder variasional multi-resolusi dan transformator difusi. Model ini dapat langsung memproses konten 3D tanpa mengonversi ke gambar 2D, dan mendukung pengguna untuk mengontrol hasil pembuatan secara tepat melalui bentuk khusus atau kotak pembatas, sehingga menunjukkan fleksibilitas yang kuat.
Para ilmuwan di ShanghaiTech University baru-baru ini mengembangkan model kecerdasan buatan yang disebut CLAY yang dapat menghasilkan detail objek 3D dari deskripsi teks atau gambar 2D. Dibandingkan dengan teknologi sebelumnya, CLAY telah mencapai terobosan signifikan dalam kualitas dan keragaman objek 3D yang dihasilkan.
Inti dari model CLAY mencakup autoencoder variasional multi-resolusi (VAE) dan transformator difusi (DiT). VAE bertanggung jawab untuk mengkodekan geometri 3D pada tingkat detail yang berbeda ke dalam ruang laten, sementara DiT bertanggung jawab untuk menghasilkan geometri ini. Tidak seperti banyak sistem lainnya, CLAY mampu memproses konten 3D secara langsung tanpa terlebih dahulu mengkonversi ke gambar 2D.
Data pelatihan CLAY melebihi 500.000 model 3D, yang mencakup berbagai objek mulai dari objek sehari-hari yang sederhana hingga makhluk fantasi yang kompleks. Selain itu, CLAY juga memiliki kemampuan untuk dikontrol melalui input tambahan. Pengguna dapat mencapai kontrol yang tepat atas hasil yang dihasilkan dengan menentukan bentuk kasar (seperti struktur voxel, point cloud) atau kotak pembatas. Fleksibilitas ini memungkinkan CLAY menghasilkan seluruh pemandangan kota dan bahkan merekonstruksi model 3D mendetail dari sketsa yang digambar tangan.
Jika dibandingkan dengan sistem lain (seperti Shap-E, DreamFusion, Wonder3D), CLAY menunjukkan keunggulan yang jelas. Baik teks diubah menjadi 3D atau gambar diubah menjadi 3D, CLAY dapat menghasilkan bentuk geometris yang lebih konsisten, permukaan yang lebih halus, dan detail yang lebih halus. CLAY juga sangat cepat dalam menghasilkan aset 3D berkualitas tinggi, hanya membutuhkan waktu sekitar 45 detik, sedangkan beberapa sistem perbandingan memerlukan waktu berjam-jam untuk mengoptimalkannya.
CLAY memiliki beragam aplikasi potensial, termasuk pengembangan game, produksi film, dan pencetakan 3D. Meski begitu, para peneliti menyadari potensi risiko konten virtual yang dihasilkan AI, sehingga mereka berencana menambahkan lebih banyak langkah keamanan untuk memastikan penggunaan yang bertanggung jawab.
Di masa depan, para peneliti juga berencana untuk memperluas data pelatihan, meningkatkan kualitas model, dan mengintegrasikan pembuatan geometri dan sintesis material ke dalam satu model untuk mencapai fungsionalitas yang lebih komprehensif. Versi CLAY dapat diakses melalui layanan 3D-Gen Rodin.
Pintu masuk produk: https://hyperhuman.deemos.com/rodin
Munculnya model CLAY menandai lompatan besar dalam teknologi pemodelan 3D. Kemampuan generasi yang efisien dan berkualitas tinggi serta prospek penerapan yang luas menjadikannya alat penting dalam bidang pembuatan konten 3D di masa depan. Di masa depan, dengan perkembangan dan peningkatan teknologi yang berkelanjutan, CLAY pasti akan menghadirkan lebih banyak inovasi dan kemungkinan bagi semua lapisan masyarakat.