ShanghaiTech University는 텍스트 설명이나 2차원 이미지를 기반으로 상세한 3D 객체를 생성할 수 있는 CLAY라는 획기적인 AI 모델을 개발했습니다. 효율적인 생성 속도와 고품질 출력으로 CLAY는 3D 모델링 분야에서 큰 잠재력을 보여주었으며 게임 개발, 영화 제작, 3D 프린팅 등 산업에 혁명을 일으킬 것으로 예상됩니다. CLAY 모델의 핵심은 다중 해상도 변형 오토인코더와 확산 변환기에 있으며, 2D 이미지로 변환하지 않고 3D 콘텐츠를 직접 처리할 수 있으며 사용자가 생성된 결과를 사용자 정의 모양이나 경계 상자를 통해 정밀하게 제어할 수 있도록 지원하여 강력한 유연성을 보여줍니다.
ShanghaiTech University의 과학자들은 최근 텍스트 설명이나 2D 이미지에서 상세한 3D 개체를 생성할 수 있는 CLAY라는 인공 지능 모델을 개발했습니다. 이전 기술과 비교하여 CLAY는 생성된 3D 개체의 품질과 다양성에서 획기적인 발전을 이루었습니다.
CLAY 모델의 핵심에는 다중 해상도 VAE(변형 자동 인코더)와 DiT(확산 변환기)가 포함됩니다. VAE는 다양한 세부 수준의 3D 형상을 잠재 공간으로 인코딩하는 작업을 담당하고 DiT는 이러한 형상을 생성하는 작업을 담당합니다. 다른 많은 시스템과 달리 CLAY는 먼저 2D 이미지로 변환하지 않고도 3D 콘텐츠를 직접 처리할 수 있습니다.
CLAY의 훈련 데이터는 500,000개가 넘는 3D 모델을 포함하며 단순한 일상 사물부터 복잡한 판타지 생물까지 광범위한 사물을 다루고 있습니다. 또한 CLAY에는 추가 입력을 통해 제어할 수 있는 기능도 있습니다. 사용자는 대략적인 모양(예: 복셀 구조, 포인트 클라우드) 또는 경계 상자를 지정하여 생성된 결과를 정밀하게 제어할 수 있습니다. 이러한 유연성을 통해 CLAY는 전체 도시 장면을 생성하고 손으로 그린 스케치에서 상세한 3D 모델을 재구성할 수도 있습니다.
다른 시스템(예: Shap-E, DreamFusion, Wonder3D)과 비교할 때 CLAY는 분명한 장점을 보여줍니다. 텍스트가 3D로 변환되거나 이미지가 3D로 변환되더라도 CLAY는 보다 일관된 기하학적 모양, 보다 부드러운 표면 및 보다 미세한 세부 사항을 생성할 수 있습니다. CLAY는 또한 약 45초 만에 고품질 3D 자산을 생성하는 데 놀라울 정도로 빠릅니다. 반면 일부 비교 시스템은 최적화하는 데 몇 시간이 걸릴 수 있습니다.
CLAY는 게임 개발, 영화 제작, 3D 프린팅 등 광범위한 잠재적 응용 분야를 보유하고 있습니다. 그럼에도 불구하고 연구원들은 AI로 생성된 가상 콘텐츠의 잠재적 위험을 알고 있으므로 책임감 있는 사용을 보장하기 위해 더 많은 보안 조치를 추가할 계획입니다.
앞으로 연구원들은 훈련 데이터를 더욱 확장하고, 모델 품질을 개선하고, 형상 생성과 재료 합성을 단일 모델로 통합하여 보다 포괄적인 기능을 달성할 계획입니다. CLAY 버전은 3D-Gen 서비스 Rodin을 통해 액세스할 수 있습니다.
제품 입구: https://hyperhuman.deemos.com/rodin
CLAY 모델의 출현은 3D 모델링 기술의 큰 도약을 의미하며, 효율적인 고품질 생성 기능과 폭넓은 적용 가능성으로 인해 CLAY는 미래 3D 콘텐츠 제작 분야에서 중요한 도구가 되었습니다. 앞으로도 CLAY는 지속적인 기술 개발과 개선을 통해 사회 각계각층에 더 많은 혁신과 가능성을 가져올 것입니다.