上海科技大学研发出突破性AI模型CLAY,它能够根据文字描述或二维图像生成细节丰富的3D物体。 CLAY凭借其高效的生成速度和高质量的输出,在3D建模领域展现出巨大潜力,有望革新游戏开发、电影制作和3D打印等行业。 CLAY模型的核心在于多分辨率变分自编码器和扩散变换器,它能够直接处理3D内容,无需转换为2D图像,并支持用户通过自定义形状或边界框来精确控制生成结果,展现出强大的灵活性。
上海科技大学的科学家们最近开发了一款名为CLAY的人工智能模型,这款模型可以从文字描述或二维图像中生成详细的3D物体。与以往的技术相比,CLAY在生成3D物体的质量和多样性方面都取得了显着突破。
CLAY模型的核心包括一个多分辨率变分自编码器(VAE)和一个扩散变换器(DiT)。 VAE负责将不同细节层次的3D几何形状编码到潜在空间中,而DiT则负责生成这些几何形状。与许多其他系统不同的是,CLAY能够直接处理3D内容,无需先转换为2D图像。
CLAY的训练数据超过了50万种3D模型,涵盖了从简单的日常物品到复杂的幻想生物的各种对象。此外,CLAY还具备通过额外输入进行控制的能力,用户可以通过指定粗略形状(如体素结构、点云)或边界框来实现对生成结果的精确控制。这种灵活性使得CLAY可以生成整个城市场景,甚至从手绘草图中重建详细的3D模型。
在与其他系统(如Shap-E、DreamFusion、Wonder3D)进行比较时,CLAY表现出了明显的优势。无论是文字转3D还是图像转3D,CLAY都能够生成更一致的几何形状,表面更加光滑,细节更加精细。 CLAY生成高质量3D资产的速度也十分惊人,仅需约45秒,而一些比较系统可能需要几小时来优化。
CLAY的潜在应用非常广泛,包括游戏开发、电影制作和3D打印等领域。尽管如此,研究人员也意识到AI生成虚拟内容的潜在风险,因此他们计划增加更多的安全措施,以确保负责任的使用。
未来,研究人员还计划进一步扩展训练数据,提高模型质量,并将几何生成和材料合成整合到一个单一模型中,以实现更全面的功能。可以通过3D-Gen 服务Rodin 访问CLAY 的一个版本。
产品入口:https://hyperhuman.deemos.com/rodin
CLAY模型的出现标志着3D建模技术的一次重大飞跃,其高效、高质量的生成能力以及广泛的应用前景,使其成为未来3D内容创作领域的重要工具。 未来,随着技术的不断发展和完善,CLAY必将为各行各业带来更多创新和可能性。