La Universidad ShanghaiTech ha desarrollado un innovador modelo de inteligencia artificial llamado CLAY, que puede generar objetos 3D detallados basados en descripciones de texto o imágenes bidimensionales. Con su velocidad de generación eficiente y resultados de alta calidad, CLAY ha demostrado un gran potencial en el campo del modelado 3D y se espera que revolucione industrias como el desarrollo de juegos, la producción de películas y la impresión 3D. El núcleo del modelo CLAY radica en el codificador automático variacional de resolución múltiple y el transformador de difusión. Puede procesar directamente contenido 3D sin convertirlo a imágenes 2D y permite a los usuarios controlar con precisión los resultados generados a través de formas personalizadas o cuadros delimitadores, lo que muestra una poderosa flexibilidad.
Los científicos de la Universidad ShanghaiTech desarrollaron recientemente un modelo de inteligencia artificial llamado CLAY que puede generar objetos 3D detallados a partir de descripciones de texto o imágenes 2D. En comparación con tecnologías anteriores, CLAY ha logrado avances significativos en la calidad y diversidad de los objetos 3D generados.
El núcleo del modelo CLAY incluye un codificador automático variacional (VAE) de resolución múltiple y un transformador de difusión (DiT). VAE es responsable de codificar geometrías 3D con diferentes niveles de detalle en el espacio latente, mientras que DiT es responsable de generar estas geometrías. A diferencia de muchos otros sistemas, CLAY puede procesar contenido 3D directamente sin convertirlo primero a imágenes 2D.
Los datos de entrenamiento de CLAY superan los 500.000 modelos 3D, cubriendo una amplia gama de objetos, desde simples objetos cotidianos hasta complejas criaturas de fantasía. Además, CLAY también tiene la capacidad de controlarse mediante entradas adicionales. Los usuarios pueden lograr un control preciso sobre los resultados generados especificando formas aproximadas (como estructuras de vóxeles, nubes de puntos) o cuadros delimitadores. Esta flexibilidad permite a CLAY generar escenas de ciudades enteras e incluso reconstruir modelos 3D detallados a partir de bocetos dibujados a mano.
En comparación con otros sistemas (como Shap-E, DreamFusion, Wonder3D), CLAY muestra claras ventajas. Ya sea que el texto se convierta a 3D o la imagen se convierta a 3D, CLAY puede generar formas geométricas más consistentes, superficies más suaves y detalles más finos. CLAY también es increíblemente rápido a la hora de generar activos 3D de alta calidad, ya que solo tarda unos 45 segundos, mientras que algunos sistemas de comparación pueden tardar horas en optimizarse.
CLAY tiene una amplia gama de aplicaciones potenciales, incluido el desarrollo de juegos, la producción de películas y la impresión 3D. Aún así, los investigadores son conscientes de los riesgos potenciales del contenido virtual generado por IA, por lo que planean agregar más medidas de seguridad para garantizar un uso responsable.
En el futuro, los investigadores también planean ampliar aún más los datos de entrenamiento, mejorar la calidad del modelo e integrar la generación de geometría y la síntesis de materiales en un solo modelo para lograr una funcionalidad más completa. Se puede acceder a una versión de CLAY a través del servicio 3D-Gen Rodin.
Entrada del producto: https://hyperhuman.deemos.com/rodin
La aparición del modelo CLAY marca un gran salto en la tecnología de modelado 3D. Sus capacidades de generación eficientes y de alta calidad y sus amplias perspectivas de aplicación lo convierten en una herramienta importante en el campo de la creación de contenidos 3D del futuro. En el futuro, con el continuo desarrollo y mejora de la tecnología, CLAY seguramente traerá más innovaciones y posibilidades a todos los ámbitos de la vida.