A ShanghaiTech University desenvolveu um modelo inovador de IA chamado CLAY, que pode gerar objetos 3D detalhados com base em descrições de texto ou imagens bidimensionais. Com sua velocidade de geração eficiente e resultados de alta qualidade, CLAY demonstrou grande potencial no campo da modelagem 3D e deverá revolucionar setores como desenvolvimento de jogos, produção de filmes e impressão 3D. O núcleo do modelo CLAY está no autoencoder variacional multi-resolução e no transformador de difusão. Ele pode processar diretamente conteúdo 3D sem converter para imagens 2D e oferece suporte aos usuários para controlar com precisão os resultados gerados por meio de formas personalizadas ou caixas delimitadoras, mostrando flexibilidade poderosa.
Cientistas da ShanghaiTech University desenvolveram recentemente um modelo de inteligência artificial chamado CLAY, que pode gerar objetos 3D detalhados a partir de descrições de texto ou imagens 2D. Em comparação com tecnologias anteriores, o CLAY alcançou avanços significativos na qualidade e diversidade dos objetos 3D gerados.
O núcleo do modelo CLAY inclui um autoencoder variacional de multi-resolução (VAE) e um transformador de difusão (DiT). VAE é responsável por codificar geometrias 3D em diferentes níveis de detalhe no espaço latente, enquanto DiT é responsável por gerar essas geometrias. Ao contrário de muitos outros sistemas, o CLAY é capaz de processar conteúdo 3D diretamente, sem primeiro converter para imagens 2D.
Os dados de treinamento do CLAY ultrapassam 500.000 modelos 3D, cobrindo uma ampla gama de objetos, desde objetos simples do cotidiano até criaturas complexas de fantasia. Além disso, o CLAY também pode ser controlado por meio de entradas adicionais. Os usuários podem obter controle preciso sobre os resultados gerados especificando formas aproximadas (como estruturas de voxel, nuvens de pontos) ou caixas delimitadoras. Essa flexibilidade permite que o CLAY gere cenas inteiras de cidades e até mesmo reconstrua modelos 3D detalhados a partir de esboços desenhados à mão.
Quando comparado com outros sistemas (como Shap-E, DreamFusion, Wonder3D), o CLAY apresenta vantagens claras. Quer o texto seja convertido para 3D ou a imagem seja convertida para 3D, o CLAY pode gerar formas geométricas mais consistentes, superfícies mais suaves e detalhes mais sutis. O CLAY também é incrivelmente rápido na geração de ativos 3D de alta qualidade, levando apenas cerca de 45 segundos, enquanto alguns sistemas de comparação podem levar horas para serem otimizados.
CLAY tem uma ampla gama de aplicações potenciais, incluindo desenvolvimento de jogos, produção de filmes e impressão 3D. Ainda assim, os investigadores estão cientes dos riscos potenciais do conteúdo virtual gerado por IA, pelo que planeiam adicionar mais medidas de segurança para garantir uma utilização responsável.
No futuro, os pesquisadores também planejam expandir ainda mais os dados de treinamento, melhorar a qualidade do modelo e integrar a geração de geometria e síntese de materiais em um único modelo para obter funcionalidades mais abrangentes. Uma versão do CLAY pode ser acessada através do serviço 3D-Gen Rodin.
Entrada do produto: https://hyperhuman.deemos.com/rodin
O surgimento do modelo CLAY marca um grande salto na tecnologia de modelagem 3D. Seus recursos de geração eficientes e de alta qualidade e amplas perspectivas de aplicação o tornam uma ferramenta importante no campo da futura criação de conteúdo 3D. No futuro, com o contínuo desenvolvimento e aprimoramento da tecnologia, a CLAY certamente trará mais inovações e possibilidades para todas as esferas da vida.