Шанхайский технологический университет запускает новую модель искусственного интеллекта CLAY: создание детализированных 3D-объектов из текста и изображений

Автор：Eve Cole Время обновления：2024-12-18 09:15:19

Шанхайский технологический университет разработал революционную модель искусственного интеллекта под названием CLAY, которая может генерировать подробные трехмерные объекты на основе текстовых описаний или двухмерных изображений. Благодаря эффективной скорости генерации и высококачественной продукции CLAY продемонстрировал большой потенциал в области 3D-моделирования и, как ожидается, произведет революцию в таких отраслях, как разработка игр, производство фильмов и 3D-печать. В основе модели CLAY лежит вариационный автокодировщик с несколькими разрешениями и диффузионный преобразователь. Он может напрямую обрабатывать 3D-контент без преобразования в 2D-изображения и позволяет пользователям точно контролировать результаты генерации с помощью пользовательских фигур или ограничивающих рамок, демонстрируя высокую гибкость.

Ученые из Шанхайского технологического университета недавно разработали модель искусственного интеллекта под названием CLAY, которая может генерировать подробные 3D-объекты из текстовых описаний или 2D-изображений. По сравнению с предыдущими технологиями CLAY добился значительного прорыва в качестве и разнообразии создаваемых 3D-объектов.

Ядро модели CLAY включает в себя вариационный автоэнкодер с несколькими разрешениями (VAE) и диффузионный преобразователь (DiT). VAE отвечает за кодирование трехмерной геометрии с разными уровнями детализации в скрытое пространство, а DiT отвечает за создание этой геометрии. В отличие от многих других систем, CLAY может обрабатывать 3D-контент напрямую, без предварительного преобразования в 2D-изображения.

Данные обучения CLAY превышают 500 000 3D-моделей, охватывая широкий спектр объектов: от простых повседневных объектов до сложных фантастических существ. Кроме того, CLAY также имеет возможность управления с помощью дополнительных входных данных. Пользователи могут добиться точного контроля над генерируемыми результатами, указывая грубые формы (например, воксельные структуры, облака точек) или ограничивающие рамки. Такая гибкость позволяет CLAY создавать целые городские сцены и даже реконструировать подробные 3D-модели по нарисованным от руки эскизам.

По сравнению с другими системами (такими как Shap-E, DreamFusion, Wonder3D) CLAY демонстрирует явные преимущества. Независимо от того, конвертируется ли текст в 3D или изображение в 3D, CLAY может создавать более последовательные геометрические формы, более гладкие поверхности и более мелкие детали. CLAY также невероятно быстро генерирует высококачественные 3D-ресурсы, на это уходит всего около 45 секунд, тогда как на оптимизацию некоторых систем сравнения могут потребоваться часы.

CLAY имеет широкий спектр потенциальных применений, включая разработку игр, производство фильмов и 3D-печать. Тем не менее, исследователи осознают потенциальные риски виртуального контента, создаваемого ИИ, поэтому планируют добавить дополнительные меры безопасности для обеспечения ответственного использования.

В будущем исследователи также планируют еще больше расширить обучающие данные, улучшить качество модели и интегрировать генерацию геометрии и синтез материалов в единую модель для достижения более полной функциональности. Доступ к версии CLAY можно получить через сервис 3D-Gen Rodin.

Вход в продукт: https://hyperhuman.deemos.com/rodin

Появление модели CLAY знаменует собой большой скачок в технологии 3D-моделирования. Ее эффективные, высококачественные возможности генерации и широкие перспективы применения делают ее важным инструментом в области создания будущего 3D-контента. В будущем, благодаря постоянному развитию и совершенствованию технологий, CLAY, несомненно, принесет больше инноваций и возможностей во все сферы жизни.