Пекинский институт искусственного интеллекта Чжиюань (BAAI) выпустил революционную модель генерации 3D-изображений See3D, в которой используются огромные объемы неразмеченных видеороликов из Интернета для обучения и создания 3D-моделей на основе видео, что означает «Посмотрите видео, получите значительный прогресс в концепции 3D. Модель See3D не нуждается в использовании традиционных параметров камеры и трехмерных аннотаций. Благодаря технологии визуального контроля она может генерировать многоракурсные изображения с контролируемым направлением камеры и единообразной геометрией, используя только визуальные подсказки в видео, что значительно снижает стоимость и сложность видео. получение 3D-данных, открывающее новые возможности технологии генерации 3D.
Модель See3D поддерживает создание 3D-моделей из текста, одного вида и разреженного представления, а также имеет функции 3D-редактирования и рендеринга по Гауссу. Модель, код и демо-версия были открыты для облегчения углубленного изучения и применения исследователями. See3D имеет широкий спектр сценариев применения, включая разблокировку интерактивных 3D-миров, 3D-реконструкцию на основе разреженных изображений, генерацию 3D-изображений в открытом мире и генерацию 3D-изображений на основе одного изображения. Его основные преимущества заключаются в масштабируемости данных, управляемости камерой и геометрической согласованности. Создав набор данных WebVi3D, содержащий 16 миллионов видеоклипов и 320 миллионов кадров изображений, он добился значительных улучшений в технологии генерации 3D.
Исследовательская группа создала крупномасштабный набор данных WebVi3D, автоматически фильтруя видеоданные и добавляя зависящий от времени шум к замаскированным видеоданным, сгенерировав чистые 2D-визуальные сигналы для поддержки масштабируемого обучения многоракурсной диффузионной модели, в конечном итоге достигнув 3D-изображения без использования камеры. создание условий. Появление See3D принесло новые идеи в область создания 3D-изображений и, как ожидается, будет способствовать применению крупномасштабных данных аннотаций без использования камер в 3D-исследованиях, снизит стоимость сбора 3D-данных и сократит разрыв с существующими закрытыми данными. -исходные 3D решения.
Преимущества See3D заключаются в масштабируемости данных, управляемости камерой и геометрической согласованности. Он может генерировать сцены при любых сложных траекториях камеры и поддерживать геометрическую согласованность изображений предыдущего и следующего кадра. Это делает See3D широко применимым в различных приложениях для создания 3D-изображений.
Расширяя размер набора данных, See3D предлагает новые идеи для разработки технологии генерации 3D. Есть надежда, что эта работа поможет привлечь внимание сообщества 3D-исследователей к крупномасштабным данным аннотаций без использования камер, а также снизить стоимость получения 3D-данных. и сократить существующий разрыв между 3D-решениями с закрытым исходным кодом.
Адрес проекта: https://vision.baai.ac.cn/see3d
В целом, выпуск модели See3D с открытым исходным кодом принес новые технологические прорывы и направления развития в области создания 3D-изображений. Ее эффективные и удобные функции принесут инновации в большее количество сценариев применения. Стоит ожидать ее дальнейшего развития. будущее и приложения.