Произведено Meta! Pippo: введите изображение одного персонажа и создайте многовидные картинки с высоким разрешением-статьи AI

Автор：Eve Cole Время обновления：2025-02-17 18:32:01

Исследовательская группа Meta Reality Labs недавно объявила о запуске инновационной генеративной модели под названием «Pippo», которая может генерировать интенсивные видеоролики с разрешением до 1K с одной нормальной фотографии. Этот технологический прорыв не только показывает последние достижения в области компьютерного зрения, но и приносит новые возможности для технологии генерации изображений.

Основным инновациями модели Pippo является дизайн его многопрофильного диффузионного преобразователя. В отличие от традиционных генеративных моделей, Pippo не нужно полагаться на дополнительные входные данные, такие как подгонка моделей параметров или параметры камеры. Пользователям необходимо предоставить только одну фотографию, и система может автоматически генерировать видео-эффекты с несколькими просветными моментами, представляя более яркое и трехмерное изображение символов.

Для удобства разработчиков Pippo выпускается в качестве версии только для кода на этот раз, без предварительных тренировок. Исследовательская группа предоставила полные модели, файлы конфигурации, коды вывода и образцы кодов обучения для набора данных AVA-256. Разработчики могут быстро начать обучение модели и разработку приложений с помощью простого клонирования команд и настройки кодовых баз.

Планы на будущее для проекта Pippo включают в себя дальнейшую сопоставление и оптимизацию кода и запуск сценариев вывода для предварительно обученных моделей. Эти улучшения значительно улучшат пользовательский опыт и способствуют широко распространенной популярности этой технологии в практических приложениях.

Ссылка на проект: https://github.com/facebookresearch/pippo

Ключевые моменты:

Модель Pippo способна генерировать многовидные видео с высоким разрешением с одной нормальной фотографии без дополнительного ввода.

Код опубликован только и не включает в себя веса предварительного обучения.

Команда планирует запустить больше функций и улучшений в будущем, чтобы улучшить пользовательский опыт.