Исследовательская группа Meta Reality Labs недавно объявила о запуске инновационной генеративной модели под названием «Pippo», которая может генерировать интенсивные видеоролики с разрешением до 1K с одной нормальной фотографии. Этот технологический прорыв не только показывает последние достижения в области компьютерного зрения, но и приносит новые возможности для технологии генерации изображений.
Основным инновациями модели Pippo является дизайн его многопрофильного диффузионного преобразователя. В отличие от традиционных генеративных моделей, Pippo не нужно полагаться на дополнительные входные данные, такие как подгонка моделей параметров или параметры камеры. Пользователям необходимо предоставить только одну фотографию, и система может автоматически генерировать видео-эффекты с несколькими просветными моментами, представляя более яркое и трехмерное изображение символов.
Для удобства разработчиков Pippo выпускается в качестве версии только для кода на этот раз, без предварительных тренировок. Исследовательская группа предоставила полные модели, файлы конфигурации, коды вывода и образцы кодов обучения для набора данных AVA-256. Разработчики могут быстро начать обучение модели и разработку приложений с помощью простого клонирования команд и настройки кодовых баз.
Планы на будущее для проекта Pippo включают в себя дальнейшую сопоставление и оптимизацию кода и запуск сценариев вывода для предварительно обученных моделей. Эти улучшения значительно улучшат пользовательский опыт и способствуют широко распространенной популярности этой технологии в практических приложениях.
Ссылка на проект: https://github.com/facebookresearch/pippo
Ключевые моменты:
Модель Pippo способна генерировать многовидные видео с высоким разрешением с одной нормальной фотографии без дополнительного ввода.
Код опубликован только и не включает в себя веса предварительного обучения.
Команда планирует запустить больше функций и улучшений в будущем, чтобы улучшить пользовательский опыт.