Исследовательская группа из Нанкинского университета в сотрудничестве с ByteDance и Юго-Западным университетом запустила инновационную технологию сверхвысокого разрешения видео под названием STAR. Эта технология умело сочетает в себе методы пространственно-временного улучшения и модели преобразования текста в видео, что может значительно улучшить четкость видео с низким разрешением, особенно тех, которые загружаются с видеоплатформ. Предварительно обученная версия модели STAR была выложена в открытый доступ на GitHub для удобства исследователей и разработчиков. Это знаменует собой важный прорыв в области обработки видео. Проект предоставляет две модели, I2VGen-XL и CogVideoX-5B, и поддерживает несколько форматов ввода и варианты подсказок для удовлетворения различных потребностей.
Чтобы облегчить исследователям и разработчикам, исследовательская группа опубликовала на GitHub предварительно обученную версию модели STAR, включая две модели, I2VGen-XL и CogVideoX-5B, а также соответствующий код вывода. Внедрение этих инструментов знаменует собой важный прогресс в области обработки видео.
Процесс использования этой модели относительно прост. Сначала пользователям необходимо загрузить предварительно обученную модель STAR с HuggingFace и поместить ее в указанный каталог. Затем подготовьте видеофайл для тестирования и выберите соответствующие параметры текстовых подсказок, включая отсутствие подсказок, автоматически создаваемые подсказки или подсказки, вводимые вручную. Пользователям нужно всего лишь настроить параметры пути в скрипте, чтобы легко обрабатывать видео сверхвысокого разрешения.
В рамках этого проекта специально были разработаны две модели на базе I2VGen-XL, которые используются для обработки видео разной степени деградации, чтобы гарантировать, что они могут удовлетворить различные потребности. Кроме того, модель CogVideoX-5B специально поддерживает входной формат 720x480, предоставляя гибкие возможности для конкретных сценариев.
Это исследование не только дает новые идеи для развития технологии видео сверхвысокого разрешения, но и открывает новые направления исследований для исследователей в смежных областях. Исследовательская группа выражает благодарность передовым технологиям, таким как I2VGen-XL, VEnhancer, CogVideoX и OpenVid-1M, которые, по их мнению, легли в основу их проекта.
Вход в проект: https://github.com/NJU-PCALab/STAR
Основные моменты:
Новая технология STAR объединяет модели преобразования текста в видео для достижения сверхразрешения видео и улучшения качества видео.
Исследовательская группа выпустила предварительно обученные модели и коды вывода, а процесс использования прост и понятен.
Предоставьте контактную информацию, чтобы побудить пользователей общаться и дискутировать с исследовательской группой.
Проект STAR доступен на GitHub с открытым исходным кодом, что упрощает его использование разработчиками и исследователями. Его простой и удобный в использовании процесс работы и мощные функции открывают новые возможности в области сверхразрешения видео и открывают новые направления для будущих исследований. . Мы надеемся, что технология STAR будет играть более важную роль в практическом применении.