Проект Open-Sora с открытым исходным кодом команды Luchen добился революционного прогресса в области создания видео высокой четкости 720p. Его эффективная скорость генерации и высокое качество вывода просто поразительны. Проект быстро набрал более 17,5 тысяч звезд на GitHub и привлек широкое внимание отрасли: даже Lambda Labs построила цифровую вселенную LEGO на основе веса модели. Open-Sora не только проста в использовании и так же удобна, как заказ на вынос, но, что более важно, она открывает вес моделей и подробные технические маршруты, позволяя большему количеству разработчиков и энтузиастов участвовать и способствовать развитию видеотехнологий Wensheng.
Недавно команда Luchen Open-Sora добилась прорывного прогресса в качестве и времени создания видео высокой четкости 720p Wensheng. Они не только сделали большие новости о качестве и времени создания видео высокой четкости 720p, но и сделали это. этот ребенок с открытым исходным кодом, так что все сообщество в восторге!
Не будет преувеличением сказать, что их проект с открытым исходным кодом делает создание видео таким же простым, как заказ еды на вынос. С момента своего дебюта в марте он получил 17,5 тысяч звезд на GitHub и пользуется огромной популярностью!
Адрес открытого исходного кода: https://github.com/hpcaitech/Open-Sora.
Open-Sora может генерировать 16-секундные видеоролики высокой четкости 720p одним щелчком мыши, будь то изысканные портреты, крутые научно-фантастические блокбастеры, яркая и интересная анимация и плавные эффекты масштабирования — она легко справится с этим. Нет, даже Lambda Labs, компания в области искусственного интеллекта, в которой имеет долю Nvidia, создала цифровую вселенную Lego, основанную на весе модели Open-Sora, что позволяет фанатам Lego открыть для себя новый мир творчества.
Команда Luchen не только открыла исходный код модели, но и опубликовала технический маршрут на GitHub, что позволило каждому игроку стать мастером большой видеомодели. В этом техническом отчете глубоко анализируются основные и ключевые моменты обучения модели, от сети сжатия видео до алгоритма модели диффузии и управляемости. Они используют модель генерации диффузии 1.1B для решения проблем обучения видеомодели.
Адрес отчета: https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md
Внедрение сети сжатия видео происходит по тому же методу, что и Sora от OpenAI. Он может выполнять 4-кратное сжатие во временном измерении без извлечения кадров и генерировать видео с исходным FPS. Команда также предложила простую сеть сжатия видео (т.е. VAE), которая может сначала обеспечить сжатие в 8x8 раз в пространственном измерении, а затем в 4 раза во временном измерении.
Новейшая диффузионная модель Stable Diffusion3 улучшает качество генерации за счет технологии выпрямленного потока. Технологии, предоставленные командой Люхена, включают в себя обучение исправлению, выборку с логит-нормой по времени и т. д., которые ускоряют обучение модели и сокращают время ожидания вывода.
В отчете также раскрыты основные детали обучения моделей, включая очистку данных, методы настройки модели и построение системы оценки модели. Они даже обеспечивают развертывание приложения Gradio одним щелчком мыши, которое поддерживает различные настройки параметров.
Открытый исходный код Luchen Open-Sora разрывает замкнутый цикл и придаёт живость инновациям и развитию Vincent Video. Пользователи превратились из потребителей контента в создателей, а корпоративные пользователи открыли новые навыки для независимого развития.
Открытый исходный код Open-Sora снижает порог входа в видеотехнологию Wensheng и предоставляет неограниченные возможности для создания будущего творческого контента. Стоит с нетерпением ждать дальнейшего развития и изучения новых сценариев применения.