Команда Colossal-AI открыла исходный код решения для воспроизведения алгоритма Sora Open-Sora, стремясь снизить затраты на воспроизведение и повысить производительность. Это решение охватывает весь процесс от обработки данных до вывода обучающих данных, поддерживает несколько структур моделей, методы сжатия видео и оптимизацию параллельного обучения, что значительно повышает эффективность обучения. Open-Sora использовала модель DiT-XL/2 для проведения теста производительности с длиной последовательности 600 КБ на одном графическом процессоре H800 SXM 8*80 ГБ. Результаты показали, что улучшение производительности и снижение затрат превысили 40%. Целью этого проекта является предоставление полного и эффективного решения для воспроизведения Sora, обеспечивающего удобство для исследователей и разработчиков.
Компания Colossal-AI открыла исходный код полного решения Open-Sora для рекуррентной архитектуры Sora, утверждая, что она снижает стоимость рекурсии на 46% и увеличивает длину входной последовательности обучения модели до 819 000 патчей. Решение для воспроизведения алгоритма Sora В техническом отчете Sora Sora использует сеть сжатия видео для сжатия видео различных размеров в последовательность пространственно-временных блоков в скрытом пространстве, затем использует диффузионный преобразователь для шумоподавления и, наконец, декодирует для создания видео. Open-Sora обобщает конвейер обучения, который Sora может использовать для предоставления полного решения рекуррентной архитектуры Sora, включая весь процесс от обработки данных до вывода обучающих данных. В настоящее время Open-Sora предоставила полное решение рекуррентной архитектуры Sora, включая весь процесс от обработки данных до обучения, поддержку динамического разрешения, несколько структур моделей, несколько методов сжатия видео и несколько параллельных оптимизаций обучения. Что касается производительности, то, взяв в качестве примера тест производительности модели DiT-XL/2 на одном графическом процессоре H800 SXM 8*80 ГБ, при длине последовательности 600 КБ, решение Open-Sora имеет улучшение производительности более чем на 40% и снижение стоимости по сравнению с базовым решением. Адрес открытого исходного кода Open-Sora: https://github.com/hpcaitech/Open-Sora.Открытый исходный код Open-Sora предоставляет ценные ресурсы исследователям и разработчикам, ускоряя развитие технологий генерации видео. Ожидается, что его высокая эффективность и низкая стоимость побудят больше людей участвовать в исследованиях в этой области. Мы с нетерпением ожидаем дальнейшего совершенствования и развития Open-Sora в будущем, чтобы внести больший вклад в область создания видео с помощью искусственного интеллекта.