A equipe Colossal-AI abriu o código-fonte da solução de reprodução do algoritmo Sora Open-Sora, com o objetivo de reduzir custos de reprodução e melhorar o desempenho. Esta solução cobre todo o processo, desde o processamento de dados até a inferência de treinamento, suporta múltiplas estruturas de modelos, métodos de compressão de vídeo e otimização de treinamento paralelo, melhorando significativamente a eficiência do treinamento. Open-Sora usou o modelo DiT-XL/2 para conduzir um teste de desempenho de sequência de 600K em uma única GPU H800 SXM 8*80GB. Os resultados mostraram que sua melhoria de desempenho e redução de custos excederam 40%. Este projeto tem o compromisso de fornecer uma solução completa e eficiente de reprodução de Sora para proporcionar comodidade para pesquisadores e desenvolvedores.
A Colossal-AI abriu o código-fonte da solução completa de arquitetura de recorrência Sora Open-Sora, alegando reduzir o custo de recorrência em 46% e expandir o comprimento da sequência de entrada de treinamento do modelo para 819K patches. Solução de reprodução do algoritmo Sora No relatório técnico de Sora, Sora usa uma rede de compressão de vídeo para compactar vídeos de vários tamanhos em uma sequência de blocos espaço-temporais em um espaço latente, depois usa um Transformador de Difusão para eliminar ruído e, finalmente, decodifica para gerar um vídeo. Open-Sora resume o pipeline de treinamento que Sora pode usar para fornecer uma solução completa de arquitetura de recorrência Sora, incluindo todo o processo, desde o processamento de dados até a inferência de treinamento. Atualmente, Open-Sora fornece uma solução completa de arquitetura de recorrência Sora, incluindo todo o processo, desde o processamento de dados até a inferência de treinamento, suportando resolução dinâmica, múltiplas estruturas de modelo, vários métodos de compressão de vídeo e múltiplas otimizações de treinamento paralelo. Em termos de desempenho, tomando como exemplo o teste de desempenho do modelo DiT-XL/2 em uma única GPU H800 SXM 8*80GB, em um comprimento de sequência de 600K, a solução Open-Sora tem mais de 40% de melhoria de desempenho e reduzir o custo em comparação com a solução de base. Endereço de código aberto Open-Sora: https://github.com/hpcaitech/Open-Sora.O código aberto do Open-Sora fornece recursos valiosos para pesquisadores e desenvolvedores, acelerando o avanço da tecnologia de geração de vídeo. Espera-se que sua alta eficiência e baixo custo incentivem mais pessoas a participar de pesquisas nesta área. Esperamos melhorar e desenvolver ainda mais o Open-Sora no futuro para contribuir mais para o campo da geração de vídeo de IA.