Versão de código aberto do Sora? O roteiro da tecnologia Open-Sora de Luchen é revelado. Ele pode gerar vídeo de alta definição 720p com um clique, com um salto na qualidade e uma queda no custo.

Autor：Eve Cole Data da Última Atualização：2025-01-03 10:32:01

O projeto Open-Sora de código aberto da equipe Luchen fez um progresso revolucionário no campo da geração de vídeo de alta definição 720p. Sua velocidade de geração eficiente e saída de alta qualidade são incríveis. O projeto rapidamente ganhou mais de 17,5 mil estrelas no GitHub e recebeu ampla atenção da indústria, até mesmo com o Lambda Labs construindo um universo LEGO digital com base nos pesos de seus modelos. Open-Sora não é apenas fácil de usar, tão conveniente quanto pedir comida para viagem, mas, mais importante, abre os pesos dos modelos e rotas técnicas detalhadas, permitindo que mais desenvolvedores e entusiastas participem e promovam o avanço da tecnologia de vídeo Wensheng.

Recentemente, a equipe Luchen Open-Sora alcançou um progresso revolucionário na qualidade e no tempo de geração de vídeo de alta definição 720p. Eles não apenas fizeram grandes novidades na qualidade e no tempo de geração de vídeo de alta definição 720p, mas também fizeram isso. baby open source, para que toda a comunidade fique animada!

Não é exagero dizer que seu projeto de código aberto torna a geração de vídeo tão fácil quanto pedir comida para viagem. Desde sua estreia em março, recebeu 17,5 mil estrelas no GitHub e é extremamente popular!

Endereço de código aberto: https://github.com/hpcaitech/Open-Sora

Open-Sora pode gerar vídeos de alta definição de 720p de 16 segundos com um clique, sejam retratos requintados, sucessos de bilheteria de ficção científica ou animações vívidas e interessantes, com efeitos de zoom suaves, ele pode lidar facilmente com isso. Não, mesmo a Lambda Labs, empresa de IA na qual a Nvidia tem participação, criou um universo digital de Lego baseado no peso do modelo Open-Sora, permitindo aos fãs de Lego encontrar um novo mundo de criatividade.

A equipe Luchen não apenas abriu o código-fonte dos pesos do modelo, mas também publicou a rota técnica no GitHub, permitindo que cada jogador se tornasse o mestre do grande modelo de vídeo. Este relatório técnico analisa profundamente os pontos principais e principais do treinamento do modelo, desde a rede de compressão de vídeo até o algoritmo do modelo de difusão e a controlabilidade. Eles usam um modelo de geração de difusão de 1,1B para resolver os pontos problemáticos do treinamento do modelo de vídeo.

Endereço do relatório: https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md

A introdução da rede de compressão de vídeo é o mesmo método do Sora da OpenAI. Ele pode realizar compactação 4 vezes na dimensão de tempo sem extração de quadros e pode usar o FPS original para gerar vídeos. A equipe também propôs uma rede simples de compressão de vídeo (ou seja, VAE), que pode primeiro atingir 8x8 vezes a compressão na dimensão espacial e, em seguida, 4 vezes a compressão na dimensão temporal.

O mais recente modelo de difusão do Stable Diffusion3 melhora a qualidade da geração através da tecnologia de fluxo retificado. As tecnologias fornecidas pela equipe de Luchen incluem treinamento de retificação, amostragem por intervalo de tempo com norma logit, etc., que acelera o treinamento do modelo e reduz o tempo de espera de inferência.

O relatório também revelou os principais detalhes do treinamento do modelo, incluindo limpeza de dados, técnicas de ajuste de modelo e construção de um sistema de avaliação de modelo. Eles ainda fornecem implantação do aplicativo Gradio com um clique, que suporta vários ajustes de parâmetros.

O código aberto do Luchen Open-Sora quebra o ciclo fechado e injeta vitalidade na inovação e no desenvolvimento do Vincent Video. Os usuários passaram de consumidores de conteúdo a criadores, e os usuários corporativos desbloquearam novas habilidades para desenvolvimento independente.

O código aberto do Open-Sora reduz o limite de entrada para a tecnologia de vídeo Wensheng e oferece possibilidades ilimitadas para a geração futura de conteúdo criativo. Vale a pena esperar pelo desenvolvimento subsequente e pela exploração de mais cenários de aplicação.