El proyecto de código abierto Open-Sora del equipo de Luchen ha logrado avances revolucionarios en el campo de la generación de video de alta definición de 720p. Su velocidad de generación eficiente y su salida de alta calidad son sorprendentes. El proyecto rápidamente obtuvo más de 17,5 mil estrellas en GitHub y recibió una atención generalizada de la industria, e incluso Lambda Labs construyó un universo LEGO digital basado en los pesos de sus modelos. Open-Sora no solo es fácil de usar, tan conveniente como pedir comida para llevar, sino que, lo que es más importante, abre los pesos de los modelos y las rutas técnicas detalladas, lo que permite que más desarrolladores y entusiastas participen y promuevan el avance de la tecnología de video Wensheng.
Recientemente, el equipo de Luchen Open-Sora logró avances revolucionarios en la calidad y el tiempo de generación de videos de alta definición de 720p. No solo generaron grandes noticias en la calidad y el tiempo de generación de videos de alta definición de 720p, sino que también lograron esto. Baby de código abierto, ¡para que toda la comunidad esté entusiasmada!
No es exagerado decir que su proyecto de código abierto hace que la generación de videos sea tan fácil como pedir comida para llevar. Desde su debut en marzo, ha recibido 17,5 mil estrellas en GitHub y es extremadamente popular.
Dirección de código abierto: https://github.com/hpcaitech/Open-Sora
Open-Sora puede generar videos de alta definición de 720p de 16 segundos con un solo clic, ya sean retratos exquisitos, éxitos de taquilla de ciencia ficción o animaciones vívidas e interesantes, con efectos de zoom suaves, puede manejarlo fácilmente. No, incluso Lambda Labs, la empresa de inteligencia artificial en la que Nvidia tiene participación, ha creado un universo digital de Lego basado en el peso del modelo Open-Sora, lo que permite a los fanáticos de Lego encontrar un nuevo mundo de creatividad.
El equipo de Luchen no solo abrió los pesos del modelo, sino que también publicó la ruta técnica en GitHub, lo que permite a cada jugador convertirse en el maestro del modelo de video grande. Este informe técnico analiza en profundidad los puntos centrales y clave del entrenamiento de modelos, desde la red de compresión de video hasta el algoritmo del modelo de difusión y la controlabilidad. Utilizan un modelo de generación de difusión de 1.1B para resolver los puntos débiles del entrenamiento de modelos de video.
Dirección del informe: https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md
La introducción de la red de compresión de video es el mismo método que Sora de OpenAI. Puede realizar una compresión 4 veces en la dimensión de tiempo sin extracción de cuadros y puede usar el FPS original para generar videos. El equipo también propuso una red de compresión de video simple (es decir, VAE), que primero puede lograr una compresión de 8x8 veces en la dimensión espacial y luego una compresión de 4 veces en la dimensión temporal.
El último modelo de difusión de Stable Diffusion3 mejora la calidad de la generación mediante tecnología de flujo rectificado. Las tecnologías proporcionadas por el equipo de Luchen incluyen entrenamiento de rectificación, muestreo de pasos de tiempo de norma logit, etc., que aceleran el entrenamiento del modelo y reducen el tiempo de espera de inferencia.
El informe también reveló los detalles centrales del entrenamiento de modelos, incluida la limpieza de datos, las técnicas de ajuste de modelos y la construcción de un sistema de evaluación de modelos. Incluso proporcionan implementación con un solo clic de la aplicación Gradio, que admite varios ajustes de parámetros.
El código abierto de Luchen Open-Sora rompe el circuito cerrado e inyecta vitalidad a la innovación y el desarrollo de Vincent Video. Los usuarios se han transformado de consumidores de contenido a creadores, y los usuarios empresariales han desbloqueado nuevas habilidades para el desarrollo independiente.
El código abierto de Open-Sora reduce el umbral de entrada para la tecnología de vídeo Wensheng y ofrece posibilidades ilimitadas para la generación futura de contenido creativo. Vale la pena esperar el desarrollo posterior y la exploración de más escenarios de aplicación.