El equipo de Colossal-AI ha abierto la solución de reproducción del algoritmo Sora Open-Sora, con el objetivo de reducir los costos de reproducción y mejorar el rendimiento. Esta solución cubre todo el proceso, desde el procesamiento de datos hasta la inferencia de entrenamiento, admite múltiples estructuras de modelos, métodos de compresión de video y optimización de entrenamiento en paralelo, lo que mejora significativamente la eficiencia del entrenamiento. Open-Sora utilizó el modelo DiT-XL/2 para realizar una prueba de rendimiento de una longitud de secuencia de 600K en una única GPU H800 SXM de 8*80 GB. Los resultados mostraron que la mejora del rendimiento y la reducción de costos superaron el 40 %. Este proyecto se compromete a proporcionar una solución de reproducción de Sora completa y eficiente para brindar comodidad a investigadores y desarrolladores.
Colossal-AI ha abierto la solución completa de arquitectura de recurrencia de Sora Open-Sora, afirmando que reduce el costo de recurrencia en un 46% y amplía la longitud de la secuencia de entrada de entrenamiento del modelo a 819K parches. Solución de reproducción del algoritmo de Sora En el informe técnico de Sora, Sora utiliza una red de compresión de video para comprimir videos de varios tamaños en una secuencia de bloques espacio-temporales en un espacio latente, luego usa un transformador de difusión para eliminar el ruido y finalmente lo decodifica para generar un video. Open-Sora resume el proceso de capacitación que Sora puede utilizar para proporcionar una solución completa de arquitectura de recurrencia de Sora, que incluye todo el proceso, desde el procesamiento de datos hasta la inferencia de capacitación. En la actualidad, Open-Sora ha proporcionado una solución completa de arquitectura recurrente de Sora, que incluye todo el proceso desde el procesamiento de datos hasta la inferencia de entrenamiento, admite resolución dinámica, múltiples estructuras de modelos, múltiples métodos de compresión de video y múltiples optimizaciones de entrenamiento en paralelo. En términos de rendimiento, tomando como ejemplo la prueba de rendimiento del modelo DiT-XL/2 en una única GPU H800 SXM de 8*80 GB, con una longitud de secuencia de 600 K, la solución Open-Sora tiene una mejora de rendimiento de más del 40 % y Reducir el costo en comparación con la solución base. Dirección de código abierto de Open-Sora: https://github.com/hpcaitech/Open-Sora.El código abierto de Open-Sora proporciona recursos valiosos a investigadores y desarrolladores, acelerando el avance de la tecnología de generación de vídeo. Se espera que su alta eficiencia y bajo costo alienten a más personas a participar en la investigación en este campo. Esperamos seguir mejorando y desarrollando Open-Sora en el futuro para contribuir más al campo de la generación de videos con IA.