Le projet open source Open-Sora de l'équipe Luchen a réalisé des progrès révolutionnaires dans le domaine de la génération vidéo haute définition 720p. Sa vitesse de génération efficace et sa sortie de haute qualité sont étonnantes. Le projet a rapidement gagné plus de 17,5 000 étoiles sur GitHub et a reçu une large attention de l'industrie, même Lambda Labs construisant un univers LEGO numérique basé sur les poids de ses modèles. Open-Sora est non seulement facile à utiliser, aussi pratique que commander des plats à emporter, mais plus important encore, il ouvre les poids des modèles et les itinéraires techniques détaillés, permettant à davantage de développeurs et de passionnés de participer et de promouvoir l'avancement de la technologie vidéo Wensheng.
Récemment, l'équipe Luchen Open-Sora a réalisé des progrès révolutionnaires dans la qualité et le temps de génération de la vidéo Wensheng haute définition 720p. Non seulement ils ont fait de grandes nouvelles dans la qualité et le temps de génération de la vidéo haute définition 720p, mais ils ont également fait. ce bébé open source, pour que toute la communauté soit excitée !
Il n’est pas exagéré de dire que leur projet open source rend la génération de vidéos aussi simple que la commande à emporter. Depuis ses débuts en mars, il a reçu 17,5 000 étoiles sur GitHub et est extrêmement populaire !
Adresse open source : https://github.com/hpcaitech/Open-Sora
Open-Sora peut générer des vidéos haute définition 720p de 16 secondes en un seul clic. Qu'il s'agisse de portraits exquis, de superproductions de science-fiction sympas, d'animations vives et intéressantes et d'effets de zoom fluides, il peut facilement le gérer. Non, même Lambda Labs, une société d'IA dans laquelle Nvidia détient une participation, a créé un univers Lego numérique basé sur le poids du modèle Open-Sora, permettant aux fans de Lego de découvrir un nouveau monde de créativité.
L'équipe Luchen a non seulement open source les poids du modèle, mais a également publié le parcours technique sur GitHub, permettant à chaque joueur de devenir le maître du grand modèle vidéo. Ce rapport technique analyse en profondeur les points essentiels et clés de la formation de modèles, du réseau de compression vidéo à l'algorithme de modèle de diffusion en passant par la contrôlabilité. Ils utilisent un modèle de génération de diffusion 1.1B pour résoudre les problèmes de la formation de modèles vidéo.
Adresse du rapport : https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md
L'introduction du réseau de compression vidéo est la même méthode que Sora d'OpenAI. Il peut effectuer une compression 4 fois dans la dimension temporelle sans extraction d'image et peut générer des vidéos en utilisant le FPS d'origine. L'équipe a également proposé un réseau de compression vidéo simple (c'est-à-dire VAE), qui peut d'abord atteindre une compression 8x8 fois dans la dimension spatiale, puis une compression 4 fois dans la dimension temporelle.
Le dernier modèle de diffusion de Stable Diffusion3 améliore la qualité de génération grâce à la technologie à flux rectifié. Les technologies fournies par l'équipe de Luchen incluent la formation à la rectification, l'échantillonnage par pas de temps selon la norme logit, etc., qui accélèrent la formation du modèle et réduisent le temps d'attente d'inférence.
Le rapport a également révélé les détails essentiels de la formation des modèles, notamment le nettoyage des données, les techniques de réglage des modèles et la construction d'un système d'évaluation des modèles. Ils permettent même le déploiement en un clic de l'application Gradio, qui prend en charge divers réglages de paramètres.
L'open source de Luchen Open-Sora brise la boucle fermée et injecte de la vitalité dans l'innovation et le développement de Vincent Video. Les utilisateurs sont passés de consommateurs de contenu à créateurs, et les utilisateurs en entreprise ont acquis de nouvelles compétences pour un développement indépendant.
L'open source d'Open-Sora abaisse le seuil d'entrée pour la technologie vidéo Wensheng et offre des possibilités illimitées pour la future génération de contenu créatif. Il vaut la peine d'attendre avec impatience le développement ultérieur et l'exploration de davantage de scénarios d'application.