Le plan Open-Sora v1.2 est là ! Cette mise à jour apporte des améliorations révolutionnaires, dont le cœur réside dans la nouvelle architecture 3D pleine attention, qui change complètement la façon dont l'IA comprend le monde physique et réalise un saut du plan au tridimensionnel. Outre l'amélioration significative de la capacité à comprendre le monde physique, la capacité à générer des vidéos à partir de texte a également été considérablement améliorée. La clarté et la cohérence des vidéos générées ont également été améliorées. a été considérablement optimisé et la vitesse d'inférence a été encore plus élevée. Jetons un coup d'œil aux mises à jour détaillées d'Open-Sora Plan v1.2.
Open-Sora Plan a de nouveau été mis à niveau ! La dernière version d'Open-Sora Plan v1.2 introduit une nouvelle architecture 3D pleine attention, qui améliore la compréhension du monde physique.
Principaux points forts de cette mise à jour :
Nouvelle architecture 3D pleine attention : La nouvelle architecture permet à l’IA de faire un saut qualitatif dans la compréhension du monde physique. Ce n'est plus un code QR qui ne peut penser qu'en deux dimensions, il peut désormais comprendre ce monde tridimensionnel à 360 degrés sans angles morts !
Capacités vidéo de génération de texte améliorées : vous tapez un morceau de texte et l'IA peut vous présenter une image vidéo réaliste.
Clarté et cohérence améliorées : grâce à la nouvelle architecture et à la structure VAE optimisée, la qualité vidéo générée par Open-Sora est plus claire et le contenu est plus cohérent. Dites adieu à l'ambiguïté !
Intégration parfaite de l'espace et du temps : la nouvelle architecture 3D pleine attention résout un problème majeur de la version précédente : le traitement simultané des dimensions spatiales et temporelles. Qu'est-ce que cela signifie ? Cela signifie que la vidéo générée sera considérablement améliorée en termes de performances spatiales et de fluidité temporelle !
La vitesse d'inférence est grandement améliorée : la structure CausalVideoVAE optimisée améliore non seulement les performances du modèle, mais fait également monter en flèche la vitesse d'inférence. Les fêtes d’efficacité se réjouissent !
En regardant l’histoire du développement d’Open-Sora, nous constaterons que ses progrès sont étonnants. Pas plus tard qu'en mai 2024, la version v1.1.0 utilisait encore l'architecture de modèle 2+1D, principalement utilisée pour la formation exploratoire. Et maintenant, quelques mois plus tard, il est devenu un créateur capable de créer un monde en 3D à une telle vitesse, même Darwin se serait exclamé : La théorie de l'évolution est sur le point d'être réécrite !
Le plus cool, c'est que l'équipe Open-Sora ne cache rien ! Le code, les données et les modèles sont tous open source, et ils collent simplement les instructions sur la façon de créer le monde sur votre visage. Leur objectif est simple : que chacun devienne le dieu de la création vidéo ! Cette attitude d'ouverture et de partage accélérera sans aucun doute les progrès de la technologie de génération vidéo IA !
La sortie d'Open-Sora Plan v1.2.0 marque une nouvelle ère pour les modèles de génération vidéo. Non seulement il améliore considérablement la compression des représentations visuelles et l’efficacité du raisonnement, mais il indique également la direction du développement futur.
Adresse du projet : https://top.aibase.com/tool/open-sora-plan-v1-2
La sortie d'Open-Sora Plan v1.2 annonce que la technologie de génération vidéo IA est entrée dans une nouvelle étape de développement, et sa fonctionnalité open source fournit également une forte impulsion au progrès technologique. Nous attendons avec impatience d’autres surprises qu’Open-Sora pourra apporter à l’avenir !