¡El Plan Open-Sora v1.2 ya está aquí! Esta actualización trae mejoras revolucionarias, cuyo núcleo reside en la nueva arquitectura de atención total 3D, que cambia por completo la forma en que la IA entiende el mundo físico y logra un salto del plano al tridimensional. Además de la mejora significativa en la capacidad de comprender el mundo físico, también se ha mejorado significativamente la capacidad de generar vídeos a partir de texto. También se han mejorado la claridad y la coherencia de los vídeos generados. Se ha optimizado significativamente y la velocidad de inferencia ha sido aún mayor. Echemos un vistazo a las actualizaciones detalladas de Open-Sora Plan v1.2.
¡Open-Sora Plan se ha actualizado nuevamente! La última versión de Open-Sora Plan v1.2 presenta una nueva arquitectura de atención total en 3D, que mejora la comprensión del mundo físico.
Principales aspectos destacados de esta actualización:
Nueva arquitectura de atención total 3D: la nueva arquitectura permite a la IA dar un salto cualitativo en la comprensión del mundo físico. Ya no es un código QR que sólo puede pensar en dos dimensiones, ¡ahora puede comprender este mundo tridimensional 360 grados sin puntos ciegos!
Capacidades de video de generación de texto mejoradas: escribe un fragmento de texto y la IA puede presentarle una imagen de video realista.
Claridad y coherencia mejoradas: a través de la nueva arquitectura y la estructura VAE optimizada, la calidad del vídeo generado por Open-Sora es más clara y el contenido es más coherente. ¡Dile adiós a la ambigüedad!
Perfecta integración del espacio y el tiempo: la nueva arquitectura de atención total 3D resuelve un problema importante de la versión anterior: procesar las dimensiones del espacio y el tiempo simultáneamente. ¿Qué significa esto? ¡Significa que el vídeo generado mejorará significativamente en términos de rendimiento espacial y fluidez temporal!
La velocidad de inferencia ha mejorado enormemente: la estructura CausalVideoVAE optimizada no solo mejora el rendimiento del modelo, sino que también aumenta la velocidad de inferencia. ¡Las fiestas de eficiencia se alegran!
Mirando hacia atrás en la historia del desarrollo de Open-Sora, encontraremos que su progreso es sorprendente. En mayo de 2024, la versión v1.1.0 todavía usaba la arquitectura del modelo 2+1D, utilizada principalmente para entrenamiento exploratorio. Y ahora, sólo unos meses después, se ha convertido en un creador que puede crear un mundo en 3D a tal velocidad que incluso Darwin habría exclamado: ¡La teoría de la evolución está a punto de ser reescrita!
¡Lo mejor es que el equipo de Open-Sora no oculta nada! El código, los datos y los modelos son todos de código abierto, y simplemente pegan las instrucciones sobre cómo crear el mundo en tu cara. Su objetivo es simple: ¡que todos se conviertan en el dios de la creación de videos! Esta actitud abierta y compartida sin duda acelerará el progreso de la tecnología de generación de videos con IA.
El lanzamiento de Open-Sora Plan v1.2.0 marca una nueva era para los modelos de generación de video. No solo mejora significativamente la compresión de la representación visual y la eficiencia del razonamiento, sino que también señala la dirección para el desarrollo futuro.
Dirección del proyecto: https://top.aibase.com/tool/open-sora-plan-v1-2
El lanzamiento de Open-Sora Plan v1.2 presagia que la tecnología de generación de video de IA ha entrado en una nueva etapa de desarrollo, y su característica de código abierto también proporciona un fuerte impulso para el progreso tecnológico. ¡Esperamos más sorpresas que Open-Sora pueda traer en el futuro!