Rhymes AI lanza el revolucionario modelo de generación de video con imágenes de texto Allegro-TI2V - artículo de AI

Autor：Eve Cole Fecha de actualización：2025-01-25 05:16:01

Rhymes AI ha lanzado el revolucionario modelo de generación de texto, imagen y vídeo Allegro-TI2V, que marca un gran avance en la IA en el campo creativo. Allegro-TI2V admite una longitud de contexto de hasta 79,2 K, una resolución de salida de 720 × 1280 píxeles y proporciona múltiples modos de generación, como generación de video posterior y generación de video intermedia, lo que mejora en gran medida la eficiencia de la creación de video. El modelo se publica bajo la licencia Apache2.0 y los usuarios pueden acceder y utilizar fácilmente.

Rhymes AI lanzó recientemente su revolucionario modelo de generación de texto, imagen y video, Allegro-TI2V. Esta innovadora tecnología abre una nueva frontera para la creación de contenido digital. Como último avance en IA generativa, Allegro-TI2V proporciona a los trabajadores creativos herramientas de narración visual sin precedentes, lo que marca el enorme potencial de la tecnología de IA en el campo creativo.

Allegro-TI2V sobresale en múltiples especificaciones técnicas, admitiendo longitudes de contexto de hasta 79,2K, equivalente a 88 fotogramas de vídeo. Su resolución de salida es de 720×1280 píxeles y la velocidad de generación de video es de 15 cuadros por segundo. Los usuarios también pueden optar por interpolar a 30 FPS para satisfacer las necesidades de diferentes escenarios de aplicación. La arquitectura de este modelo es muy compleja, incluido el modelo VideoVAE de 175 millones de parámetros y el modelo VideoDiT de 2.800 millones de parámetros, lo que le permite capturar con precisión las indicaciones de texto ingresadas por el usuario y la esencia de la imagen inicial. Además, Allegro-TI2V también admite modos de precisión múltiple (FP32, BF16, FP16). En el modo BF16, solo se necesitan 9,3 GB de memoria GPU para generar vídeo, lo que reduce en gran medida los requisitos de hardware.

La innovación de Allegro-TI2V es que introduce dos modos de nueva generación: Generación de vídeo posterior: basándose en indicaciones de texto y fotogramas iniciales, se crea contenido de vídeo continuo. Este modo ayuda a los creadores a generar fácilmente vídeos que coincidan con el tema y estilo establecidos. Generación de vídeo intermedio: basándose en el primer y último fotograma de un vídeo determinado, genere fotogramas intermedios de transición naturales, rompiendo las limitaciones de tiempo y espacio de la edición de vídeo tradicional.

Estos modos innovadores permiten que Allegro-TI2V proporcione a los creadores un método de creación de video más eficiente y flexible, mejorando en gran medida la eficiencia y la calidad de la creación.

Rhymes AI ha lanzado Allegro-TI2V bajo la licencia Apache 2.0, lo que hace que esta tecnología sea más fácilmente accesible y utilizable por investigadores, desarrolladores y creadores de contenido. Los usuarios solo necesitan instalar Python3.10+, PyTorch2.4+ y CUDA12.4+ para comenzar fácilmente y experimentar rápidamente esta tecnología avanzada.

Allegro-TI2V tiene una amplia gama de perspectivas de aplicaciones, desde producción cinematográfica y desarrollo de juegos hasta arte digital y creación de prototipos creativos, todo lo cual puede aprovechar al máximo sus potentes capacidades de generación. Según los datos proporcionados por el desarrollador, una sola GPU H100 puede generar un vídeo de 6 segundos en unos 20 minutos. Con una configuración de 8 GPU H100, el tiempo de generación se reducirá a 3 minutos, mejorando significativamente la eficiencia de la creación de contenido de vídeo. .

Dirección de uso: https://huggingface.co/rhymes-ai/Allegro-TI2V

Dirección del producto: https://rhymes.ai/blog-details/allegro-advanced-video-generation-model

Con sus potentes funciones y facilidad de uso, Allegro-TI2V promoverá en gran medida el desarrollo de la creación de contenido de vídeo y brindará nuevas posibilidades a la industria creativa. Su naturaleza de código abierto también fomenta una participación comunitaria más amplia y el desarrollo tecnológico, y vale la pena esperar sus futuras aplicaciones y mejoras.