TuSimple lanza el modelo de vídeo TuSimple “Ruyi” y abre el código fuente Ruyi-Mini-7B

Autor：Eve Cole Fecha de actualización：2024-12-19 13:16:01

Beijing TuSimple Future Technology Co., Ltd. lanzó oficialmente su primer modelo grande "TuSimple Video", "Ruyi", el 17 de diciembre de 2024, y abrió la versión Ruyi-Mini-7B. Este modelo está especialmente diseñado para tarjetas gráficas de consumo, lo que proporciona un proceso de implementación y uso conveniente. Tiene un buen rendimiento en términos de consistencia entre cuadros y suavidad de movimiento, y proporciona una poderosa herramienta creativa para creadores de animaciones y juegos. Admite generación de video de múltiples resoluciones y duraciones y tiene una variedad de funciones de control, que pueden reducir efectivamente el ciclo y el costo de la creación de contenido. Esto marca un paso importante para TuSimple en el campo de la aplicación de la tecnología de inteligencia artificial y también brinda una nueva experiencia creativa a los entusiastas de ACG.

Beijing TuSimple Future Technology Co., Ltd. lanzó oficialmente su primer modelo grande "TuSimple Video": "Ruyi" el 17 de diciembre de 2024, e hizo que la versión Ruyi-Mini-7B fuera de código abierto para que los usuarios la descargaran y la usaran desde la plataforma huggingface. . TuSimple se fundó en 2015 y tiene su sede en San Diego, California, EE. UU. Se centra en la aplicación de tecnología de inteligencia artificial en múltiples industrias, incluidas las de juegos de animación y de transporte.

El modelo grande de Ruyi está diseñado para ejecutarse en tarjetas gráficas de consumo y proporciona instrucciones de implementación detalladas y un flujo de trabajo ComfyUI para permitir a los usuarios comenzar rápidamente. Con su excelente rendimiento en consistencia cuadro a cuadro, suavidad de movimiento, presentación y composición del color, este modelo brinda nuevas posibilidades para la narración visual y realiza un aprendizaje profundo para escenas de animación y juegos, lo que lo convierte en un socio creativo ideal para los entusiastas de ACG.

微信截图_20241217140324.png

El modelo Ruyi admite generación de múltiples resoluciones y múltiples duraciones, y puede manejar resoluciones de 384×384 a 1024×1024, cualquier relación de aspecto y generación de video de hasta 120 fotogramas/5 segundos. También admite la generación de control del primer fotograma, del primer y del último fotograma, control de amplitud de movimiento y cinco controles de lente. Ruyi se basa en la arquitectura DiT y consta de un módulo Casual VAE y un transformador de difusión. El tamaño total de los parámetros es de aproximadamente 7,1 millones y utiliza alrededor de 200 millones de videoclips para el entrenamiento.

Aunque Ruyi ha logrado avances significativos en la tecnología, todavía hay algunos defectos, como deformidad de las manos, colapso de los detalles faciales cuando hay varias personas y transiciones incontrolables. TuSimple está trabajando arduamente para mejorarlos y solucionarlos en futuras actualizaciones.

De cara al futuro, TuSimple planea continuar profundizando en las necesidades de la escena, lograr avances en la generación CUT directa y proporcionar dos versiones en el próximo lanzamiento para satisfacer las necesidades de diferentes creadores. La compañía se compromete a utilizar modelos grandes para reducir el ciclo de desarrollo y el costo de la animación y el contenido del juego. Los modelos grandes de Ruyi ya pueden generar 5 segundos de contenido después de ingresar fotogramas clave, o ingresar dos fotogramas clave y el modelo generará contenido de transición intermedio. reduciendo el ciclo de desarrollo.

Enlace de cara de abrazo:

https://huggingface.co/IamCreateAI/Ruyi-Mini-7B

Con todo, el lanzamiento de código abierto del modelo grande de Ruyi ha brindado nuevas posibilidades a la animación y la creación de juegos. Aunque hay algunas deficiencias, su potencial de desarrollo futuro es enorme. Vale la pena esperar una mayor optimización y mejora del modelo por parte de TuSimple. versiones posteriores.