Esta es una bifurcación en progreso del modelo txt2video de Genmoai optimizada para ejecutarse en un solo nodo GPU con VRAM reducida.
Es bastante capaz con 48 GB, pero ahora debería funcionar con una sola GPU de 24 GB.
No excedas los 61 fotogramas y prueba con 640x480. VRAM utiliza principalmente escalas con número de fotogramas y resolución. Los pasos de inferencia no deberían cambiar el uso de VRAM, pero el tiempo necesario para crear un vídeo aumenta con los pasos. 100 pasos parecen estar bien y probablemente tomarán entre 15 y 25 minutos. La fuente original utilizaba 200 pasos, pero esto llevará aproximadamente el doble de tiempo.
Windows aún no se ha probado, pero probablemente pueda funcionar. ¯ (ツ) /¯
Si su sistema ya utiliza VRAM para ejecutar una computadora de escritorio, es posible que deba reducir aún más la configuración.
Principalmente simplemente cambiando vae, te, dit, etc. de un lado a otro de la CPU cuando no es necesario y usando bfloat16 en todas partes. Esto puede requerir una cantidad significativa de RAM del sistema (~64 GB) o puede ser muy lento si tiene que volver a usar el archivo de paginación si la RAM del sistema es <= 32 G, ya que T5 y el DIT aún son bastante grandes. El tiempo para mover los modelos hacia adelante y hacia atrás es bastante pequeño en relación con el tiempo de inferencia empleado en los pasos del DIT.
Mayor optimización... Quizás bitsandbytes NF4. Eso podría reducirlo a 16 GB o menos, suponiendo que no destruya la calidad de salida. Puedo intentar ver si puedo inyectar una imagen del primer fotograma para que funcione img2video.
Blog | Abrazando la cara | Zona de juegos | Carreras
Un modelo de generación de vídeo de última generación de Genmo.
La vista previa de Mochi 1 es un modelo abierto de generación de video de última generación con movimiento de alta fidelidad y una fuerte adherencia rápida en la evaluación preliminar. Este modelo cierra drásticamente la brecha entre los sistemas de generación de vídeo abiertos y cerrados. Lanzaremos el modelo bajo una licencia Apache 2.0 permisiva. Prueba este modelo gratis en nuestro parque infantil.
Instalar usando uv:
git clone https://github.com/genmoai/models
cd models
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .
Descargue los pesos de Hugging Face o mediante magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
a una carpeta en su computadora.
Inicie la interfaz de usuario de gradio con
python3 -m mochi_preview.gradio_ui --model_dir " "
O genere videos directamente desde la CLI con
python3 -m mochi_preview.infer --prompt " A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere. " --seed 1710977262 --cfg-scale 4.5 --model_dir " "
Reemplace
con la ruta al directorio de su modelo.
Mochi 1 representa un avance significativo en la generación de video de código abierto, presentando un modelo de difusión de 10 mil millones de parámetros construido sobre nuestra novedosa arquitectura de Transformador de Difusión Asimétrica (AsymmDiT). Entrenado completamente desde cero, es el modelo generativo de video más grande jamás lanzado abiertamente. Y lo mejor de todo es que es una arquitectura simple y pirateable. Además, estamos lanzando un arnés de inferencia que incluye una implementación paralela de contexto eficiente.
Junto con Mochi, estamos abriendo código para nuestro video AsymmVAE. Utilizamos una estructura codificador-decodificador asimétrica para construir un modelo de compresión eficiente de alta calidad. Nuestro AsymmVAE comprime videos causalmente a un tamaño 128 veces más pequeño, con una compresión espacial de 8x8 y temporal de 6x a un espacio latente de 12 canales.
parámetros Contar | Base Enc Canales | Base de diciembre Canales | Latente Oscuro | Espacial Compresión | Temporal Compresión |
---|---|---|---|---|---|
362M | 64 | 128 | 12 | 8x8 | 6x |
Un AsymmDiT procesa de manera eficiente las indicaciones del usuario junto con tokens de video comprimidos al optimizar el procesamiento de texto y enfocar la capacidad de la red neuronal en el razonamiento visual. AsymmDiT atiende conjuntamente texto y tokens visuales con autoatención multimodal y aprende capas MLP separadas para cada modalidad, similar a Stable Diffusion 3. Sin embargo, nuestro flujo visual tiene casi 4 veces más parámetros que el flujo de texto a través de un flujo oculto más grande. dimensión. Para unificar las modalidades en la autoatención, utilizamos QKV no cuadrado y capas de proyección de salida. Este diseño asimétrico reduce los requisitos de memoria de inferencia. Muchos modelos de difusión modernos utilizan múltiples modelos de lenguaje previamente entrenados para representar las indicaciones de los usuarios. Por el contrario, Mochi 1 simplemente codifica mensajes con un único modelo de lenguaje T5-XXL.
parámetros Contar | número capas | número cabezas | Visual Oscuro | Texto Oscuro | Visual Fichas | Texto Fichas |
---|---|---|---|---|---|---|
10B | 48 | 24 | 3072 | 1536 | 44520 | 256 |
El modelo requiere al menos 4 GPU H100 para funcionar. Agradecemos las contribuciones de la comunidad para reducir este requisito.
Los modelos de video Genmo son modelos generales de difusión de texto a video que reflejan inherentemente los sesgos y las ideas preconcebidas encontradas en sus datos de entrenamiento. Si bien se han tomado medidas para limitar el contenido NSFW, las organizaciones deben implementar protocolos de seguridad adicionales y una cuidadosa consideración antes de implementar estos pesos modelo en cualquier servicio o producto comercial.
Según el avance de la investigación, Mochi 1 es un punto de control vivo y en evolución. Existen algunas limitaciones conocidas. La versión inicial genera videos a 480p hoy. En algunos casos de bordes con movimiento extremo, también pueden ocurrir pequeñas deformaciones y distorsiones. Mochi 1 también está optimizado para estilos fotorrealistas, por lo que no funciona bien con contenido animado. También anticipamos que la comunidad ajustará el modelo para adaptarlo a diversas preferencias estéticas.
@misc{genmo2024mochi,
title={Mochi},
author={Genmo Team},
year={2024}
}