Il s'agit d'un fork en cours de développement du modèle txt2video de Genmoai optimisé pour fonctionner sur un seul nœud GPU avec une VRAM réduite.
Il est tout à fait capable avec 48 Go, mais il devrait maintenant fonctionner avec un seul GPU de 24 Go.
Ne dépassez pas 61 images et essayez 640x480. La VRAM utilise principalement des échelles avec le nombre d’images et la résolution. Les étapes d'inférence ne devraient pas modifier l'utilisation de la VRAM, mais le temps nécessaire à la création d'une vidéo évolue en fonction des étapes. 100 pas semblent acceptables et prendront probablement 15 à 25 minutes. La source originale utilisait 200 étapes, mais cela prendra environ deux fois plus de temps.
Windows n'a pas encore été testé, mais cela peut probablement fonctionner ? ¯ (ツ) /¯
Si votre système utilise déjà la VRAM pour exécuter un ordinateur de bureau, vous devrez peut-être réduire davantage les paramètres.
La plupart du temps, il suffit de déplacer le vae, te, dit, etc. vers le processeur lorsqu'il n'est pas nécessaire et d'utiliser bfloat16 partout. Cela peut nécessiter une RAM système importante (~ 64 Go) ou peut être très lent s'il doit revenir à l'utilisation d'un fichier d'échange si la RAM système est <= 32 Go puisque T5 et le DIT sont encore assez volumineux. Le temps nécessaire pour déplacer les modèles d'avant en arrière est assez petit par rapport au temps d'inférence passé dans les étapes DIT.
Optimisation supplémentaire... Peut-être bitsandbytes NF4. Cela pourrait le ramener à 16 Go ou moins, en supposant que cela ne détruise pas la qualité de sortie. Je peux essayer de voir si je peux injecter une première image d'image pour la faire faire img2video.
Blogue | Visage câlin | Aire de jeux | Carrières
Un modèle de génération vidéo de pointe par Genmo.
L'aperçu Mochi 1 est un modèle ouvert de génération vidéo de pointe avec un mouvement haute fidélité et une forte adhésion rapide lors de l'évaluation préliminaire. Ce modèle réduit considérablement l'écart entre les systèmes de génération vidéo fermés et ouverts. Nous publions le modèle sous une licence permissive Apache 2.0. Essayez ce modèle gratuitement sur notre terrain de jeu.
Installer en utilisant uv :
git clone https://github.com/genmoai/models
cd models
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .
Téléchargez les poids depuis Hugging Face ou via magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
dans un dossier sur votre ordinateur.
Démarrez l'interface utilisateur de Gradio avec
python3 -m mochi_preview.gradio_ui --model_dir " "
Ou générez des vidéos directement depuis la CLI avec
python3 -m mochi_preview.infer --prompt " A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere. " --seed 1710977262 --cfg-scale 4.5 --model_dir " "
Remplacez
par le chemin d'accès à votre répertoire modèle.
Mochi 1 représente une avancée significative dans la génération vidéo open source, avec un modèle de diffusion de 10 milliards de paramètres construit sur notre nouvelle architecture de transformateur de diffusion asymétrique (AsymDiT). Entièrement formé à partir de zéro, il s’agit du plus grand modèle génératif vidéo jamais publié ouvertement. Et le meilleur de tout, c'est une architecture simple et piratable. De plus, nous publions un harnais d'inférence qui inclut une implémentation parallèle de contexte efficace.
Aux côtés de Mochi, nous mettons en open source notre vidéo AsymmVAE. Nous utilisons une structure codeur-décodeur asymétrique pour construire un modèle de compression efficace de haute qualité. Notre AsymmVAE compresse causalement les vidéos à une taille 128x plus petite, avec une compression spatiale 8x8 et une compression temporelle 6x dans un espace latent de 12 canaux.
Paramètres Compter | Base Enc Canaux | Base de décembre Canaux | Latent Faible | Spatial Compression | Temporel Compression |
---|---|---|---|---|---|
362M | 64 | 128 | 12 | 8x8 | 6x |
Un AsymmDiT traite efficacement les invites des utilisateurs ainsi que les jetons vidéo compressés en rationalisant le traitement du texte et en concentrant la capacité du réseau neuronal sur le raisonnement visuel. AsymmDiT s'occupe conjointement des jetons textuels et visuels avec une auto-attention multimodale et apprend des couches MLP distinctes pour chaque modalité, similaire à Stable Diffusion 3. Cependant, notre flux visuel a près de 4 fois plus de paramètres que le flux de texte via un plus grand flux caché. dimension. Pour unifier les modalités d'auto-attention, nous utilisons des couches de projection QKV non carrées et de sortie. Cette conception asymétrique réduit les besoins en mémoire d'inférence. De nombreux modèles de diffusion modernes utilisent plusieurs modèles de langage pré-entraînés pour représenter les invites des utilisateurs. En revanche, Mochi 1 code simplement les invites avec un seul modèle de langage T5-XXL.
Paramètres Compter | Numéro Calques | Numéro Têtes | Visuel Faible | Texte Faible | Visuel Jetons | Texte Jetons |
---|---|---|---|---|---|---|
10B | 48 | 24 | 3072 | 1536 | 44520 | 256 |
Le modèle nécessite au moins 4 GPU H100 pour fonctionner. Nous apprécions les contributions de la communauté pour réduire cette exigence.
Les modèles vidéo Genmo sont des modèles généraux de diffusion texte-vidéo qui reflètent intrinsèquement les préjugés et les idées préconçues trouvés dans leurs données de formation. Bien que des mesures aient été prises pour limiter le contenu NSFW, les organisations doivent mettre en œuvre des protocoles de sécurité supplémentaires et un examen attentif avant de déployer ces pondérations de modèle dans des services ou produits commerciaux.
Selon l'aperçu de la recherche, Mochi 1 est un point de contrôle vivant et évolutif. Il existe quelques limitations connues. La version initiale génère aujourd'hui des vidéos à 480p. Dans certains cas extrêmes, avec des mouvements extrêmes, des déformations et des distorsions mineures peuvent également se produire. Mochi 1 est également optimisé pour les styles photoréalistes et ne fonctionne donc pas bien avec le contenu animé. Nous prévoyons également que la communauté affinera le modèle pour l'adapter à diverses préférences esthétiques.
@misc{genmo2024mochi,
title={Mochi},
author={Genmo Team},
year={2024}
}