Dies ist ein in Arbeit befindlicher Fork des txt2video-Modells von Genmoai, der für die Ausführung auf einem einzelnen GPU-Knoten mit reduziertem VRAM optimiert ist.
Mit 48 GB ist es durchaus leistungsfähig, sollte aber jetzt mit einer einzigen 24-GB-GPU laufen können.
Überschreiten Sie nicht 61 Bilder und versuchen Sie es mit 640 x 480. Die Verwendung von VRAM skaliert hauptsächlich mit der Anzahl der Bilder und der Auflösung. Inferenzschritte sollten die VRAM-Nutzung nicht verändern, aber die zum Erstellen eines Videos benötigte Zeit skaliert mit den Schritten. 100 Schritte scheinen in Ordnung zu sein und werden wahrscheinlich 15-25 Minuten dauern. In der Originalquelle wurden 200 Schritte verwendet, dies wird jedoch etwa doppelt so lange dauern.
Windows noch nicht getestet, aber es funktioniert wahrscheinlich? ¯ (ツ) /¯
Wenn Ihr System bereits VRAM zum Ausführen eines Desktops verwendet, müssen Sie die Einstellungen möglicherweise weiter senken.
Meistens wird vae, te, dit usw. nur hin und her auf die CPU verschoben, wenn sie nicht benötigt wird, und bfloat16 überall verwendet. Dies erfordert möglicherweise erheblichen System-RAM (~64 GB) oder kann besonders langsam sein, wenn auf die Verwendung der Auslagerungsdatei zurückgegriffen werden muss, wenn der System-RAM <= 32 GB beträgt, da T5 und DIT immer noch ziemlich groß sind. Die Zeit, die Modelle hin und her zu bewegen, ist im Verhältnis zur Inferenzzeit, die in den DIT-Schritten aufgewendet wird, relativ gering.
Weitere Optimierung... Vielleicht Bitsandbytes NF4. Dadurch könnte die Kapazität auf 16 GB oder weniger sinken, vorausgesetzt, die Ausgabequalität wird dadurch nicht beeinträchtigt. Vielleicht versuche ich zu sehen, ob ich ein erstes Frame-Bild einfügen kann, damit img2video ausgeführt wird.
Blog | Umarmendes Gesicht | Spielplatz | Karrieren
Ein hochmodernes Videogenerierungsmodell von Genmo.
Mochi 1 Preview ist ein offenes, hochmodernes Videogenerierungsmodell mit High-Fidelity-Bewegung und starker Soforttreue in der ersten Bewertung. Dieses Modell schließt die Lücke zwischen geschlossenen und offenen Videoerzeugungssystemen dramatisch. Wir veröffentlichen das Modell unter einer freizügigen Apache 2.0-Lizenz. Probieren Sie dieses Modell kostenlos auf unserem Spielplatz aus.
Mit UV installieren:
git clone https://github.com/genmoai/models
cd models
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .
Laden Sie die Gewichte von Hugging Face oder über magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
in einen Ordner auf Ihrem Computer herunter.
Starten Sie die Gradio-Benutzeroberfläche mit
python3 -m mochi_preview.gradio_ui --model_dir " "
Oder generieren Sie Videos direkt aus der CLI mit
python3 -m mochi_preview.infer --prompt " A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere. " --seed 1710977262 --cfg-scale 4.5 --model_dir " "
Ersetzen Sie
durch den Pfad zu Ihrem Modellverzeichnis.
Mochi 1 stellt einen bedeutenden Fortschritt in der Open-Source-Videogenerierung dar und verfügt über ein Diffusionsmodell mit 10 Milliarden Parametern, das auf unserer neuartigen Asymmetric Diffusion Transformer (AsymmDiT)-Architektur basiert. Es wurde komplett von Grund auf trainiert und ist das größte Video-Generativmodell, das jemals offen veröffentlicht wurde. Und das Beste daran ist, dass es sich um eine einfache, hackbare Architektur handelt. Darüber hinaus veröffentlichen wir einen Inferenz-Harness, der eine effiziente kontextparallele Implementierung umfasst.
Gemeinsam mit Mochi stellen wir unser Video AsymmVAE als Open-Source-Lösung zur Verfügung. Wir verwenden eine asymmetrische Encoder-Decoder-Struktur, um ein effizientes Komprimierungsmodell hoher Qualität zu erstellen. Unser AsymmVAE komprimiert Videos kausal auf eine 128-mal kleinere Größe, mit einer räumlichen 8x8- und einer zeitlichen 6-fachen Komprimierung auf einen latenten 12-Kanal-Raum.
Parameter Zählen | Enc-Basis Kanäle | Dez. Basis Kanäle | Latent Schwach | Räumlich Kompression | Zeitlich Kompression |
---|---|---|---|---|---|
362M | 64 | 128 | 12 | 8x8 | 6x |
Ein AsymmDiT verarbeitet Benutzeraufforderungen neben komprimierten Video-Tokens effizient, indem es die Textverarbeitung rationalisiert und die Kapazität des neuronalen Netzwerks auf visuelles Denken konzentriert. AsymmDiT kümmert sich gemeinsam um Text- und visuelle Token mit multimodaler Selbstaufmerksamkeit und lernt separate MLP-Ebenen für jede Modalität, ähnlich wie Stable Diffusion 3. Allerdings hat unser visueller Stream über ein größeres Hidden fast viermal so viele Parameter wie der Textstream Dimension. Um die Modalitäten der Selbstaufmerksamkeit zu vereinheitlichen, verwenden wir nichtquadratische QKV- und Ausgabeprojektionsebenen. Dieses asymmetrische Design reduziert den Bedarf an Inferenzspeicher. Viele moderne Diffusionsmodelle verwenden mehrere vorab trainierte Sprachmodelle, um Benutzereingaben darzustellen. Im Gegensatz dazu kodiert Mochi 1 Eingabeaufforderungen einfach mit einem einzigen T5-XXL-Sprachmodell.
Parameter Zählen | Num Schichten | Num Köpfe | Visuell Schwach | Text Schwach | Visuell Token | Text Token |
---|---|---|---|---|---|---|
10B | 48 | 24 | 3072 | 1536 | 44520 | 256 |
Zum Betrieb des Modells sind mindestens 4 H100-GPUs erforderlich. Wir freuen uns über Beiträge der Community, um diesen Bedarf zu reduzieren.
Genmo-Videomodelle sind allgemeine Text-zu-Video-Diffusionsmodelle, die von Natur aus die in ihren Trainingsdaten gefundenen Vorurteile und Vorurteile widerspiegeln. Obwohl Schritte unternommen wurden, um den NSFW-Inhalt einzuschränken, sollten Organisationen zusätzliche Sicherheitsprotokolle implementieren und sorgfältige Überlegungen anstellen, bevor sie diese Modellgewichte in kommerziellen Diensten oder Produkten einsetzen.
Laut Forschungsvorschau ist Mochi 1 ein lebendiger und sich entwickelnder Kontrollpunkt. Es gibt einige bekannte Einschränkungen. Die erste Version generiert heute Videos mit 480p. In einigen Randfällen mit extremer Bewegung können auch geringfügige Verformungen und Verzerrungen auftreten. Mochi 1 ist auch für fotorealistische Stile optimiert und funktioniert daher bei animierten Inhalten nicht gut. Wir gehen auch davon aus, dass die Community das Modell an verschiedene ästhetische Vorlieben anpassen wird.
@misc{genmo2024mochi,
title={Mochi},
author={Genmo Team},
year={2024}
}