Este é um fork de trabalho em andamento do modelo txt2video da Genmoai otimizado para rodar em um único nó de GPU com VRAM reduzido.
É bastante capaz com 48 GB, mas agora deve funcionar com uma única GPU de 24 GB.
Não exceda 61 quadros e tente 640x480. VRAM usa principalmente escalas com contagem e resolução de quadros. As etapas de inferência não devem alterar o uso de VRAM, mas o tempo necessário para criar um vídeo é dimensionado com etapas. 100 passos parecem bons e provavelmente levarão de 15 a 25 minutos. A fonte original usou 200 etapas, mas isso levará o dobro do tempo.
O Windows ainda não foi testado, mas provavelmente pode funcionar? ¯ (ツ) /¯
Se o seu sistema já estiver usando VRAM para executar um desktop, pode ser necessário diminuir ainda mais as configurações.
Principalmente apenas mudando vae, te, dit, etc. para frente e para trás para a CPU quando não é necessário e usando bfloat16 em todos os lugares. Isso pode exigir uma quantidade significativa de RAM do sistema (~64 GB) ou pode ser extremamente lento se for necessário reverter para o uso do arquivo de paginação se a RAM do sistema for <= 32G, já que T5 e o DIT ainda são bastante grandes. O tempo para mover os modelos para frente e para trás é bastante pequeno em relação ao tempo de inferência gasto nas etapas do DIT.
Otimização adicional... Talvez bitsandbytes NF4. Isso pode reduzi-lo para 16 GB ou menos, desde que não prejudique a qualidade da saída. Posso tentar ver se consigo injetar uma imagem do primeiro quadro para fazer img2video.
Blogue | Abraçando o rosto | Parque infantil | Carreiras
Um modelo de geração de vídeo de última geração da Genmo.
A visualização do Mochi 1 é um modelo aberto de geração de vídeo de última geração com movimento de alta fidelidade e forte adesão imediata na avaliação preliminar. Este modelo preenche drasticamente a lacuna entre os sistemas de geração de vídeo fechados e abertos. Estamos lançando o modelo sob uma licença permissiva Apache 2.0. Experimente este modelo gratuitamente em nosso playground.
Instale usando UV:
git clone https://github.com/genmoai/models
cd models
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .
Baixe os pesos de Hugging Face ou via magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
para uma pasta em seu computador.
Inicie a IU gradio com
python3 -m mochi_preview.gradio_ui --model_dir " "
Ou gere vídeos diretamente da CLI com
python3 -m mochi_preview.infer --prompt " A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere. " --seed 1710977262 --cfg-scale 4.5 --model_dir " "
Substitua
pelo caminho para o diretório do seu modelo.
Mochi 1 representa um avanço significativo na geração de vídeo de código aberto, apresentando um modelo de difusão de 10 bilhões de parâmetros construído em nossa nova arquitetura AsymmDiT (Transformador de difusão assimétrica). Treinado inteiramente do zero, é o maior modelo gerador de vídeo já lançado abertamente. E o melhor de tudo é que é uma arquitetura simples e hackeável. Além disso, estamos lançando um equipamento de inferência que inclui uma implementação paralela de contexto eficiente.
Juntamente com Mochi, estamos abrindo o código-fonte de nosso vídeo AsymmVAE. Usamos uma estrutura codificador-decodificador assimétrica para construir um modelo de compressão eficiente e de alta qualidade. Nosso AsymmVAE comprime vídeos causalmente para um tamanho 128x menor, com uma compressão espacial de 8x8 e uma compressão temporal de 6x para um espaço latente de 12 canais.
Parâmetros Contar | Base Enc. Canais | Base de dezembro Canais | Latente Escurecer | Espacial Compressão | Temporal Compressão |
---|---|---|---|---|---|
362 milhões | 64 | 128 | 12 | 8x8 | 6x |
Um AsymmDiT processa com eficiência os prompts do usuário junto com tokens de vídeo compactados, simplificando o processamento de texto e concentrando a capacidade da rede neural no raciocínio visual. AsymmDiT atende conjuntamente tokens de texto e visuais com autoatenção multimodal e aprende camadas MLP separadas para cada modalidade, semelhante ao Stable Diffusion 3. No entanto, nosso fluxo visual tem quase 4 vezes mais parâmetros que o fluxo de texto por meio de um fluxo oculto maior. dimensão. Para unificar as modalidades de autoatenção, usamos QKV não quadrado e camadas de projeção de saída. Este design assimétrico reduz os requisitos de memória de inferência. Muitos modelos de difusão modernos usam vários modelos de linguagem pré-treinados para representar prompts do usuário. Em contraste, o Mochi 1 simplesmente codifica prompts com um único modelo de linguagem T5-XXL.
Parâmetros Contar | Núm. Camadas | Núm. Cabeças | Visual Escurecer | Texto Escurecer | Visual Fichas | Texto Fichas |
---|---|---|---|---|---|---|
10B | 48 | 24 | 3072 | 1536 | 44520 | 256 |
O modelo requer pelo menos 4 GPUs H100 para funcionar. Agradecemos contribuições da comunidade para reduzir esse requisito.
Os modelos de vídeo Genmo são modelos gerais de difusão de texto para vídeo que refletem inerentemente os preconceitos e preconceitos encontrados em seus dados de treinamento. Embora tenham sido tomadas medidas para limitar o conteúdo NSFW, as organizações devem implementar protocolos de segurança adicionais e considerar cuidadosamente antes de implementar estes pesos de modelo em quaisquer serviços ou produtos comerciais.
De acordo com a prévia da pesquisa, Mochi 1 é um posto de controle vivo e em evolução. Existem algumas limitações conhecidas. A versão inicial gera vídeos em 480p hoje. Em alguns casos extremos com movimento extremo, também podem ocorrer pequenas deformações e distorções. O Mochi 1 também é otimizado para estilos fotorrealistas, portanto não funciona bem com conteúdo animado. Também prevemos que a comunidade ajustará o modelo para atender às diversas preferências estéticas.
@misc{genmo2024mochi,
title={Mochi},
author={Genmo Team},
year={2024}
}