Blogue | Abraçando o rosto | Parque infantil | Carreiras
Um modelo de geração de vídeo de última geração da Genmo.
A visualização do Mochi 1 é um modelo aberto de geração de vídeo de última geração com movimento de alta fidelidade e forte adesão imediata na avaliação preliminar. Este modelo preenche drasticamente a lacuna entre os sistemas de geração de vídeo fechados e abertos. Estamos lançando o modelo sob uma licença permissiva Apache 2.0. Experimente este modelo gratuitamente em nosso playground.
Instale usando UV:
clone git https://github.com/genmoai/modelscd modelos pip instalar uv uv venv .venvsource .venv/bin/ativar uv pip instalar ferramentas de configuração uv pip instalar -e. --no-build-isolamento
Se você deseja instalar o Flash Attention, você pode usar:
uv pip install -e .[flash] --no-build-isolation
Você também precisará instalar o FFMPEG para transformar suas saídas em vídeos.
Use download_weights.py para baixar o modelo + decodificador para um diretório local. Use assim:
python3 ./scripts/download_weights.py
Ou baixe diretamente os pesos de Hugging Face ou via magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
para uma pasta em seu computador.
Inicie a IU gradio com
python3 ./demos/gradio_ui.py --model_dir ""
Ou gere vídeos diretamente da CLI com
python3 ./demos/cli.py --model_dir ""
Substitua
pelo caminho para o diretório do seu modelo.
Este repositório vem com uma API simples e combinável, para que você possa chamar o modelo programaticamente. Você pode encontrar um exemplo completo aqui. Mas, aproximadamente, é assim:
da importação genmo.mochi_preview.pipelines ( DecoderModelFactory, DitModelFactory, MochiSingleGPUPipeline, T5ModelFactory, linear_quadratic_schedule, )pipeline = MochiSingleGPUPipeline( text_encoder_factory=T5ModelFactory(), dit_factory=DitModelFactory( model_path=f"{MOCHI_DIR}/dit.safetensors", model_dtype="bf16" ), decoder_factory=DecoderModelFactory( model_path=f"{MOCHI_DIR}/vae.safetensors", ), cpu_offload=True, decode_type="tiled_full", )video = pipeline( height=480, width=848, num_frames=31, num_inference_steps=64, sigma_schedule=linear_quadratic_schedule(64, 0.025), cfg_schedule=[4.5] * 64, batch_cfg=False, prompt="seu prompt favorito aqui. ..", prompt_negativo="", semente=12345, )
Mochi 1 representa um avanço significativo na geração de vídeo de código aberto, apresentando um modelo de difusão de 10 bilhões de parâmetros construído em nossa nova arquitetura AsymmDiT (Transformador de difusão assimétrica). Treinado inteiramente do zero, é o maior modelo gerador de vídeo já lançado abertamente. E o melhor de tudo é que é uma arquitetura simples e hackeável. Além disso, estamos lançando um equipamento de inferência que inclui uma implementação paralela de contexto eficiente.
Juntamente com Mochi, estamos abrindo o código-fonte de nosso vídeo AsymmVAE. Usamos uma estrutura codificador-decodificador assimétrica para construir um modelo de compressão eficiente e de alta qualidade. Nosso AsymmVAE comprime vídeos causalmente para um tamanho 128x menor, com uma compressão espacial de 8x8 e uma compressão temporal de 6x para um espaço latente de 12 canais.
Parâmetros Contar | Base Enc. Canais | Base de dezembro Canais | Latente Escurecer | Espacial Compressão | Temporal Compressão |
---|---|---|---|---|---|
362 milhões | 64 | 128 | 12 | 8x8 | 6x |
Um AsymmDiT processa com eficiência os prompts do usuário junto com tokens de vídeo compactados, simplificando o processamento de texto e concentrando a capacidade da rede neural no raciocínio visual. AsymmDiT atende conjuntamente tokens de texto e visuais com autoatenção multimodal e aprende camadas MLP separadas para cada modalidade, semelhante ao Stable Diffusion 3. No entanto, nosso fluxo visual tem quase 4 vezes mais parâmetros que o fluxo de texto por meio de um fluxo oculto maior. dimensão. Para unificar as modalidades de autoatenção, usamos QKV não quadrado e camadas de projeção de saída. Este design assimétrico reduz os requisitos de memória de inferência. Muitos modelos de difusão modernos usam vários modelos de linguagem pré-treinados para representar prompts do usuário. Em contraste, o Mochi 1 simplesmente codifica prompts com um único modelo de linguagem T5-XXL.
Parâmetros Contar | Núm. Camadas | Núm. Cabeças | Visual Escurecer | Texto Escurecer | Visual Fichas | Texto Fichas |
---|---|---|---|---|---|---|
10B | 48 | 24 | 3072 | 1536 | 44520 | 256 |
O modelo requer pelo menos 4 GPUs H100 para funcionar. Agradecemos contribuições da comunidade para reduzir esse requisito.
Os modelos de vídeo Genmo são modelos gerais de difusão de texto para vídeo que refletem inerentemente os preconceitos e preconceitos encontrados em seus dados de treinamento. Embora tenham sido tomadas medidas para limitar o conteúdo NSFW, as organizações devem implementar protocolos de segurança adicionais e considerar cuidadosamente antes de implementar estes pesos de modelo em quaisquer serviços ou produtos comerciais.
De acordo com a prévia da pesquisa, Mochi 1 é um posto de controle vivo e em evolução. Existem algumas limitações conhecidas. A versão inicial gera vídeos em 480p hoje. Em alguns casos extremos com movimento extremo, também podem ocorrer pequenas deformações e distorções. O Mochi 1 também é otimizado para estilos fotorrealistas, portanto não funciona bem com conteúdo animado. Também prevemos que a comunidade ajustará o modelo para atender às diversas preferências estéticas.
ComfyUI-MochiWrapper adiciona suporte ComfyUI para Mochi. A atenção da integração do SDPA do Pytorch foi retirada de seu repositório.
@misc{genmo2024mochi, title={Mochi}, author={Genmo Team}, year={2024} }