O lançamento do modelo Stable Diffusion 3 marca um grande avanço na geração de texto para imagem. Este modelo usa a mesma arquitetura DiT do Sora e melhora significativamente a qualidade de geração de imagem através de uma série de melhorias técnicas. Seu tamanho de parâmetro varia de 800M a 8B, mostrando forte desempenho e potencial de aplicação flexível. É importante notar que a equipe de P&D do SD3 integra a experiência dos principais membros de P&D da Sora e professores assistentes da NYU e adota a arquitetura MMDiT que é superior ao UViT e DiT, bem como variantes inovadoras de fórmula de Fluxo Retificado (RF), que são Ele fornece uma base sólida para a melhoria do desempenho do modelo.
É lançado o modelo Stable Diffusion 3, usando a mesma arquitetura DiT do Sora, com melhorias significativas de qualidade. Os autores afirmam que o Stable Diffusion 3 supera outros sistemas de geração de texto para imagem, com tamanhos de parâmetros variando de 800M a 8B. A arquitetura SD3 é baseada na colaboração entre os principais membros de P&D da Sora e professores assistentes da Universidade de Nova York, usando a arquitetura MMDiT para ser superior a UViT e DiT. A Difusão Estável 3 adota a fórmula de Fluxo Retificado (RF), e o desempenho da variante de RF reponderada proposta pelo autor continua a melhorar. O modelo é ampliado e aprimorado usando um codificador de texto flexível e seu desempenho é comparado com outros modelos.
O lançamento do Stable Diffusion 3 não reflete apenas o rápido desenvolvimento da tecnologia de geração de texto para imagem, mas também indica que modelos cada vez mais poderosos surgirão no campo da geração de imagens de IA no futuro. Sua arquitetura e algoritmo aprimorados, bem como comparações de desempenho com outros modelos, fornecem referências e referências valiosas para pesquisadores e desenvolvedores. Esperamos que o Stable Diffusion 3 possa desempenhar um papel em mais cenários de aplicação no futuro.