Stability AI lança novo modelo de geração Stable Diffusion 3.5, três versões, velocidade bastante melhorada

Autor：Eve Cole Data da Última Atualização：2024-11-27 20:36:01

O editor de Downcodes soube que Stability AI lançou recentemente seu modelo de geração de texto para imagem Stable Diffusion 3.5, que inclui três versões: Stable Diffusion 3.5 Large, Stable Diffusion 3.5 Large Turbo e Stable Diffusion 3.5 Medium, projetados para atender às necessidades de diferentes usuários, desde profissionais até entusiastas casuais. Esta atualização é a resposta da Stability AI às deficiências das versões anteriores e visa melhorar a sua competitividade e competir com plataformas como DALL-E e Midjourney da OpenAI. O novo modelo apresenta melhorias significativas na qualidade da imagem, velocidade de geração e facilidade de uso, e introduz tecnologia de normalização de chave de consulta para aprimorar a personalização do modelo e a capacidade de resposta aos prompts.

Stability AI lançou recentemente seu mais recente modelo de geração de texto para imagem de aprendizagem profunda - Stable Diffusion3.5. Esta versão inclui três modelos aprimorados de código aberto projetados para atender às necessidades de diferentes usuários, incluindo pesquisadores, clientes empresariais e entusiastas.

Entre eles, Stable Diffusion3.5Large é o modelo mais poderoso de toda a série, com parâmetros de até 8,1 bilhões. Este modelo é ideal para usuários profissionais devido à sua excelente qualidade de imagem e alta capacidade de resposta aos prompts, capaz de produzir imagens de alta qualidade com resoluções de até 1 megapixel.

Além disso, Stable Diffusion3.5Large Turbo é uma versão simplificada do Stable Diffusion3.5Large. Melhora muito a velocidade ao gerar imagens de alta qualidade. São necessárias apenas 4 etapas para concluir a geração da imagem. É mais eficiente que a versão anterior e é adequado para usuários que precisam criar rapidamente.

Outro novo modelo é o Stable Diffusion3.5Medium, que possui 2,5 bilhões de parâmetros. O modelo usa uma arquitetura e método de treinamento MMDiT-X aprimorados e foi projetado para ser usado "pronto para uso" e funcionar perfeitamente, mesmo em hardware de consumo. Alcança um bom equilíbrio entre qualidade de geração de imagem e facilidade de personalização, produzindo imagens de 0,25 a 2 megapixels.

O pano de fundo para este lançamento é que depois que o lançamento do Stable Diffusion3Medium em junho não atendeu às expectativas, a Stability AI decidiu lançar uma solução mais transformadora. A empresa disse que espera recuperar a competitividade do mercado com esta atualização para enfrentar os desafios de plataformas como DALL-E e Midjourney da OpenAI.

Uma importante inovação técnica do novo modelo é a introdução da tecnologia Query-Key Normalization. Essa inovação aprimora a personalização do modelo e a capacidade de resposta aos prompts, permitindo que os usuários obtenham resultados mais consistentes com prompts explícitos, bem como interpretações de imagens mais ricas ao usar prompts mais amplos.

A série de modelos Stable Diffusion3.5 será lançada sob a licença comunitária da Stability AI, permitindo que os usuários a utilizem gratuitamente para uso não comercial. Ao mesmo tempo, entidades com receitas anuais inferiores a 1 milhão de dólares também podem utilizá-lo gratuitamente, e os utilizadores com rendimentos superiores a este precisam de solicitar uma licença empresarial.

Todos os modelos e seus pesos necessários para auto-hospedagem estarão disponíveis nas APIs do Hugging Face e Stability AI. Além disso, espera-se que a funcionalidade ControlNets que fornece opções avançadas de personalização de imagens seja lançada nos próximos dias.

Entrada oficial:

https://stability.ai/stable-image

Três versões da entrada Hugging Face:

https://huggingface.co/stabilityai/stable-diffusion-3.5-large

https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

Resumindo, o lançamento da série Stable Diffusion 3.5 marca um avanço importante na tecnologia de geração de texto para imagem, proporcionando aos usuários mais opções e recursos mais poderosos. O editor do Downcodes espera o surgimento de recursos mais inovadores no futuro.