O campo da geração de imagens de inteligência artificial está mudando a cada dia que passa. Após a atualização do Midjourney, chegou o modelo de código aberto FLUX.1. Seu desempenho também supera os modelos de código fechado, como DALL·E3 e Midjourney V6. como a série SD3 de modelos de código aberto, atraindo ampla atenção na indústria. O editor de Downcodes lhe dará uma compreensão aprofundada desta nova obra-prima criada por Robin Rombach, um especialista respeitado na área de modelos de difusão, bem como a inovação tecnológica e as perspectivas futuras por trás dela.
No campo da inteligência artificial, mudanças disruptivas podem ocorrer todos os dias. Apenas um dia após a grande atualização do Midjourney, o campo de geração de imagens de código aberto inaugurou um atraente azarão-FLUX.1. Este novo player repentino não apenas afirma superar significativamente modelos de código fechado como DALL·E3 e Midjourney V6 em termos de desempenho, mas também mata toda a série SD3 de código aberto, detonando instantaneamente o círculo de IA.
Vamos primeiro conhecer o cérebro por trás do FLUX.1. Seu fundador, Robin Rombach, não é um desconhecido, mas um especialista respeitado na área de modelos de difusão. Seus trabalhos representativos incluem VQGAN, Taming Transformers e Latent Diffusion. Ele já atuou como cientista-chefe da Stability AI e liderou a série de projetos de renome mundial Stable Diffusion. Pode-se dizer que Robin Rombach é um motorista experiente entre os motoristas experientes na área de geração de imagens de IA.
Em março deste ano, devido a turbulências internas na Stability AI, Robin optou por sair. Após quatro meses de trabalho árduo, ele voltou com a nova plataforma de código aberto para grandes modelos FLUX.1. O que é ainda mais surpreendente é que, na sua estreia, o FLUX.1 recebeu uma ronda inicial de financiamento de 32 milhões de dólares liderada pela conhecida instituição de capital de risco Andreessen Horowitz. Isto sem dúvida proporciona um impulso para o desenvolvimento futuro do FLUX.1.
Então, o que há de tão notável no FLUX.1? Em primeiro lugar, ele é baseado na arquitetura Vision Transformer, adota um método de treinamento de correspondência de processos e usa incorporação de posição de rotação e camadas de atenção paralelas para melhorar o desempenho do modelo e a eficiência da utilização de hardware. Este modelo de 12 bilhões de parâmetros é lançado em três versões:
Versão Pro: utilizada através de API, com desempenho mais poderoso.
Versão Dev: Um modelo de destilação guiada não comercial que herda a maior parte do desempenho da versão Pro.
Versão Schnell: Um modelo de código aberto que pode ser usado comercialmente e possui excelente desempenho.
De acordo com os dados de teste da equipe FLUX.1, até mesmo a versão Schnell de código aberto supera Midjourney v6.0 e DALL·E3 (HD) em termos de restauração semântica de texto, qualidade de imagem, consistência de ação, coerência e diversidade e modelos convencionais. como SD3-Ultra. Especialmente na incorporação de texto em imagens, o FLUX.1 apresenta vantagens óbvias.
Aqui, o AIbase selecionou vários displays oficiais de efeitos de geração para sua referência:
Fotos reais de fotografia
AIbase testou o santo padroeiro anterior e não houve problema algum. FLUX.1 entendeu as palavras imediatas com mais precisão.
É claro que as ambições do FLUX.1 não param por aí. A equipe disse que Vincent Picture é apenas o começo. No futuro, eles também planejam lançar o modelo Vincent Video para desafiar produtos de primeira linha como Sora, Gen-3 e Luma.
Para desenvolvedores e entusiastas de IA, o surgimento do FLUX.1 é sem dúvida um grande benefício. A versão Schnell é totalmente open source e suportada pela Comfyui. Se você tiver mais de 36G de memória de vídeo, poderá até executar a versão fp16 do t5. No entanto, deve-se observar que t5xxl_fp16.safetensors ou clip_l.safetensors e VAE precisam ser baixados separadamente.
O surgimento do FLUX.1 não só traz uma nova esperança ao campo da geração de imagens de IA de código aberto, mas também injeta uma nova vitalidade em toda a indústria de IA. Seu poderoso desempenho e recursos de código aberto provavelmente acelerarão a popularidade e a inovação da tecnologia de geração de imagens de IA. Para usuários comuns, isso significa que em breve poderemos executar modelos de geração de imagens de IA em nossos computadores domésticos que rivalizem ou até superem o Midjourney.
Endereço do projeto: https://github.com/black-forest-labs/flux
Endereço de teste: https://replicate.com/black-forest-labs/flux-pro
Fluxo de trabalho Comfyui: https://comfyanonymous.github.io/ComfyUI_examples/flux/
Em suma, o surgimento do FLUX.1 marca uma nova etapa no campo da geração de imagens de IA de código aberto. Seu desempenho poderoso e recursos de código aberto promoverão enormemente a popularidade e o desenvolvimento da tecnologia de geração de imagens de IA. Esperamos que o FLUX.1 traga mais surpresas no futuro!