Atualizado v0.2: corrigidos nós errados conectando-se ao nó florence2
Atualização 11/08/2024: Depois de mexer um pouco, encontrei uma maneira de reproduzir a imagem de alta qualidade com controlnet conforme eles demonstram em sua página Github/HF, também descobri que os 2 métodos de amostragem podem ser combinados e reorganizados em uma abordagem mais simples e eficiente, atualizarei a v0.3 em breve para incluir todas essas mudanças.
Criei um fluxo de trabalho FluxDev All-in-One no ComfyUI que combina várias técnicas para gerar imagens com o modelo FluxDev, incluindo img-to-img e text-to-img. Este fluxo de trabalho pode usar LoRAs, ControlNets, permitindo prompts negativos com Ksampler, limite dinâmico, pintura interna e muito mais. Observe que esta não é a forma “correta” de usar essas técnicas, mas sim minha interpretação pessoal baseada nas informações disponíveis.
Utilizando fortemente o nó USE Everywhere
Este fluxo de trabalho depende muito do nó USE Everywhere para torná-lo o mais limpo e eficiente possível para minhas necessidades diárias de geração. Estou compartilhando esse fluxo de trabalho com a comunidade para reunir insights e sugestões de melhorias. Sinta-se à vontade para experimentar por conta própria.
ComfyUI/models/clip
): flux_text_encodersae.sft
em ComfyUI/models/vae
): ae.safetensorsComfyUI/models/controlnet
, abra a pasta se necessário)ComfyUI/models/loras
, abra a pasta se necessário)Configuração de VRAM baixa:
Inicie o ComfyUI com o argumento "--lowvram" (adicione ao seu arquivo .bat) para descarregar o codificador de texto para a CPU
No momento da criação deste fluxo de trabalho, existem dois ControlNets e vários LoRAs disponíveis, incluindo:
Eu testei apenas os LoRAs Canny e Realism do XLabs-AI, e aqui estão algumas conclusões importantes:
git checkout xlabs_flux_controlnet
O fluxo de trabalho do Ksampler com limite dinâmico é baseado na postagem oficial do blog ComfyUI. E cito:
Observe que para ambos os modelos você pode usar SamplerCustomAdvanced
com BasicGuider
ou, se usar KSampler
, definir CFG
como 1
. Você pode usar o novo FluxGuidance
no modelo Dev para controlar o valor destilado do tipo CFG. (Definir como 2 é recomendado para realismo ou melhor controle de estilo) Esses modelos são treinados para funcionar sem CFG real. Isso não quer dizer que você nunca poderá usar CFG - na verdade, a comunidade rapidamente aproveitou o ComfyUI como uma plataforma de experimentação para testar uma ampla variedade de truques para aproveitar ao máximo os novos modelos. (Como usar o nó personalizado Dynamic Thresholding ou usar o novo nó integrado FluxGuidance
para compensar e ativar CFG e prompt negativo. Há também ModelSamplingFlux
integrado para controlar a mudança sigma do Flux, embora seus benefícios sejam mais limitados.)
Tenha em mente que esta é minha própria interpretação e sinta-se à vontade para fazer alterações e experimentar.
Demonstração sem escolha de cereja com 0 tiros com este método de amostragem:
Você pode encontrar o repositório aqui.
A Calculadora de Resolução de Pixel é um nó customizado que desenvolvi ontem com a ajuda do LLama3.1 (sim, não tenho habilidades de programação, aprendi do zero no caminho). É apenas um nó muito simples que gera a resolução de pixel "amigável à latente" mais próxima do megapixel e da proporção de aspecto de sua escolha. Inspirei-me no nó ImageScaleToTotalPixels do fluxo de trabalho de demonstração original do Flux, já que todo mundo parece falar sobre resolução de pixels em vez de contagem de pixels de largura e altura como no SDXL. Há também um nó para converter uma entrada de amostra latente em contagem de pixels de largura e altura.
Um fluxo de trabalho de upscaling também está incluído. Ele usa o nó Iterative Upscale (Image) do pacote Impact e difusão lado a lado para criar uma correção de alta resolução, como upscaling e detalhamento do grupo de nós com o modelo upscale de sua escolha. Você também pode fazer denoise, CFG e agendamento de etapas com o gancho PK.
Imagem de demonstração compare aqui.
Como ainda não existe um modelo de pintura interna treinado para Flux, apenas a forma mais simples de pintura interna pode ser alcançada aqui. Você também pode tentar incorporar ControlNets, mas preste atenção à resolução quadrada e à escala de orientação (4) .
Apenas alguns nós simples para executar ollama e Florence2 para usar o vision LLm para legendas de detalhes e para obter insights imediatos, estou usando LLaVa 13B e Florence2 grande na demonstração. Você precisará dos nós Ollama, Ollama ComfyUI e Florence2 ComfyUI, veja os links para uso detalhado e guia de instalação.
Um guia mais detalhado será adicionado se as pessoas acharem difícil de usar....
Flux é um modelo muito flexível e, por ser uma primeira versão, é muito impressionante. Duas semanas após o lançamento, já existem ControlNets e LoRAs disponíveis, o que mostra o quanto a comunidade adora este modelo. Agora estou ansioso por alguns modelos de pintura. E o mais importante, Matteo, por favor, libere um iPadapter para Flux... por favor, o quebra-cabeça que falta e estou completo....
Feliz geração!
PS: Estou incluindo o prompt que uso com LLama3.1 para me ajudar a fazer verificações ortográficas e gramaticais neste mesmo repositório sem motivo:
Atue como um escritor profissional com um forte conjunto de habilidades de escrita e um profundo conhecimento da escrita em geral. Ajude os usuários a reescrever, reformatar e realizar verificações gramaticais e ortográficas mediante solicitação. Suas tarefas devem incluir:
Além disso, por favor:
Você entende esses requisitos?