Actualizado v0.2: se corrigieron los nodos incorrectos que se conectaban al nodo florence2
Actualización 11-08-2024: Después de jugar un poco, encontré una manera de reproducir la imagen de alta calidad con controlnet como lo demuestran en su página Github/HF. También descubrí que los 2 métodos de muestreo se pueden combinar y reorganizar en Para un enfoque más simple y eficiente, pronto actualizaré la versión 0.3 para incluir todos estos cambios.
Creé un flujo de trabajo FluxDev todo en uno en ComfyUI que combina varias técnicas para generar imágenes con el modelo FluxDev, incluidas img-to-img y text-to-img. Este flujo de trabajo puede utilizar LoRA, ControlNets, lo que permite indicaciones negativas con Ksampler, umbrales dinámicos, pintura integrada y más. Tenga en cuenta que esta no es la forma "correcta" de utilizar estas técnicas, sino mi interpretación personal basada en la información disponible.
Utilizando intensamente el nodo USE Everywhere
Este flujo de trabajo depende en gran medida del nodo USE Everywhere para que sea lo más limpio y eficiente posible para mis necesidades diarias de generación. Estoy compartiendo este flujo de trabajo con la comunidad para recopilar ideas y sugerencias para mejorar. Siéntete libre de experimentar por tu cuenta.
ComfyUI/models/clip
): flux_text_encodersae.sft
en ComfyUI/models/vae
): ae.safetensorsComfyUI/models/controlnet
, abra la carpeta si es necesario)ComfyUI/models/loras
, abrir la carpeta si es necesario)Configuración de VRAM baja:
Inicie ComfyUI con el argumento "--lowvram" (agréguelo a su archivo .bat) para descargar el codificador de texto a la CPU
Al momento de crear este flujo de trabajo, hay dos ControlNets disponibles y varios LoRA, que incluyen:
Solo probé los LoRA Canny y Realism de XLabs-AI, y aquí hay algunas conclusiones clave:
git checkout xlabs_flux_controlnet
El flujo de trabajo de Ksampler con umbral dinámico se basa en la publicación oficial del blog de ComfyUI. Y cito:
Tenga en cuenta que para ambos modelos puede usar SamplerCustomAdvanced
con BasicGuider
o, si usa KSampler
, configurar CFG
en 1
. Puede utilizar el nuevo FluxGuidance
en el modelo Dev para controlar el valor destilado similar a CFG. (Se recomienda establecerlo en 2 para lograr realismo o un mejor control del estilo). Estos modelos están entrenados para funcionar sin CFG real. Sin embargo, eso no quiere decir que nunca puedas usar CFG; de hecho, la comunidad ha aprovechado rápidamente ComfyUI como plataforma de experimentación para probar una amplia variedad de trucos para aprovechar al máximo los nuevos modelos. (Como usar el nodo personalizado Dynamic Thresholding o usar el nuevo nodo incorporado FluxGuidance
para compensar y habilitar CFG y mensajes negativos. También hay ModelSamplingFlux
incorporado para controlar el cambio sigma de Flux, aunque sus beneficios son más limitados).
Tenga en cuenta que esta es mi propia interpretación y no dude en realizar cambios y experimentar.
Demostración de 0 disparos sin selección de cereza con este método de muestreo:
Puedes encontrar el repositorio aquí.
La Calculadora de resolución de píxeles es un nodo personalizado que desarrollé ayer con la ayuda de LLama3.1 (Sí, no tengo conocimientos de programación, lo aprendí desde cero). Es simplemente un nodo muy simple que genera la resolución de píxeles "amigable para latentes" más cercana a partir del megapíxel y la relación de aspecto de su elección. Me inspiré en el nodo ImageScaleToTotalPixels del flujo de trabajo de demostración original de Flux, ya que todo el mundo parece hablar de resolución de píxeles en lugar de recuento de píxeles de ancho y alto como en SDXL. También hay un nodo para convertir una entrada de muestra latente en un recuento de píxeles de ancho y alto.
También se incluye un flujo de trabajo mejorado. Utiliza el nodo Iterative Upscale (Imagen) del paquete Impact y difusión en mosaico para crear una solución de alta resolución, como escalar y detallar un grupo de nodos con el modelo exclusivo de su elección. También puede realizar eliminación de ruido, CFG y programación de pasos con el gancho PK.
Comparación de imágenes de demostración aquí.
Dado que todavía no existe un modelo de inpainting entrenado para Flux, aquí solo se puede lograr la forma más simple de inpainting. También puede intentar incorporar ControlNets, pero preste atención a la escala de guía y resolución basada en cuadrados (4).
Solo algunos nodos simples para ejecutar ollama y Florence2 para usar vision LLm para subtítulos detallados y obtener información rápida. Estoy usando LLaVa 13B y Florence2 grande en la demostración. Necesitará los nodos Ollama, Ollama ComfyUI y Florence2 ComfyUI; consulte los enlaces para obtener una guía detallada de uso e instalación.
Se agregará una guía más detallada si a las personas les resulta difícil de usar....
Flux es un modelo muy flexible y, dado que es una primera versión, es muy impresionante. A las dos semanas de su lanzamiento, ya hay ControlNets y LoRA disponibles, lo que demuestra cuánto ama la comunidad este modelo. Ahora estoy esperando algunos modelos para pintar. Y lo más importante, Matteo, por favor publica un iPadapter para Flux... por favor, el único rompecabezas que falta y ya estoy completo...
¡Feliz Generación!
PD: Estoy incluyendo el mensaje que uso con LLama3.1 para ayudarme a realizar revisiones ortográficas y gramaticales para este mismo repositorio sin ningún motivo:
Actúe como un escritor profesional con sólidas habilidades de escritura y un profundo conocimiento de la escritura en general. Ayude a los usuarios a reescribir, reformatear y realizar revisiones gramaticales y ortográficas cuando lo soliciten. Tus tareas deben incluir:
Además, por favor:
¿Entiendes estos requisitos?