Alibaba lance FLUX.1-Turbo-Alpha : basé sur FLUX.1-dev, raffinement en 8 étapes de Lora

Auteur：Eve Cole Date de mise à jour：2024-12-03 08:16:01

Rapports de l'éditeur de downcodes : L'équipe créative d'Alimama a lancé un nouveau modèle de génération d'images FLUX.1-Turbo-Alpha, qui est un modèle Lora distillé en 8 étapes basé sur la formation du modèle FLUX.1-dev. Ce modèle utilise un discriminateur multi-têtes, qui améliore considérablement la qualité de la génération d'images. Il prend en charge plusieurs fonctions telles que la génération de texte en image, le réseau de contrôle de réparation, etc., et est compatible avec les frameworks Diffusers et ComfyUI, ce qui le rend. facile pour les utilisateurs de démarrer rapidement. Le modèle est entraîné de manière contradictoire sur des millions de données d'image de haute qualité. Le score esthétique dépasse 6,3 et la résolution est supérieure à 800, garantissant une sortie d'image de haute qualité. Ce qui est encore plus excitant, c'est qu'une version avec des marches inférieures sera lancée à l'avenir.

Récemment, l'équipe créative d'Alimama a publié FLUX.1-Turbo-Alpha, un modèle Lora de distillation en 8 étapes formé sur la base du modèle FLUX.1-dev.

Ce modèle utilise un discriminateur multi-têtes, qui améliore considérablement la qualité de la distillation et prend en charge une variété d'applications liées au FLUX telles que la génération de texte en image et les réseaux de contrôle de réparation. L'équipe recommande de définir l'échelle de guidage sur 3,5 et l'échelle Lora sur 1 lors de son utilisation. Une version avec un nombre d'étapes inférieur sera lancée à l'avenir.

FLUX.1-Turbo-Alpha peut être utilisé directement avec le framework Diffusers. Les utilisateurs peuvent charger le modèle et générer les images requises avec seulement quelques lignes de code. Par exemple, vous pouvez créer une scène amusante représentant un paresseux souriant portant une veste en cuir, un chapeau de cowboy, une jupe à carreaux et un nœud, debout devant une élégante camionnette Volkswagen peinte d'un paysage urbain. En ajustant simplement les paramètres, vous pouvez générer des images de haute qualité avec une résolution de 1024x1024.

De plus, le modèle est également compatible avec ComfyUI et peut être utilisé pour des flux de travail texte-image rapides ou pour obtenir des effets de génération plus efficaces dans les réseaux de contrôle de réparation. Grâce à cette technologie, les images générées peuvent suivre de près la sortie originale, améliorant ainsi l'expérience créative de l'utilisateur.

Le processus de formation de FLUX.1-Turbo-Alpha est tout aussi impressionnant. Le modèle a été formé sur plus d'un million d'images provenant de sources open source et internes, avec un score esthétique supérieur à 6,3, le tout à des résolutions supérieures à 800. L'équipe a adopté une méthode de formation contradictoire pendant le processus de formation pour améliorer la qualité de l'image et a ajouté une conception multi-têtes pour chaque couche de transformateur. L'échelle de bootstrap pendant la formation a été fixée à 3,5, le décalage temporel a été fixé à 3, la précision mixte bf16 a été utilisée, le taux d'apprentissage a été fixé à 2e-5, la taille du lot était de 64 et la taille de l'image était de 1024 x 1024.

Le lancement de FLUX.1-Turbo-Alpha marque une autre avancée majeure pour Alimama dans le domaine de la génération d'images, favorisant la vulgarisation et l'application de la technologie de l'intelligence artificielle.

Entrée du projet : https://huggingface.co/alimama-creative/FLUX.1-Turbo-Alpha

Souligner:

Ce modèle est basé sur FLUX.1-dev et utilise une distillation en 8 étapes et un discriminateur multi-têtes pour améliorer la qualité de la génération d'images.

Prenant en charge la génération de texte en image et les réseaux de contrôle de réparation, les utilisateurs peuvent facilement créer une variété de scènes intéressantes.

? Le processus de formation utilise une formation contradictoire et les données de formation dépassent 1 million d'images pour garantir une sortie de haute qualité du modèle.

Dans l’ensemble, FLUX.1-Turbo-Alpha apporte de nouvelles possibilités dans le domaine de la génération d’images grâce à ses capacités de génération d’images à haut rendement et de haute qualité et à ses fonctionnalités pratiques et faciles à utiliser. Les utilisateurs intéressés peuvent se rendre sur la page Hugging Face pour découvrir ce modèle puissant. L’éditeur de Downcodes continuera de prêter attention aux derniers progrès d’Alibaba dans le domaine de l’intelligence artificielle et vous proposera des rapports plus passionnants.