Le domaine de la génération d'images d'intelligence artificielle évolue chaque jour. Suite à la mise à jour de Midjourney, le modèle open source FLUX.1 est également arrivé. Ses performances surpassent également les modèles fermés tels que DALL·E3 et Midjourney V6. comme la série SD3 de modèles open source, attirant une large attention dans l'industrie. L'éditeur de Downcodes vous fera comprendre en profondeur ce nouveau chef-d'œuvre créé par Robin Rombach, un expert reconnu dans le domaine des modèles de diffusion, ainsi que l'innovation technologique et les perspectives d'avenir qui se cachent derrière.
Dans le domaine de l’intelligence artificielle, des changements perturbateurs peuvent survenir chaque jour. Juste le lendemain de la mise à jour majeure de Midjourney, le domaine de la génération d'images open source a inauguré un cheval noir accrocheur : FLUX.1. Ce nouveau joueur soudain prétend non seulement surpasser considérablement les modèles fermés tels que DALL·E3 et Midjourney V6 en termes de performances, mais tue également toute la série open source SD3, faisant exploser instantanément le cercle de l'IA.
Commençons par connaître le cerveau derrière FLUX.1. Son fondateur, Robin Rombach, n'est pas un inconnu, mais un expert reconnu dans le domaine des modèles de diffusion. Ses travaux représentatifs incluent VQGAN, Taming Transformers et Latent Diffusion. Il a autrefois été scientifique en chef de Stability AI et a dirigé la série de projets de renommée mondiale Stable Diffusion. On peut dire que Robin Rombach est un pilote expérimenté parmi les pilotes expérimentés dans le domaine de la génération d'images IA.
En mars de cette année, en raison de troubles internes chez Stability AI, Robin a choisi de partir. Après quatre mois de travail acharné, il est revenu avec la nouvelle plateforme open source de grands modèles FLUX.1. Ce qui est encore plus surprenant, c’est que dès ses débuts, FLUX.1 a reçu un financement d’amorçage de 32 millions de dollars dirigé par la célèbre institution de capital-risque Andreessen Horowitz. Cela constitue sans aucun doute un coup de pouce pour le développement futur de FLUX.1.
Alors, qu'est-ce qui est si remarquable dans FLUX.1 ? Tout d'abord, il est basé sur l'architecture Vision Transformer, adopte une méthode de formation par correspondance de processus et utilise l'intégration de la position de rotation et des couches d'attention parallèles pour améliorer les performances du modèle et l'efficacité de l'utilisation du matériel. Ce modèle de 12 milliards de paramètres est lancé en trois versions :
Version Pro : utilisée via API, avec les performances les plus puissantes.
Version Dev : Un modèle de distillation guidée non commercial qui hérite de la plupart des performances de la version Pro.
Version Schnell : Un modèle open source qui peut être utilisé commercialement et offre d'excellentes performances.
Selon les données de test de l'équipe FLUX.1, même la version open source de Schnell surpasse Midjourney v6.0 et DALL·E3 (HD) en termes de restauration sémantique du texte, de qualité d'image, de cohérence des actions, de cohérence et de diversité et de modèles grand public. comme SD3-Ultra. FLUX.1 présente des avantages évidents, notamment en intégrant du texte dans des images.
Ici, AIbase a sélectionné plusieurs affichages d'effets de génération officiels pour votre référence :
De vraies photos photographiques
AIbase a testé l'ancien saint patron du chat, et cela n'a posé aucun problème. FLUX.1 a compris les mots d'invite avec plus de précision.
Bien entendu, les ambitions de FLUX.1 ne s’arrêtent évidemment pas là. L'équipe a déclaré que Vincent Picture n'est qu'un début. À l'avenir, ils prévoient également de lancer le modèle Vincent Video pour défier les produits de première ligne tels que Sora, Gen-3 et Luma.
Pour les développeurs et les passionnés d’IA, l’émergence de FLUX.1 constitue sans aucun doute un bénéfice majeur. La version Schnell est entièrement open source et prise en charge par Comfyui. Si vous disposez de plus de 36 Go de mémoire vidéo, vous pouvez même exécuter la version fp16 de t5. Cependant, il convient de noter que t5xxl_fp16.safetensors ou clip_l.safetensors et VAE doivent être téléchargés séparément.
L'émergence de FLUX.1 apporte non seulement un nouvel espoir dans le domaine de la génération d'images d'IA open source, mais injecte également une nouvelle vitalité dans l'ensemble de l'industrie de l'IA. Ses performances puissantes et ses fonctionnalités open source sont susceptibles d’accélérer la popularité et l’innovation de la technologie de génération d’images IA. Pour les utilisateurs ordinaires, cela signifie que nous pourrons bientôt exécuter sur nos ordinateurs personnels des modèles de génération d’images IA qui rivalisent, voire surpassent Midjourney.
Adresse du projet : https://github.com/black-forest-labs/flux
Adresse d'essai : https://replicate.com/black-forest-labs/flux-pro
Flux de travail Comfyui : https://comfyanonymous.github.io/ComfyUI_examples/flux/
Dans l’ensemble, l’émergence de FLUX.1 marque une nouvelle étape dans le domaine de la génération d’images IA open source. Ses puissantes performances et ses fonctionnalités open source favoriseront grandement la popularité et le développement de la technologie de génération d’images IA. Nous attendons avec impatience que FLUX.1 apporte d'autres surprises à l'avenir !