人工知能画像生成の分野は日々変化しており、Midjourneyのアップデートを受けて、DALL・E3やMidjourney V6などのクローズドソースモデルをも上回る性能と言われるFLUX.1が登場しました。オープンソースモデルのSD3シリーズとして業界で注目を集めています。ダウンコードの編集者は、拡散モデルの分野における権威ある専門家であるロビン・ロンバックによって作成されたこの新しい傑作と、その背後にある技術革新と将来の展望について深く理解することができます。
人工知能の分野では、破壊的な変化が毎日起こる可能性があります。 Midjourney のメジャー アップデートの翌日、オープンソース画像生成の分野に、目を引くダークホース FLUX.1 が登場しました。この突然の新しいプレーヤーは、パフォーマンスの点で DALL・E3 や Midjourney V6 などのクローズドソース モデルを大幅に上回ると主張するだけでなく、オープンソースの SD3 シリーズ全体を破壊し、AI サークルを瞬時に爆発させます。
まずは FLUX.1 の背後にある黒幕について知りましょう。その創設者である Robin Rombach は無名ではなく、拡散モデルの分野における権威ある専門家です。彼の代表的な作品には、VQGAN、Taming Transformers、Latent Diffusion などがあります。彼はかつて Stability AI のチーフサイエンティストを務め、世界的に有名な Stable Diffusion シリーズのプロジェクトを率いていました。ロビン・ロンバックは、AI画像生成の分野ではベテラン中のベテランドライバーと言える。
今年 3 月、Stability AI の内部混乱により、ロビンは退職を選択しました。 4 か月にわたる懸命な作業の後、彼は新しいオープンソースの大規模モデル プラットフォーム FLUX.1 を携えて戻ってきました。さらに驚くべきことは、FLUX.1 がデビュー時に、有名なベンチャー キャピタル機関である Andreessen Horowitz 主導のシード ラウンドで 3,200 万米ドルの資金調達を受けたことです。これは間違いなく、FLUX.1 の将来の開発を後押しします。
では、FLUX.1 の何が優れているのでしょうか? まず第一に、Vision Transformer アーキテクチャに基づいており、プロセス マッチング トレーニング手法を採用し、回転位置埋め込みと並列アテンション レイヤーを使用してモデルのパフォーマンスとハードウェア利用効率を向上させています。この 120 億パラメータ モデルは、次の 3 つのバージョンでリリースされます。
Pro バージョン: API を通じて使用され、最も強力なパフォーマンスが得られます。
Dev バージョン: Pro バージョンのパフォーマンスの大部分を継承する非商用のガイド付き蒸留モデル。
Schnell バージョン:商用利用可能でパフォーマンスに優れたオープンソース モデル。
FLUX.1 チームのテスト データによると、オープン ソースの Schnell バージョンでも、テキスト セマンティック復元、画質、アクションの一貫性、一貫性と多様性、主流モデルの点で Midjourney v6.0 や DALL・E3 (HD) を上回っています。 SD3-Ultraなど。特に画像にテキストを埋め込む場合、FLUX.1 は明らかな利点を示します。
ここでは、AIbase が参考のためにいくつかの公式生成エフェクト表示を選択しました。
本物の写真の写真
AIbase は以前の猫の守護聖人をテストしましたが、FLUX.1 はプロンプトの言葉をより正確に理解しました。
もちろん、FLUX.1 の野心は明らかにそこで止まりません。チームは、Vincent Picture はほんの始まりに過ぎず、将来的には、Sora、Gen-3、Luma などの第一線の製品に挑戦するための Vincent Video モデルも発売する予定であると述べています。
開発者や AI 愛好家にとって、FLUX.1 の登場は間違いなく大きなメリットです。 Schnell バージョンは完全にオープンソースであり、Comfyui によってサポートされています。 36G を超えるビデオ メモリがある場合は、t5 の fp16 バージョンを実行することもできます。ただし、t5xxl_fp16.safetensors または Clip_l.safetensors と VAE は個別にダウンロードする必要があることに注意してください。
FLUX.1 の登場は、オープンソース AI 画像生成の分野に新たな希望をもたらすだけでなく、AI 業界全体に新たな活力を注入します。その強力なパフォーマンスとオープンソース機能により、AI 画像生成テクノロジーの人気と革新が加速すると考えられます。これは一般ユーザーにとって、Midjourney に匹敵する、あるいはそれを超える AI 画像生成モデルを家庭用コンピューターで実行できるようになるかもしれないことを意味します。
プロジェクトアドレス: https://github.com/black-forest-labs/flux
トライアルアドレス: https://replicate.com/black-forest-labs/flux-pro
Comfyui ワークフロー: https://comfyanonymous.github.io/ComfyUI_examples/flux/
全体として、FLUX.1 の登場は、オープンソース AI 画像生成の分野における新たな段階を迎え、その強力なパフォーマンスとオープンソース機能により、AI 画像生成テクノロジーの普及と発展が大きく促進されることになります。 FLUX.1 が今後さらに驚きをもたらすことを楽しみにしています。