ByteDance の商用化テクノロジー チームは、最新開発の Vincent グラフ モデル Infinity をオープンソース化しました。このモデルは、Stable Diffusion 3 や LlamaGen などの多くの業界をリードするモデルを超え、画像生成の品質と推論速度において大幅な進歩を遂げました。 Infinity モデルの中核となるイノベーションは、独自の Bitwise Token 自己回帰フレームワークと無限のボキャブラリにあり、これによりモデルは画像の詳細をより詳細にキャプチャし、生成された画像の品質とパフォーマンスの上限を大幅に向上させることができます。この記事では、Infinityモデルの技術内容や性能、オープンソースの状況などを詳しく紹介します。
人工知能の分野では、ByteDance の商用化テクノロジー チームの最新成果である Infinity モデルが、その優れたパフォーマンスと革新的なテクノロジーにより、自己回帰ヴィンセント グラフの分野で新たな王者となりました。この新しいオープンソース モデルは、画像生成品質において Stable Diffusion3 を上回るだけでなく、推論速度においても大きな利点を示しています。
Infinity モデルの核となる革新は、ビットワイズ トークン自己回帰フレームワークの採用であり、このフレームワークは、次の +1 または -1 で構成されるきめの細かい「ビットワイズ トークン」を予測することにより、高周波信号を検出するモデルの能力を大幅に向上させます。解像度のレベルが向上し、より詳細な画像が得られます。さらに、Infinity モデルは語彙を無限に拡張し、Image tokenizer の表現空間を大幅に拡張し、自己回帰ベノグラムのパフォーマンス上限を向上させます。
性能比較では、Infinity モデルは自己回帰手法の中でも傑出したパフォーマンスを示し、HART、LlamaGen、Emu3 などの手法をはるかに上回り、人間による評価では 90% 近い勝率で HART モデルを破りました。同時に、Infinity は PixArt-Sigma、SD-XL、SD3-Meidum などの SOTA の普及モデルにも 75%、80%、65% の勝率で勝利し、同じサイズのモデル間での優位性を証明しました。 。
Infinity モデルのもう 1 つの大きな特徴は、優れたスケーリング特性です。モデルのサイズが大きくなり、トレーニング リソースが投資されるにつれて、検証セットの損失は着実に減少し、検証セットの精度は着実に増加します。さらに、Infinity は、モデルの自己修正能力を強化し、自己回帰推論中の累積誤差の問題を軽減するビット自己修正テクノロジも提案しました。
推論速度の点では、Infinity は VAR の速度の利点を継承しており、2B モデルで 1024x1024 の画像を生成するのにかかる時間はわずか 0.8 秒で、これは同じサイズの SD3-Medium よりも 3 倍、12B Flux Dev よりも 14 倍高速です。 。 8B モデルは、同じサイズの SD3.5 よりも 7 倍高速です。20B モデルは、1024x1024 画像の生成に 3 秒かかります。これは、12B Flux Dev よりもほぼ 4 倍高速です。
現在、Infinity モデルのトレーニングおよび推論コード、デモ、モデルの重みが GitHub ウェアハウスで公開されており、ユーザーがモデルの効果を試して評価しやすいように Web サイト エクスペリエンスも提供されています。
プロジェクトページ: https://foundationvision.github.io/infinity.project/
全体として、Infinity モデルは、その高度な技術アーキテクチャ、優れたパフォーマンス、便利なオープンソース手法により、自己回帰ヴィンセント グラフの分野に新たなブレークスルーをもたらしており、注目と更なる研究に値します。効率的な推論速度と高品質の画像生成機能により、実用的なアプリケーションで大きな可能性をもたらします。