香港大学とbytedanceが共同で開発した自己回帰画像生成モデルであるLlamagenは、画像生成の分野で革命を開始しています。ラマアーキテクチャに基づいた革新的な作業として、それはテクノロジーにおける従来の拡散モデルの制限を突破するだけでなく、Githubのほぼ900星が最良の証拠であるという熱心な反応を引き起こします。
Imagenetテストベンチマークでは、LlamagenはLDMなどの主流の拡散モデルを上回り、この画期的な結果は、研究チームの自己回帰モデルアーキテクチャの詳細な最適化に由来しています。イメージトークン剤を再訓練することにより、LlamagenはImagenetとCocoデータセットの大きな利点を達成しており、そのパフォーマンスはVQGAN、VIT-VQGAN、MASKGIなどのよく知られたモデルを上回っています。
Llamagenの成功は、高度な画像圧縮/量子化器、スケーラブルな画像生成モデル、および慎重にスクリーニングされた高品質のトレーニングデータの3つのコア技術柱に基づいて構築されています。研究チームは、VQ-Ganに似たCNNアーキテクチャを採用して、連続画像を2段階のトレーニング戦略に変換しました。
トレーニングの第1フェーズでは、ラマゲンは256×256の画像解像度でLaion-Cocoの50mのサブセットで訓練しました。研究チームは、効果的な画像URL、審美スコア、透かしスコアなどを含む厳格なスクリーニング基準を通じてトレーニングデータの品質を確保しました。第2段階は、1,000万スケールの内部高審美品質画像を微調整し、画像解像度を512×512に増やし、生成効果をさらに最適化することです。
Llamagenの中心的な利点は、その優れた画像トークネイザーとLlama Architectureのスケーラビリティです。実際の生成テストでは、LlamagenはFID、IS、精度、リコールなどの重要な指標で強い競争力を示しました。以前の自己回帰モデルと比較して、Llamagenはすべてのパラメーターの順序で優れたパフォーマンスを発揮し、画像生成のフィールドに新しいベンチマークを設定しました。
ラマゲンは顕著な結果を達成しましたが、研究チームは、これが安定した拡散V1フェーズの始まりに過ぎないと述べました。将来の開発の方向性には、より高い解像度、より多くのアスペクト比、より強力な制御性、およびビデオ生成などの新しい分野のサポートが含まれます。これらの計画は、Llamagenがより広い分野で画像生成テクノロジーのイノベーションを引き続きリードし続けることを示しています。
現在、ラマゲンはオンラインエクスペリエンスのために開かれており、ユーザーは顔を抱きしめるラマゲンのスペースを通じてこの革新的な技術を個人的に体験できます。同時に、Llamagenのオープンソースリリースは、グローバルな開発者と研究者が参加し、貢献するためのプラットフォームを提供し、画像生成テクノロジーの進歩を共同で促進します。プロジェクトアドレスとオンラインエクスペリエンスアドレスは、https://top.aibase.com/tool/llamagenおよびhttps://huggingface.co/spaces/foundationvision/llamagenです。