生成AI技術の急速な発展に伴い、その性能をいかに客観的に評価するかが喫緊の課題となっている。特にヴィンセント図モデルの場合、従来の評価手法には主観や限界があり、モデルの実際の効果を正確に反映することが困難でした。 Downcodes の編集者が、カーネギー メロン大学とメタ研究者が共同で立ち上げた新しいビンセント グラフ評価プログラム - VQAScore と新しい評価ベンチマーク - GenAI-Bench、およびそれらがビンセント グラフ分野の評価基準をどのように変えるのかを紹介します。 。
従来の評価方法は、主観的すぎる人間の目に依存するか、CLIPScore などの単純な指標を使用しますが、これらの指標では、オブジェクトと論理的推論の関係など、複雑なテキスト プロンプトの詳細を把握できないことがよくあります。これにより、多くのヴィンセント グラフ モデルの評価結果が不正確になり、生成された画像が明らかに間違っているというおかしな状況も発生しますが、スコアは非常に高くなります。
この問題を解決するために、カーネギー メロン大学とメタの研究者は最近協力して、新しいビンセント グラフ評価プログラム VQAScore を立ち上げました。このソリューションの核となるアイデアは、ビジュアル質問応答 (VQA) モデルを使用してヴィンセント グラフ モデルをスコアリングすることです。
具体的には、VQAScore はまずテキスト プロンプトを「この写真の中でネズミを追いかけている猫はいますか?」などの簡単な質問に変換し、次に生成された写真とこの質問を VQA モデルにスローします。 VQA モデルは写真の内容に基づいて質問に対する答えが「はい」か「いいえ」かを判断し、VQAScore は VQA モデルが「はい」と判断する確率に基づいてヴィンセント図モデルをスコアリングします。
この方法は簡単そうに見えますが、効果は驚くほど良いです。研究者らは、VQAScore を使用して 8 つの異なる Vincent グラフ評価ベンチマークをテストしました。その結果、VQAScore の精度と信頼性は従来の評価方法をはるかに上回り、GPT-4V などの非常に大規模なモデルを使用したものと同等であることがわかりました。
さらに強力なのは、VQAScore を使用して Vincent 写真を評価するだけでなく、Vincent ビデオや Vincent 3D モデルを評価することもできることです。これは、VQAScore の中核が VQA モデルであり、VQA モデル自体がさまざまな種類のビジュアル コンテンツを処理できるためです。
ヴィンセント グラフの分野の進歩をさらに促進するために、研究者らは新しいヴィンセント グラフ評価ベンチマーク GenAI-Bench も作成しました。このベンチマークには、比較、数え上げ、論理的推論など、さまざまな視覚言語による推論能力をカバーする 1,600 個の複雑なテキスト プロンプトが含まれています。研究者らはまた、さまざまなヴィンセント図モデルの有効性を評価するために、15,000 を超える手動の注釈を収集しました。
一般に、VQAScore と GenAI-Bench の出現は、Vincent グラフの分野に新たな活力をもたらしました。 VQAScore は、研究者がさまざまなモデルの長所と短所をより適切に評価できる、より正確で信頼性の高い評価方法を提供します。 GenAI-Bench は、より包括的で挑戦的な評価ベンチマークを提供し、よりインテリジェントで人道的な方向にヴィンセント グラフ モデルの開発を促進できます。
もちろん、VQAScore にもいくつかの制限があります。現在、VQAScore は主にオープン ソースの VQA モデルに依存しており、これらのモデルのパフォーマンスは GPT-4V などのクローズド ソース モデルほど良くありません。今後、VQA モデルが改良され続けるにつれて、VQAScore のパフォーマンスはさらに向上するでしょう。
プロジェクトアドレス: https://linzhiqiu.github.io/papers/vqascore/
VQAScore と GenAI-Bench の登場により、Vincentian グラフ モデルを客観的に評価する新しい方法が提供され、この分野の技術開発とアプリケーションの革新が促進されます。今後、ヴィンセント図モデルの性能や応用価値をさらに高めるために、より高度な評価手法が登場すると考えられます。この分野でのさらなる進歩に期待しています!