隨著生成式AI技術的快速發展,如何客觀評估其效能已成為亟待解決的問題。特別是對於文生圖模型,傳統的評估方法有主觀性和局限性,難以準確反映模型的實際效果。 Downcodes小編將為您介紹卡內基美隆大學和Meta研究人員共同推出的新型文生圖評測方案-VQAScore,以及一個全新的評測基準-GenAI-Bench,它們將如何改變文生圖領域的評估標準。
傳統的評價方法,要么是靠人眼看,主觀性太強;要么是用一些簡單的指標,比如CLIPScore,但這些指標往往無法捕捉到復雜文本提示中的細節,比如對象之間的關係、邏輯推理等等。這就導致許多文生圖模型的評測結果不準確,甚至會出現一些搞笑的情況,明明生成的圖片驢唇不對馬嘴,得分卻還挺高。
為了解決這個問題,卡內基美隆大學和Meta的研究人員最近聯手推出了一套新的文生圖評測方案—VQAScore。這個方案的核心思想,就是用視覺問答(VQA)模型來為文生圖模型打分數。
具體來說,VQAScore會先把文字提示轉換成一個簡單的問題,例如“這張圖片裡有沒有一隻貓在追一隻老鼠?”,然後把生成的圖片和這個問題一起丟給VQA模型。 VQA模型會根據圖片內容判斷問題的答案是“是”還是“否”,VQAScore就根據VQA模型判斷“是”的機率來給文生圖模型打分數。
這個方法看起來簡單,但效果出奇的好。研究人員用VQAScore在8個不同的文生圖評測基準上進行了測試,結果發現,VQAScore的準確性和可靠性都遠超傳統的評測方法,甚至可以與那些使用GPT-4V等超大模型的方案相媲美。
更厲害的是,VQAScore不僅可以用來評測文生圖,還可以用來評測文生影片和文生3D模型。這是因為VQAScore的核心是VQA模型,而VQA模型本身就可以處理各種類型的視覺內容。
為了進一步推動文生圖領域的進步,研究人員也創建了一個新的文生圖評測基準-GenAI-Bench。這個基準包含了1600個複雜的文字提示,涵蓋了各種視覺語言推理能力,例如比較、計數、邏輯推理等等。研究人員也收集了超過15,000個人工標註,用來評估不同文生圖模型的效果。
總的來說,VQAScore和GenAI-Bench的出現,為文生圖領域帶來了新的活力。 VQAScore提供了一種更準確可靠的評測方法,可以幫助研究人員更好地評估不同模型的優缺點。 GenAI-Bench則提供了一個更全面且具挑戰性的評測基準,可以推動文生圖模型朝著更智慧和人性化的方向發展。
當然,VQAScore也有一些限制。目前VQAScore主要依賴開源的VQA模型,而這些模型的效能還不如GPT-4V等閉源模型。未來,隨著VQA模型的不斷進步,VQAScore的效能也會進一步提升。
專案網址:https://linzhiqiu.github.io/papers/vqascore/
VQAScore和GenAI-Bench的出現,為客觀評估文生圖模型提供了新的途徑,推動了該領域的技術發展和應用創新。相信未來會有更多更先進的評估方法出現,進一步提昇文生圖模型的效能與應用價值。期待該領域持續進步!