超長上下文視窗的大型語言模型(LLMs)正迅速發展,其處理資訊的能力也引發了廣泛關注。然而,評估這些模型理解和利用大量資訊的能力卻面臨挑戰。谷歌DeepMind的研究人員為此開發了Michelangelo基準,旨在更深入地評估長上下文LLM的推理能力,並為未來的模型改進提供方向。
最近,超長上下文視窗的大型語言模型(LLMs)成為了人們討論的熱點。這些模型能夠在一個提示中處理數十萬甚至上百萬個標記,為開發者開啟了許多新的可能性。不過,這些長上下文LLM 到底能多好地理解和利用所接收到的大信息呢?為了解決這個問題,谷歌DeepMind 的研究人員推出了名為Michelangelo 的新基準,旨在評估長上下文推能力。研究結果表明,儘管目前的頂尖模型在從大量上下文資料中提取資訊方面取得了一定進展,但在需要推理和理解資料結構的任務上仍然存在困難。隨著長上下文視窗的LLM 逐漸湧現,研究人員開始意識到,需要新的基準來評估這些模型的能力。現有的評估多集中在資訊檢索任務上,例如「從乾草堆中找針」 的評估,即在大量上下文中尋找特定的資訊。然而,簡單的檢索並不等同於模型對整體脈絡的理解。為了解決這些問題,Michelangelo 提出了一種全新的評估方法,透過設定複雜的任務,要求模型在處理長文本時進行更深入的推理和綜合。例如,該評估框架中包含多個與程式設計和自然語言相關的任務,這些任務不僅考驗模型的記憶能力,更注重其理解和處理資訊的深度。在Michelangelo 的評估任務中,模型需要解決三種基本的長文檔綜合任務,分別是「潛在清單」、「多輪共指消解」 和其他多種應用情境。這些任務不僅有助於評估模型在長文件中的表現,還能揭示其在推理和綜合方面的不足之處。第一項是“潛在清單”,模型需要處理一長串對Python 清單的操作,過濾掉無關的或冗餘的語句,以確定清單的最終狀態。第二項是“多輪指涉解析”,模型需要在長對話中理解對話結構並解決引用問題。第三項是“我不知道”,模型在回答多個選擇題時,需要判斷上下文中是否包含答案,並能夠準確回應“我不知道”。研究人員在Michelangelo 上面對十個頂尖的LLM(包括不同版本的Gemini、GPT-4和Claude)進行評估,他們在多達100萬個令牌的上下文中測試了模型。 Gemini 模型在MRCR 上表現最好,GPT 模型在Latent List 上表現出色,Claude3.5Sonnet 在IDK 上獲得最高分。
Downcodes小編總結:Michelangelo 基準的出現為評估超長上下文LLM提供了新的視角,也指出了目前模型在複雜推理能力上的不足。未來,更強大的LLM需要在推理能力上取得突破,才能更好地應對更複雜的任務和應用情境。期待後續研究為我們帶來更多驚喜!