智源研究院推出包含文生視訊模型對戰評測服務：FlagEval大模型角斗場

作者：Eve Cole 更新時間：2024-12-11 14:16:01

北京智源人工智慧研究院(BAAI)於2024年9月4日重磅推出FlagEval大模型角斗場，這是全球首個包含文生影片的模式對戰評測服務。該服務面向公眾開放，涵蓋了國內外約40款大模型，支持語言問答、多模態圖文理解、文生圖、文生視頻四大任務的自定義在線或離線評測，並創新性地引入了主觀傾向階梯評分體系，力求更精準地評估模型表現。 FlagEval不僅提供簡單理解、知識應用、程式碼能力、推理能力等多種預設問題的評測，也採用匿名機制，確保評測過程的公正性和客觀性。使用者可透過網頁端或行動端參與評測，即時查看評分結果和角鬥場清單。

2024年9月4日，北京智源人工智慧研究院（BAAI）宣布推出全球首個包含文生影片的模型對戰評測服務－FlagEval大模型角斗場。

這項服務面向用戶開放，涵蓋了國內外約40款大模型，並支援語言問答、多模態圖文理解、文生圖、文生影片等四大任務的自訂線上或離線評測。 FlagEval大模型角斗場的推出，不僅提供了簡單理解、知識應用、程式碼能力、推理能力等多種預設問題的評測，還首次引入了主觀傾向階梯評分體系，以更精確地揭示模型性能差異。

該服務採取匿名機制進行評測，確保評測過程的公正性。使用者可透過網頁端或國內首個行動端存取入口參與評測，體驗高效率的模式對戰評測。 FlagEval大模型角鬥場的評分結果將即時公示，形成角鬥場榜單，展現各模型的對戰能力。

智源研究院表示，將對模型對戰評測的全鏈路資料進行開源，以促進大模型評測生態的發展。 FlagEval大模型角斗場的推出，進一步拓展了智源在模型評測領域的技術佈局和工具方法的研發，為人工智慧領域的研究和應用提供了新的測試和評估工具。

體驗網址: https://flageval.baai.ac.cn/#/home

智源研究院開源FlagEval大模式角斗場的數據，旨在推動大模型評測生態的健康發展，為人工智慧領域的持續進步提供強力支撐。歡迎造訪體驗地址，參與評測，共同推動AI技術發展！