北京智源人工智慧研究院(BAAI)於2024年9月4日重磅推出FlagEval大模型角斗場,這是全球首個包含文生影片的模式對戰評測服務。該服務面向公眾開放,涵蓋了國內外約40款大模型,支持語言問答、多模態圖文理解、文生圖、文生視頻四大任務的自定義在線或離線評測,並創新性地引入了主觀傾向階梯評分體系,力求更精準地評估模型表現。 FlagEval不僅提供簡單理解、知識應用、程式碼能力、推理能力等多種預設問題的評測,也採用匿名機制,確保評測過程的公正性和客觀性。使用者可透過網頁端或行動端參與評測,即時查看評分結果和角鬥場清單。
2024年9月4日,北京智源人工智慧研究院(BAAI)宣布推出全球首個包含文生影片的模型對戰評測服務-FlagEval大模型角斗場。
這項服務面向用戶開放,涵蓋了國內外約40款大模型,並支援語言問答、多模態圖文理解、文生圖、文生影片等四大任務的自訂線上或離線評測。 FlagEval大模型角斗場的推出,不僅提供了簡單理解、知識應用、程式碼能力、推理能力等多種預設問題的評測,還首次引入了主觀傾向階梯評分體系,以更精確地揭示模型性能差異。
該服務採取匿名機制進行評測,確保評測過程的公正性。使用者可透過網頁端或國內首個行動端存取入口參與評測,體驗高效率的模式對戰評測。 FlagEval大模型角鬥場的評分結果將即時公示,形成角鬥場榜單,展現各模型的對戰能力。
智源研究院表示,將對模型對戰評測的全鏈路資料進行開源,以促進大模型評測生態的發展。 FlagEval大模型角斗場的推出,進一步拓展了智源在模型評測領域的技術佈局和工具方法的研發,為人工智慧領域的研究和應用提供了新的測試和評估工具。
體驗網址: https://flageval.baai.ac.cn/#/home
智源研究院開源FlagEval大模式角斗場的數據,旨在推動大模型評測生態的健康發展,為人工智慧領域的持續進步提供強力支撐。 歡迎造訪體驗地址,參與評測,共同推動AI技術發展!