百川智能聯合天津大學推出「Sibyl System」Agent框架登頂大模型複雜任務榜單GAIA

作者：Eve Cole 更新時間：2024-12-06 09:00:01

Downcodes小編報：百川智能攜手天津大學，研發出了名為Sibyl System的智能體框架，並在Meta、Huggingface和AutoGPT聯合推出的GAIA Leader Board評測中榮獲第一。 GAIA評測著重評估Agent在複雜任務中的執行能力和方案設計，其更貼近真實世界應用場景的測試題目，對AI模型提出了極高的挑戰。此項成就標誌著中國AI技術在複雜任務處理領域取得了重大突破。

百川智能與天津大學合作推出了Sibyl System智能體框架，並在GAIA Leader Board上取得了第一名的成績。 GAIA是Meta、Huggingface和AutoGPT於2023年11月提出的全新評測方案，主要評估Agent在複雜任務執行上的能力與方案。這個評測方案揭示了現有模型的能力缺陷，並為模型和Agent的研發提供了改善方向。

GAIA的測驗題目更接近真實世界，要求AI具備推理、多模態理解（文字、圖片、音/影片）、網頁瀏覽和使用工具等能力。這些題目對人類來說不難理解，但對模型來說極具挑戰性。例如，GPT-4在測試中的成功率僅為15%，而人類實驗者可以達到92%。完成這些題目通常需要較長的邏輯連結和時間，涉及多個步驟和工具。

Sibyl System框架的設計特色包括:

類人的瀏覽器介面取代檢索增強生成。
問答替代對話，使用無狀態的問答函數，簡化系統架構。
僅使用網頁瀏覽器和Python環境這兩個通用工具，減少對專用工具的依賴。
從System1到System2，引入「陪審團」機制，透過多代理辯論進行自我批評和修正，利用全局工作區中的信息提高反應的準確性。

Sibyl System是一個結構簡單但功能強大的基於大型語言模型的Agent框架，能夠透過使用少量工具解決複雜的推理問題。它透過引入Global Workspace和Multi-Agent機制，以及基於瀏覽器的通用資訊獲取管道，降低了系統複雜度，同時擴展了解決問題的複雜度，實現了模型從「快思考」到「慢思考」的轉變。 Sibyl System還具有很好的可擴展性和易於調試的特點，可以輕鬆替換其他模型的Agent模組，提升模型的能力。

技術報告: https://arxiv.org/pdf/2407.10718

Sibyl System框架的成功，不僅展現了百川智能和天津大學在人工智慧領域的強大實力，也為未來智能體框架的設計和研發提供了寶貴的經驗和借鏡。相信在不久的將來，我們將看到更多基於Sibyl System框架的創新應用，推動人工智慧技術向更深層次發展。