Downcodes小編報:百川智能攜手天津大學,研發出了名為Sibyl System的智能體框架,並在Meta、Huggingface和AutoGPT聯合推出的GAIA Leader Board評測中榮獲第一。 GAIA評測著重評估Agent在複雜任務中的執行能力和方案設計,其更貼近真實世界應用場景的測試題目,對AI模型提出了極高的挑戰。此項成就標誌著中國AI技術在複雜任務處理領域取得了重大突破。
百川智能與天津大學合作推出了Sibyl System智能體框架,並在GAIA Leader Board上取得了第一名的成績。 GAIA是Meta、Huggingface和AutoGPT於2023年11月提出的全新評測方案,主要評估Agent在複雜任務執行上的能力與方案。這個評測方案揭示了現有模型的能力缺陷,並為模型和Agent的研發提供了改善方向。
GAIA的測驗題目更接近真實世界,要求AI具備推理、多模態理解(文字、圖片、音/影片)、網頁瀏覽和使用工具等能力。這些題目對人類來說不難理解,但對模型來說極具挑戰性。例如,GPT-4在測試中的成功率僅為15%,而人類實驗者可以達到92%。完成這些題目通常需要較長的邏輯連結和時間,涉及多個步驟和工具。
Sibyl System框架的設計特色包括:
類人的瀏覽器介面取代檢索增強生成。
問答替代對話,使用無狀態的問答函數,簡化系統架構。
僅使用網頁瀏覽器和Python環境這兩個通用工具,減少對專用工具的依賴。
從System1到System2,引入「陪審團」機制,透過多代理辯論進行自我批評和修正,利用全局工作區中的信息提高反應的準確性。
Sibyl System是一個結構簡單但功能強大的基於大型語言模型的Agent框架,能夠透過使用少量工具解決複雜的推理問題。它透過引入Global Workspace和Multi-Agent機制,以及基於瀏覽器的通用資訊獲取管道,降低了系統複雜度,同時擴展了解決問題的複雜度,實現了模型從「快思考」到「慢思考」的轉變。 Sibyl System還具有很好的可擴展性和易於調試的特點,可以輕鬆替換其他模型的Agent模組,提升模型的能力。
技術報告: https://arxiv.org/pdf/2407.10718
Sibyl System框架的成功,不僅展現了百川智能和天津大學在人工智慧領域的強大實力,也為未來智能體框架的設計和研發提供了寶貴的經驗和借鏡。相信在不久的將來,我們將看到更多基於Sibyl System框架的創新應用,推動人工智慧技術向更深層次發展。