百川智能联合天津大学推出“Sibyl System”Agent框架登顶大模型复杂任务榜单GAIA

作者：Eve Cole 更新时间：2024-12-06 09:00:01

Downcodes小编报道：百川智能携手天津大学，研发出了名为Sibyl System的智能体框架，并在Meta、Huggingface和AutoGPT联合推出的GAIA Leader Board评测中荣获第一。GAIA评测着重评估Agent在复杂任务中的执行能力和方案设计，其更贴近真实世界应用场景的测试题目，对AI模型提出了极高的挑战。此项成就标志着中国AI技术在复杂任务处理领域取得了重大突破。

百川智能与天津大学合作推出了Sibyl System智能体框架，并在GAIA Leader Board上取得了第一名的成绩。GAIA是Meta、Huggingface和AutoGPT于2023年11月提出的全新评测方案，主要评测Agent在复杂任务执行方面的能力和方案。这个评测方案揭示了现有模型的能力缺陷，并为模型和Agent的研发提供了改进方向。

GAIA的测试题目更接近真实世界，要求AI具备推理、多模态理解（文本、图片、音/视频）、网页浏览和使用工具等能力。这些题目对人类来说不难理解，但对模型来说极具挑战性。例如，GPT-4在测试中的成功率仅为15%，而人类实验者可以达到92%。完成这些题目通常需要较长的逻辑链路和时间，涉及多个步骤和工具。

Sibyl System框架的设计特点包括:

类人的浏览器界面替代检索增强生成。
问答替代对话，使用无状态的问答函数，简化系统架构。
仅使用网页浏览器和Python环境这两个通用工具，减少对专用工具的依赖。
从System1到System2，引入“陪审团”机制，通过多代理辩论进行自我批评和修正，利用全局工作区中的信息提高响应的准确性。

Sibyl System是一个结构简单但功能强大的基于大型语言模型的Agent框架，能够通过使用少量工具解决复杂的推理问题。它通过引入Global Workspace和Multi-Agent机制，以及基于浏览器的通用信息获取渠道，降低了系统复杂度，同时扩展了解决问题的复杂度，实现了模型从“快思考”到“慢思考”的转变。Sibyl System还具有很好的可扩展性和易于调试的特点，可以轻松替换其他模型的Agent模块，提升模型的能力。

技术报告:https://arxiv.org/pdf/2407.10718

Sibyl System框架的成功，不仅展现了百川智能和天津大学在人工智能领域的强大实力，也为未来智能体框架的设计和研发提供了宝贵的经验和借鉴。相信在不久的将来，我们将看到更多基于Sibyl System框架的创新应用，推动人工智能技术向更深层次发展。

百川智能联合天津大学推出“Sibyl System”Agent框架 登顶大模型复杂任务榜单GAIA

百川智能联合天津大学推出“Sibyl System”Agent框架登顶大模型复杂任务榜单GAIA