Baichuan Intelligent et l'Université de Tianjin ont lancé le framework d'agent « Sibyl System » en tête de la liste GAIA des tâches complexes de grands modèles

Auteur：Eve Cole Date de mise à jour：2024-12-06 09:00:01

L'éditeur de Downcodes a rapporté : Baichuan Intelligence s'est associé à l'Université de Tianjin pour développer un cadre d'agent appelé Sibyl System, qui a remporté la première place dans l'évaluation GAIA Leader Board lancée conjointement par Meta, Huggingface et AutoGPT. L'évaluation GAIA se concentre sur l'évaluation des capacités d'exécution de l'agent et de la conception de solutions dans des tâches complexes. Elle teste des questions plus proches des scénarios d'application du monde réel et pose des défis extrêmement élevés aux modèles d'IA. Cette réalisation marque une avancée majeure dans la technologie chinoise de l'IA dans le domaine du traitement de tâches complexes.

Baichuan Intelligence a coopéré avec l'Université de Tianjin pour lancer le cadre d'agent intelligent Sibyl System et a obtenu la première place au classement GAIA. GAIA est un nouveau système d'évaluation proposé par Meta, Huggingface et AutoGPT en novembre 2023. Il évalue principalement les capacités et les solutions de l'agent dans l'exécution de tâches complexes. Ce plan d'évaluation révèle les lacunes de capacité des modèles existants et fournit des orientations d'amélioration pour le développement du modèle et de l'agent.

Les questions du test GAIA sont plus proches du monde réel et nécessitent que l'IA ait des capacités de raisonnement, de compréhension multimodale (texte, images, audio/vidéo), de navigation sur le Web et d'utilisation d'outils. Ces questions ne sont pas difficiles à comprendre pour les humains, mais elles sont extrêmement difficiles à comprendre pour les modèles. Par exemple, le taux de réussite des tests de GPT-4 n'était que de 15 %, alors que les expérimentateurs humains pouvaient atteindre 92 %. La résolution de ces problèmes nécessite souvent de longs liens logiques et du temps, impliquant plusieurs étapes et outils.

Les fonctionnalités de conception du framework Sibyl System incluent :

Génération d'amélioration de la recherche de remplacement d'interface de navigateur de type humain.
Les questions et réponses remplacent le dialogue, en utilisant des fonctions de questions et réponses sans état pour simplifier l'architecture du système.
Utilisez uniquement deux outils courants, un navigateur Web et un environnement Python, pour réduire la dépendance à l'égard d'outils spécialisés.
Du Système 1 au Système 2, un mécanisme de « jury » est introduit pour mener l'autocritique et la correction à travers un débat multi-agents, et utiliser les informations dans l'espace de travail global pour améliorer l'exactitude des réponses.

Sibyl System est un framework d'agents simple mais puissant basé sur de grands modèles de langage qui peuvent résoudre des problèmes de raisonnement complexes en utilisant un petit nombre d'outils. Il réduit la complexité du système en introduisant des mécanismes d'espace de travail global et multi-agents, ainsi que des canaux universels d'acquisition d'informations basés sur un navigateur, tout en augmentant la complexité de la résolution de problèmes et en réalisant la transformation du modèle de « pensée rapide » à un changement « à réflexion lente ». . Sibyl System a également une bonne évolutivité et un débogage facile. Il peut facilement remplacer les modules Agent d'autres modèles et améliorer les capacités du modèle.

Rapport technique : https://arxiv.org/pdf/2407.10718

Le succès du framework Sibyl System démontre non seulement la forte force de Baichuan Intelligence et de l'Université de Tianjin dans le domaine de l'intelligence artificielle, mais fournit également une expérience et une référence précieuses pour la conception et le développement de futurs frameworks d'agents intelligents. Je pense que dans un avenir proche, nous verrons davantage d'applications innovantes basées sur le cadre du système Sibyl, favorisant le développement de la technologie de l'intelligence artificielle à un niveau plus profond.