El editor de Downcodes informó: Baichuan Intelligence se asoció con la Universidad de Tianjin para desarrollar un marco de agente llamado Sibyl System, que obtuvo el primer lugar en la evaluación de la Junta de líderes GAIA lanzada conjuntamente por Meta, Huggingface y AutoGPT. La evaluación GAIA se centra en evaluar las capacidades de ejecución del Agente y el diseño de soluciones en tareas complejas. Prueba preguntas que se acercan más a escenarios de aplicaciones del mundo real y plantea desafíos extremadamente altos para los modelos de IA. Este logro marca un gran avance en la tecnología de inteligencia artificial de China en el campo del procesamiento de tareas complejas.
Baichuan Intelligence cooperó con la Universidad de Tianjin para lanzar el marco de agente inteligente del Sistema Sibyl y logró el primer lugar en la Junta de Líderes GAIA. GAIA es un nuevo esquema de evaluación propuesto por Meta, Huggingface y AutoGPT en noviembre de 2023. Evalúa principalmente las capacidades y soluciones del Agente en la ejecución de tareas complejas. Este plan de evaluación revela las deficiencias de capacidad de los modelos existentes y proporciona direcciones de mejora para el desarrollo de modelos y agentes.
Las preguntas del examen de GAIA están más cerca del mundo real y requieren que la IA tenga capacidades de razonamiento, comprensión multimodal (texto, imágenes, audio/video), navegación web y uso de herramientas. Estas preguntas no son difíciles de entender para los humanos, pero son extremadamente desafiantes para los modelos. Por ejemplo, la tasa de éxito de las pruebas de GPT-4 fue sólo del 15%, mientras que los experimentadores humanos pudieron alcanzar el 92%. Completar estos problemas a menudo requiere largos enlaces lógicos y tiempo, lo que implica múltiples pasos y herramientas.
Las características de diseño del marco del Sistema Sibyl incluyen:
Generación de mejora de búsqueda de reemplazo de interfaz de navegador similar a la humana.
Las preguntas y respuestas reemplazan el diálogo y utilizan funciones de preguntas y respuestas sin estado para simplificar la arquitectura del sistema.
Utilice sólo dos herramientas comunes, un navegador web y un entorno Python, para reducir la dependencia de herramientas especializadas.
Del Sistema1 al Sistema2, se introduce un mecanismo de "jurado" para realizar autocrítica y corrección a través de un debate entre múltiples agentes y utilizar información en el espacio de trabajo global para mejorar la precisión de las respuestas.
Sibyl System es un marco de agente simple pero poderoso basado en grandes modelos de lenguaje que puede resolver problemas de razonamiento complejos utilizando una pequeña cantidad de herramientas. Reduce la complejidad del sistema mediante la introducción de mecanismos de espacio de trabajo global y multiagente, así como canales universales de adquisición de información basados en navegador, al tiempo que amplía la complejidad de la resolución de problemas y realiza la transformación del modelo de cambio de "pensamiento rápido" a "pensamiento lento". . Sibyl System también tiene buena escalabilidad y fácil depuración. Puede reemplazar fácilmente los módulos del Agente de otros modelos y mejorar las capacidades del modelo.
Informe técnico: https://arxiv.org/pdf/2407.10718
El éxito del marco del Sistema Sibyl no solo demuestra la gran fortaleza de Baichuan Intelligence y la Universidad de Tianjin en el campo de la inteligencia artificial, sino que también proporciona una valiosa experiencia y referencia para el diseño y desarrollo de futuros marcos de agentes inteligentes. Creo que en un futuro próximo veremos más aplicaciones innovadoras basadas en el marco del Sistema Sibyl, promoviendo el desarrollo de la tecnología de inteligencia artificial a un nivel más profundo.