Der Herausgeber von Downcodes berichtete: Baichuan Intelligence arbeitete mit der Tianjin-Universität zusammen, um ein Agenten-Framework namens Sibyl System zu entwickeln, das den ersten Platz in der von Meta, Huggingface und AutoGPT gemeinsam ins Leben gerufenen Bewertung des GAIA Leader Board gewann. Die GAIA-Bewertung konzentriert sich auf die Bewertung der Ausführungsfähigkeiten und des Lösungsdesigns des Agenten bei komplexen Aufgaben. Sie testet Fragen, die näher an realen Anwendungsszenarien liegen und extrem hohe Herausforderungen an KI-Modelle stellen. Dieser Erfolg markiert einen großen Durchbruch in Chinas KI-Technologie im Bereich der Verarbeitung komplexer Aufgaben.
Baichuan Intelligence arbeitete mit der Tianjin-Universität zusammen, um das intelligente Agenten-Framework Sibyl System auf den Markt zu bringen, und erreichte den ersten Platz im GAIA Leader Board. GAIA ist ein neues Bewertungsschema, das im November 2023 von Meta, Huggingface und AutoGPT vorgeschlagen wurde. Es bewertet hauptsächlich die Fähigkeiten und Lösungen des Agenten bei der Ausführung komplexer Aufgaben. Dieser Evaluierungsplan deckt die Leistungsmängel bestehender Modelle auf und bietet Verbesserungsanweisungen für die Modell- und Agentenentwicklung.
Die Testfragen von GAIA sind näher an der realen Welt und erfordern von der KI Argumentation, multimodales Verständnis (Text, Bilder, Audio/Video), Webbrowsing und Werkzeugnutzungsfähigkeiten. Für Menschen sind diese Fragen nicht schwer zu verstehen, für Modelle jedoch eine große Herausforderung. Beispielsweise betrug die Erfolgsquote von GPT-4 beim Testen nur 15 %, während menschliche Experimentatoren 92 % erreichen konnten. Die Lösung dieser Probleme erfordert oft lange logische Verknüpfungen und Zeit sowie mehrere Schritte und Tools.
Zu den Designmerkmalen des Sibyl-System-Frameworks gehören:
Generierung einer menschenähnlichen Browserschnittstelle als Ersatz für Suchverbesserungen.
Frage und Antwort ersetzen den Dialog und nutzen zustandslose Frage- und Antwortfunktionen, um die Systemarchitektur zu vereinfachen.
Verwenden Sie nur zwei gängige Tools, einen Webbrowser und eine Python-Umgebung, um die Abhängigkeit von Spezialtools zu verringern.
Von System1 bis System2 wird ein „Jury“-Mechanismus eingeführt, um Selbstkritik und Korrektur durch Debatten mit mehreren Agenten durchzuführen und Informationen im globalen Arbeitsbereich zu nutzen, um die Genauigkeit der Antworten zu verbessern.
Sibyl System ist ein einfaches, aber leistungsstarkes Agenten-Framework, das auf großen Sprachmodellen basiert und komplexe Argumentationsprobleme mithilfe einer kleinen Anzahl von Tools lösen kann. Es reduziert die Systemkomplexität durch die Einführung von Global Workspace- und Multi-Agent-Mechanismen sowie browserbasierten universellen Informationserfassungskanälen, während es gleichzeitig die Komplexität der Problemlösung erhöht und die Transformation des Modells von „schnellem Denken“ zu „langsamem Denken“ verwirklicht . Sibyl System verfügt außerdem über eine gute Skalierbarkeit und einfaches Debuggen. Es kann die Agentenmodule anderer Modelle problemlos ersetzen und die Funktionen des Modells verbessern.
Technischer Bericht: https://arxiv.org/pdf/2407.10718
Der Erfolg des Sibyl-System-Frameworks zeigt nicht nur die starke Stärke von Baichuan Intelligence und der Tianjin-Universität im Bereich der künstlichen Intelligenz, sondern liefert auch wertvolle Erfahrungen und Referenzen für den Entwurf und die Entwicklung zukünftiger Frameworks für intelligente Agenten. Ich glaube, dass wir in naher Zukunft weitere innovative Anwendungen sehen werden, die auf dem Sibyl-System-Framework basieren und die Entwicklung der Technologie der künstlichen Intelligenz auf einer tieferen Ebene vorantreiben werden.