Editor Downcodes melaporkan: Baichuan Intelligence bekerja sama dengan Universitas Tianjin untuk mengembangkan kerangka kerja agen yang disebut Sistem Sibyl, yang memenangkan tempat pertama dalam evaluasi Dewan Pimpinan GAIA yang diluncurkan bersama oleh Meta, Huggingface, dan AutoGPT. Evaluasi GAIA berfokus pada evaluasi kemampuan eksekusi Agen dan desain solusi dalam tugas-tugas kompleks. Evaluasi ini menguji pertanyaan-pertanyaan yang lebih mendekati skenario aplikasi dunia nyata dan menimbulkan tantangan yang sangat tinggi terhadap model AI. Pencapaian ini menandai terobosan besar dalam teknologi AI Tiongkok dalam bidang pemrosesan tugas yang kompleks.
Baichuan Intelligence bekerja sama dengan Universitas Tianjin untuk meluncurkan kerangka agen cerdas Sistem Sibyl dan meraih posisi pertama di Dewan Pimpinan GAIA. GAIA adalah skema evaluasi baru yang diusulkan oleh Meta, Huggingface, dan AutoGPT pada November 2023. Skema ini terutama mengevaluasi kemampuan dan solusi Agen dalam melaksanakan tugas-tugas kompleks. Rencana evaluasi ini mengungkap kekurangan kemampuan model yang ada dan memberikan arahan perbaikan untuk pengembangan model dan Agen.
Soal tes GAIA lebih dekat dengan dunia nyata dan mengharuskan AI untuk memiliki penalaran, pemahaman multi-modal (teks, gambar, audio/video), penjelajahan web, dan kemampuan penggunaan alat. Pertanyaan-pertanyaan ini tidak sulit untuk dipahami manusia, namun sangat menantang bagi model. Misalnya, tingkat keberhasilan GPT-4 dalam pengujian hanya 15%, sedangkan manusia yang melakukan eksperimen dapat mencapai 92%. Menyelesaikan masalah ini sering kali memerlukan tautan dan waktu logis yang panjang, yang melibatkan banyak langkah dan alat.
Fitur desain kerangka Sistem Sibyl meliputi:
Generasi peningkatan pencarian pengganti antarmuka browser yang mirip manusia.
Tanya jawab menggantikan dialog, menggunakan fungsi tanya jawab tanpa kewarganegaraan untuk menyederhanakan arsitektur sistem.
Gunakan hanya dua alat umum, browser web dan lingkungan Python, untuk mengurangi ketergantungan pada alat khusus.
Dari System1 hingga System2, mekanisme "juri" diperkenalkan untuk melakukan kritik diri dan koreksi melalui debat multi-agen, dan menggunakan informasi di ruang kerja global untuk meningkatkan akurasi tanggapan.
Sistem Sibyl adalah kerangka kerja Agen yang sederhana namun kuat berdasarkan model bahasa besar yang dapat memecahkan masalah penalaran kompleks dengan menggunakan sejumlah kecil alat. Hal ini mengurangi kompleksitas sistem dengan memperkenalkan mekanisme Global Workspace dan Multi-Agent, serta saluran akuisisi informasi universal berbasis browser, sekaligus memperluas kompleksitas penyelesaian masalah dan mewujudkan transformasi model dari perubahan “berpikir cepat” menjadi “berpikir lambat”. . Sistem Sibyl juga memiliki skalabilitas yang baik dan debugging yang mudah. Sistem ini dapat dengan mudah menggantikan modul Agen model lain dan meningkatkan kemampuan model.
Laporan teknis: https://arxiv.org/pdf/2407.10718
Keberhasilan kerangka Sistem Sibyl tidak hanya menunjukkan kekuatan Baichuan Intelligence dan Universitas Tianjin di bidang kecerdasan buatan, tetapi juga memberikan pengalaman dan referensi berharga untuk desain dan pengembangan kerangka agen cerdas di masa depan. Saya percaya bahwa dalam waktu dekat, kita akan melihat lebih banyak aplikasi inovatif berdasarkan kerangka Sistem Sibyl, yang mendorong pengembangan teknologi kecerdasan buatan ke tingkat yang lebih dalam.