Zhipu AI telah membuat model CogAgent-9B menjadi sumber terbuka berdasarkan pelatihan GLM-4V-9B. Ini adalah model tugas Agen yang dapat memahami instruksi pengguna melalui tangkapan layar dan memprediksi operasi GUI berikutnya. Model ini memiliki universalitas yang kuat dan cocok untuk berbagai skenario interaksi GUI seperti komputer pribadi, ponsel, dan mobil. Dibandingkan dengan versi sebelumnya, CogAgent-9B-20241220 telah ditingkatkan secara signifikan dalam banyak aspek, mendukung bilingual Cina dan Inggris, dan dapat menghasilkan proses berpikir terperinci, deskripsi tindakan, dan penilaian sensitivitas. Ini telah mencapai hasil terdepan pada beberapa kumpulan data, menunjukkan keunggulannya dalam penentuan posisi GUI, operasi satu langkah dan multi-langkah. CogAgent-9B open source tidak hanya mendorong pengembangan teknologi model besar, tetapi juga memberikan kemungkinan baru bagi tunanetra.
Dibandingkan dengan versi pertama model CogAgent yang bersumber terbuka pada bulan Desember 2023, CogAgent-9B-20241220 telah meningkat secara signifikan dalam hal persepsi GUI, akurasi prediksi inferensi, kelengkapan ruang tindakan, universalitas tugas, dan generalisasi. Serta mendukung tangkapan layar dan bahasa bilingual interaksi dalam bahasa Cina dan Inggris. Masukan CogAgent hanya mencakup instruksi bahasa alami pengguna, catatan tindakan historis yang dieksekusi, dan tangkapan layar GUI, tanpa representasi tekstual informasi tata letak atau informasi label elemen tambahan. Outputnya meliputi proses berpikir, deskripsi bahasa alami dari tindakan selanjutnya, deskripsi terstruktur dari tindakan berikutnya, dan penilaian sensitivitas dari tindakan selanjutnya.
Dalam uji kinerja, CogAgent-9B-20241220 mencapai hasil terdepan pada beberapa kumpulan data, menunjukkan keunggulannya dalam pemosisian GUI, operasi satu langkah, daftar langkah demi langkah berbahasa Mandarin, dan operasi multi-langkah. Langkah Smart Spectrum Technology ini tidak hanya mendorong pengembangan teknologi model besar, namun juga menyediakan alat dan kemungkinan baru bagi praktisi TI tunanetra.
Kode:
https://github.com/THUDM/CogAgent
Model:
Wajah Memeluk: https://huggingface.co/THUDM/cogagent-9b-20241220
Komunitas Cogagent: https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220
CogAgent-9B yang bersifat open source menandai langkah penting dalam ekosistem Agen model besar. Kemampuan interaksi GUI yang efisien dan penerapannya yang luas memberikan arah baru bagi pengembangan teknologi interaksi cerdas di masa depan, dan juga menandai datangnya skenario aplikasi masa depan yang lebih nyaman dan cerdas. Kami berharap dapat melihat lebih banyak aplikasi inovatif berdasarkan CogAgent-9B.