Model bahasa visual sumber terbuka Zhipu AI CogAgent mendukung tanya jawab antarmuka grafis GUI

Penulis：Eve Cole Waktu Pembaruan：2025-01-16 14:16:01

Zhipu AI baru-baru ini melakukan open source model bahasa visual CogAgent, yang merupakan alat canggih dengan ukuran parameter 18 miliar dan kinerja luar biasa dalam pemahaman dan navigasi GUI. CogAgent mendukung input visual resolusi tinggi dan Tanya Jawab percakapan, dapat melakukan Tanya Jawab berdasarkan tangkapan layar GUI apa pun, dan mendukung tugas terkait OCR. Pra-pelatihan dan penyempurnaannya telah meningkatkan kemampuan model secara signifikan. Pengguna dapat melakukan penalaran tugas dengan mengunggah tangkapan layar dan memperoleh rencana, tindakan selanjutnya, dan informasi koordinat operasi tertentu, sehingga memberikan pengalaman interaktif yang lebih nyaman dan efisien kepada pengguna. Model ini telah mencapai performa umum SOTA dalam beberapa pengujian benchmark, menunjukkan kepemimpinan teknisnya di bidang bahasa visual.

CogAgent open source menghadirkan alat baru yang kuat untuk komunitas AI, dan kemampuannya dalam pemahaman dan interaksi GUI diharapkan dapat mendorong pengembangan banyak skenario aplikasi. CogAgent diyakini akan memainkan peran penting di lebih banyak bidang di masa depan dan akan terus berkembang untuk memberikan layanan yang lebih lengkap kepada pengguna.