CogAgent โมเดลภาษาภาพโอเพนซอร์ส Zhipu AI รองรับคำถามและคำตอบอินเทอร์เฟซกราฟิก GUI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-01-16 14:16:01

เมื่อเร็วๆ นี้ Zhipu AI ได้เปิดซอร์สโมเดลภาษาภาพ CogAgent ซึ่งเป็นเครื่องมืออันทรงพลังที่มีขนาดพารามิเตอร์ 18 พันล้าน และประสิทธิภาพที่ยอดเยี่ยมในการทำความเข้าใจและการนำทาง GUI CogAgent รองรับการป้อนข้อมูลด้วยภาพความละเอียดสูงและการถามตอบการสนทนา สามารถดำเนินการถามตอบตามภาพหน้าจอ GUI ใดก็ได้ และรองรับงานที่เกี่ยวข้องกับ OCR การฝึกอบรมล่วงหน้าและการปรับแต่งอย่างละเอียดได้ปรับปรุงความสามารถของโมเดลอย่างมาก ผู้ใช้สามารถดำเนินการให้เหตุผลของงานได้โดยการอัปโหลดภาพหน้าจอและรับแผน การดำเนินการถัดไป และข้อมูลประสานงานการปฏิบัติงานเฉพาะ ทำให้ผู้ใช้ได้รับประสบการณ์การโต้ตอบที่สะดวกและมีประสิทธิภาพมากขึ้น โมเดลนี้บรรลุประสิทธิภาพทั่วไปของ SOTA ในการทดสอบเกณฑ์มาตรฐานหลายรายการ ซึ่งแสดงให้เห็นถึงความเป็นผู้นำด้านเทคนิคในด้านภาษาภาพ

โอเพ่นซอร์สของ CogAgent นำเครื่องมือใหม่อันทรงพลังมาสู่ชุมชน AI และความสามารถของเครื่องมือในการทำความเข้าใจและการโต้ตอบของ GUI นั้นคาดว่าจะช่วยส่งเสริมการพัฒนาสถานการณ์แอปพลิเคชันจำนวนมาก เชื่อว่า CogAgent จะมีบทบาทสำคัญในสาขาต่างๆ มากขึ้นในอนาคต และจะปรับปรุงต่อไปเพื่อมอบบริการที่สมบูรณ์ยิ่งขึ้นแก่ผู้ใช้