Zhipu AI ได้ใช้โมเดลโอเพ่นซอร์ส CogAgent-9B ตามการฝึกอบรม GLM-4V-9B นี่คือโมเดลงาน Agent ที่สามารถเข้าใจคำแนะนำของผู้ใช้ผ่านภาพหน้าจอและคาดการณ์การทำงานของ GUI ถัดไป โมเดลนี้มีความเป็นสากลสูงและเหมาะสำหรับสถานการณ์การโต้ตอบ GUI ต่างๆ เช่น คอมพิวเตอร์ส่วนบุคคล โทรศัพท์มือถือ และรถยนต์ เมื่อเปรียบเทียบกับเวอร์ชันก่อนหน้า CogAgent-9B-20241220 ได้รับการปรับปรุงอย่างมีนัยสำคัญในหลาย ๆ ด้าน รองรับภาษาจีนและอังกฤษสองภาษา และสามารถแสดงกระบวนการคิดโดยละเอียด คำอธิบายการกระทำ และการตัดสินความไว โดยได้รับผลลัพธ์ชั้นนำจากชุดข้อมูลหลายชุด ซึ่งแสดงให้เห็นถึงข้อได้เปรียบในด้านการวางตำแหน่ง GUI การดำเนินการขั้นตอนเดียวและหลายขั้นตอน CogAgent-9B แบบโอเพ่นซอร์สไม่เพียงแต่ส่งเสริมการพัฒนาเทคโนโลยีแบบจำลองขนาดใหญ่เท่านั้น แต่ยังมอบความเป็นไปได้ใหม่ๆ ให้กับผู้ที่มีความบกพร่องทางสายตาอีกด้วย
เมื่อเปรียบเทียบกับเวอร์ชันแรกของโมเดล CogAgent ที่เปิดซอร์สในเดือนธันวาคม 2023 CogAgent-9B-20241220 มีการปรับปรุงอย่างมีนัยสำคัญในแง่ของการรับรู้ GUI ความแม่นยำในการทำนายการอนุมาน ความสมบูรณ์ของพื้นที่การดำเนินการ ความเป็นสากลของงาน และลักษณะทั่วไป และรองรับภาพหน้าจอและภาษาสองภาษา ปฏิสัมพันธ์ในภาษาจีนและภาษาอังกฤษ การป้อนข้อมูลของ CogAgent จะรวมเฉพาะคำแนะนำในภาษาธรรมชาติของผู้ใช้ บันทึกการดำเนินการในอดีตที่ดำเนินการ และภาพหน้าจอ GUI โดยไม่มีการแสดงข้อความของข้อมูลโครงร่างหรือข้อมูลป้ายกำกับองค์ประกอบเพิ่มเติม ผลลัพธ์ครอบคลุมกระบวนการคิด คำอธิบายภาษาธรรมชาติของการกระทำถัดไป คำอธิบายแบบโครงสร้างของการกระทำถัดไป และการตัดสินความไวของการกระทำถัดไป
ในการทดสอบประสิทธิภาพ CogAgent-9B-20241220 ได้รับผลลัพธ์ชั้นนำจากชุดข้อมูลหลายชุด ซึ่งแสดงให้เห็นถึงข้อได้เปรียบในด้านการวางตำแหน่ง GUI การดำเนินการขั้นตอนเดียว รายการขั้นตอนภาษาจีน และการดำเนินการหลายขั้นตอน การเคลื่อนไหวโดย Smart Spectrum Technology นี้ไม่เพียงแต่ส่งเสริมการพัฒนาเทคโนโลยีแบบจำลองขนาดใหญ่เท่านั้น แต่ยังมอบเครื่องมือและความเป็นไปได้ใหม่ๆ สำหรับผู้ปฏิบัติงานด้านไอทีที่มีความบกพร่องทางสายตาอีกด้วย
รหัส:
https://github.com/THUDM/CogAgent
แบบอย่าง:
หน้ากอด: https://huggingface.co/THUDM/cogagent-9b-20241220
ชุมชน Cogagent: https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220
โอเพ่นซอร์สของ CogAgent-9B ถือเป็นก้าวสำคัญในระบบนิเวศของ Agent รุ่นใหญ่ ความสามารถในการโต้ตอบ GUI ที่มีประสิทธิภาพและการนำไปใช้งานที่หลากหลายนั้นมอบทิศทางใหม่สำหรับการพัฒนาเทคโนโลยีการโต้ตอบอัจฉริยะในอนาคต และยังเป็นการแจ้งถึงสถานการณ์การใช้งานในอนาคตที่สะดวกและชาญฉลาดยิ่งขึ้นอีกด้วย เราหวังว่าจะได้เห็นการใช้งานที่เป็นนวัตกรรมมากขึ้นซึ่งใช้ CogAgent-9B