ในช่วงไม่กี่ปีที่ผ่านมา สาขาปัญญาประดิษฐ์มีความก้าวหน้าอย่างมากในการบูรณาการการมองเห็นและภาษา โดยเฉพาะอย่างยิ่งการเกิดขึ้นของแบบจำลองภาษาขนาดใหญ่ ซึ่งได้เติมพลังใหม่ให้กับการพัฒนาระบบปัญญาประดิษฐ์หลายรูปแบบ อย่างไรก็ตาม ยังมีความท้าทายในการสร้างแบบจำลองพื้นฐานที่แข็งแกร่งของการมองเห็นและภาษาภาพ เพื่อตอบสนองความท้าทายนี้ นักวิจัยจากมหาวิทยาลัยและสถาบันวิจัยที่มีชื่อเสียงหลายแห่งได้ร่วมมือกันพัฒนาแบบจำลองเชิงนวัตกรรมที่เรียกว่า InternVL ซึ่งมีเป้าหมายเพื่อปรับปรุงขนาดและความอเนกประสงค์ของแบบจำลองการมองเห็นขั้นพื้นฐานเพื่อให้สามารถรับมือกับงานแบบจำลองทางภาษาต่างๆ ได้ดียิ่งขึ้น
เมื่อเร็วๆ นี้ สาขาปัญญาประดิษฐ์ได้มุ่งเน้นไปที่การบูรณาการการมองเห็นและภาษาอย่างราบรื่น โดยเฉพาะอย่างยิ่งเมื่อมีการเกิดขึ้นของโมเดลภาษาขนาดใหญ่ (LLM) ซึ่งมีความก้าวหน้าอย่างมาก อย่างไรก็ตาม สำหรับระบบ AGI หลายรูปแบบ การพัฒนาแบบจำลองพื้นฐานของการมองเห็นและภาษาภาพยังคงต้องตามให้ทัน เพื่อเติมเต็มช่องว่างนี้ นักวิจัยจาก Nanjing University, OpenGVLab, Shanghai Artificial Intelligence Laboratory, University of Hong Kong, Chinese University of Hong Kong, Tsinghua University, University of Science and Technology of China และ SenseTime Research ได้เสนอโมเดลนวัตกรรม - InternVL โมเดลนี้จะขยายขอบเขตของโมเดลตามการมองเห็นและปรับให้เข้ากับงานภาษาภาพทั่วไป InternVL แสดงให้เห็นถึงความสามารถที่เหนือกว่าในงานที่หลากหลาย เช่น การจัดหมวดหมู่รูปภาพและวิดีโอ การดึงข้อความรูปภาพและวิดีโอ คำบรรยายภาพ การตอบคำถามด้วยภาพ และบทสนทนาหลายรูปแบบ โดยมีประสิทธิภาพเหนือกว่าวิธีการที่มีอยู่ในเกณฑ์มาตรฐานภาษาภาพทั่วไป 32 รายการการเกิดขึ้นของโมเดล InternVL ถือเป็นก้าวใหม่ในการพัฒนาโมเดลภาษาภาพ ผลลัพธ์ที่ยอดเยี่ยมในการทดสอบเกณฑ์มาตรฐานหลายรายการ มอบแนวทางใหม่และความเป็นไปได้สำหรับการสร้างระบบปัญญาประดิษฐ์หลายรูปแบบในอนาคต คาดว่าโมเดลนี้จะมีบทบาทในการใช้งานจริงมากขึ้นในอนาคต และส่งเสริมการพัฒนาและการประยุกต์ใช้เทคโนโลยีปัญญาประดิษฐ์