ในช่วงไม่กี่ปีที่ผ่านมา เทคโนโลยีโมเดลภาษาขนาดใหญ่ (LLM) ได้พัฒนาอย่างรวดเร็ว และโมเดลภาษาภาพซึ่งเป็นสาขาสำคัญก็ได้รับความสนใจอย่างกว้างขวาง โดยเฉพาะอย่างยิ่งในประเทศจีน มหาวิทยาลัยต่างๆ เช่น มหาวิทยาลัยซิงหัว และมหาวิทยาลัยเจ้อเจียง ส่งเสริมการวิจัยและพัฒนาแบบจำลองภาพแบบโอเพ่นซอร์สอย่างจริงจัง โดยอัดฉีดพลังใหม่ให้กับการพัฒนาสาขาปัญญาประดิษฐ์ในประเทศ บทความนี้จะเน้นไปที่โมเดลการมองเห็นแบบโอเพ่นซอร์สระดับสูงหลายแบบ และวิเคราะห์ศักยภาพของโมเดลเหล่านั้นในด้านการประมวลผลการมองเห็น
มหาวิทยาลัยต่างๆ เช่น มหาวิทยาลัย Tsinghua และมหาวิทยาลัย Zhejiang ได้ส่งเสริมทางเลือกโอเพ่นซอร์สแทน GPT-4V และชุดแบบจำลองภาพโอเพ่นซอร์สที่มีประสิทธิภาพดีเยี่ยมได้เกิดขึ้นในประเทศจีน ในหมู่พวกเขา LLaVA, CogAgent และ BakLLaVA ได้รับความสนใจอย่างมาก LLaVA ได้แสดงให้เห็นถึงความสามารถที่ใกล้เคียงกับระดับ GPT-4 ในการสนทนาด้วยภาพและการตอบคำถามโดยใช้เหตุผล ในขณะที่ CogAgent เป็นโมเดลภาษาภาพแบบโอเพ่นซอร์สที่ได้รับการปรับปรุงบน CogVLM นอกจากนี้ BakLLaVA ยังเป็นโมเดลพื้นฐาน Mistral7B ที่ได้รับการปรับปรุงโดยใช้สถาปัตยกรรม LLaVA1.5 ซึ่งมีประสิทธิภาพที่ดีขึ้นและความสามารถเชิงพาณิชย์ โมเดลวิชันโอเพ่นซอร์สเหล่านี้มีศักยภาพอย่างมากในด้านการประมวลผลวิชัน
การเกิดขึ้นของโมเดลภาพแบบโอเพ่นซอร์ส เช่น LLaVA, CogAgent และ BakLLaVA ถือเป็นความก้าวหน้าที่สำคัญของจีนในด้านปัญญาประดิษฐ์ โดยมอบเครื่องมือและทรัพยากรอันทรงพลังสำหรับแวดวงวิชาการและอุตสาหกรรม และยังบ่งชี้ว่าโมเดลภาษาภาพจะมีโอกาสนำไปใช้ในวงกว้างมากขึ้นในอนาคต ส่งเสริมการพัฒนาเทคโนโลยีปัญญาประดิษฐ์ที่ยั่งยืน และนำการเปลี่ยนแปลงมาสู่ทุกสาขาอาชีพ โอเพ่นซอร์สของโมเดลเหล่านี้ยังช่วยลดเกณฑ์ทางเทคนิคและส่งเสริมนวัตกรรมและความร่วมมือในวงกว้างอีกด้วย