Zero One Wish ได้เปิดตัวซีรีส์ Yi ของโมเดลภาษาหลายภาษา Yi-VL ซึ่งแสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในการทำความเข้าใจรูปภาพและข้อความและการสร้างบทสนทนา โมเดล Yi-VL ได้รับผลลัพธ์ชั้นนำทั้งชุดข้อมูลภาษาจีนและอังกฤษ โดยเฉพาะอย่างยิ่งในการทดสอบเกณฑ์มาตรฐาน MMMU นั้น Yi-VL-34B เหนือกว่ารุ่นอื่นๆ ที่คล้ายคลึงกันด้วยความแม่นยำ 41.6% ซึ่งแสดงให้เห็นถึงความเข้าใจความรู้แบบสหวิทยาการที่แข็งแกร่งและความสามารถในการประยุกต์ . บทความนี้จะเจาะลึกเกี่ยวกับสถาปัตยกรรม ประสิทธิภาพ และความสำคัญของโมเดล Yi-VL ในด้านมัลติโมดัล
โมเดลภาษามัลติโมดัล 01Wan Yi-VL เป็นสมาชิกใหม่ของตระกูลโมเดล 01Wan Yi โดยมีความสามารถที่ยอดเยี่ยมในการทำความเข้าใจรูปภาพและข้อความและการสร้างบทสนทนา โมเดล Yi-VL ได้รับผลลัพธ์ชั้นนำทั้งชุดข้อมูลภาษาอังกฤษ MMMU และชุดข้อมูลจีน CMMMU ซึ่งแสดงให้เห็นถึงความแข็งแกร่งในงานสหวิทยาการที่ซับซ้อน Yi-VL-34B เหนือกว่ารุ่นใหญ่หลายรูปแบบอื่นๆ ใน MMMU เกณฑ์มาตรฐานหลายรูปแบบใหม่ ด้วยความแม่นยำ 41.6% แสดงให้เห็นถึงความเข้าใจความรู้แบบสหวิทยาการที่แข็งแกร่งและความสามารถในการประยุกต์ โมเดล Yi-VL มีพื้นฐานมาจากสถาปัตยกรรมโอเพ่นซอร์ส LLaVA และประกอบด้วย Vision Transformer (ViT), โมดูล Projection และโมเดลภาษาขนาดใหญ่ Yi-34B-Chat และ Yi-6B-Chat ViT ใช้สำหรับการเข้ารหัสภาพ โมดูลการฉายภาพใช้ความสามารถในการจัดตำแหน่งคุณสมบัติภาพด้วยคุณสมบัติข้อความ และโมเดลภาษาขนาดใหญ่ให้ความสามารถในการทำความเข้าใจภาษาและการสร้างที่มีประสิทธิภาพการเกิดขึ้นของโมเดล Yi-VL ถือเป็นความก้าวหน้าครั้งใหม่ของเทคโนโลยีโมเดลภาษาแบบหลายโมดอล และประสิทธิภาพอันทรงพลังและโอกาสในการประยุกต์ใช้งานได้อย่างกว้างไกลนั้นคุ้มค่ากับการรอคอย ในอนาคต ด้วยการพัฒนาเทคโนโลยีอย่างต่อเนื่อง โมเดล Yi-VL คาดว่าจะมีบทบาทสำคัญในสาขาอื่นๆ มากขึ้นและส่งเสริมความก้าวหน้าและการประยุกต์ใช้เทคโนโลยีปัญญาประดิษฐ์