มหาวิทยาลัยวิศวกรรมศาสตร์อันฮุย มหาวิทยาลัยเทคโนโลยีนันยาง และมหาวิทยาลัยลีไฮ ร่วมกันเปิดตัว TinyGPT-V โมเดลขนาดใหญ่หลายรูปแบบที่สะดุดตา คุณสมบัติเด่นของรุ่นนี้คือความคุ้มทุนที่น่าทึ่ง โดยประสิทธิภาพเทียบได้กับรุ่นที่มีพารามิเตอร์หลายหมื่นล้านรายการ แต่ต้องใช้ GPU 24G เท่านั้นจึงจะเสร็จสิ้นการฝึกอบรมได้ ซึ่งช่วยลดเกณฑ์ทรัพยากรได้อย่างมาก นี่เป็นประโยชน์หลักอย่างไม่ต้องสงสัยสำหรับบุคคลและสถาบันที่ต้องการดำเนินการวิจัยแบบจำลองขนาดใหญ่และการใช้งานด้วยทรัพยากรที่จำกัด สถาปัตยกรรมของ TinyGPT-V ส่วนใหญ่ประกอบด้วยโมเดลภาษาขนาดใหญ่ Phi-2 ตัวเข้ารหัสภาพ และเลเยอร์การฉายภาพเชิงเส้น นอกจากนี้ ผลการประเมินประสิทธิภาพแบบหลายมุมยังแสดงให้เห็นถึงความแข็งแกร่งในงานด้านภาษาภาพหลายภาษาอีกด้วย
นักวิจัยจาก Anhui Engineering University, Nanyang Technological University และ Lehigh University ได้ใช้โมเดลหลายรูปแบบขนาดใหญ่แบบโอเพ่นซอร์ส - TinyGPT-V ประสิทธิภาพเทียบได้กับรุ่นที่มีพารามิเตอร์หลายหมื่นล้านรายการ และการฝึกอบรมต้องใช้ GPU 24G เท่านั้นจึงจะเสร็จสมบูรณ์ TinyGPT-V ประกอบด้วยบล็อกหลักสามส่วน ได้แก่ โมเดลภาษาขนาดใหญ่ Phi-2 ตัวเข้ารหัสภาพ และเลเยอร์การฉายภาพเชิงเส้น นักวิจัยได้ทำการประเมินประสิทธิภาพของ TinyGPT-V แบบหลายมุม ซึ่งแสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในงานที่มีภาษาภาพหลายภาษา
โอเพ่นซอร์สของ TinyGPT-V มอบแนวคิดและความเป็นไปได้ใหม่ๆ สำหรับการวิจัยและการประยุกต์ใช้โมเดลขนาดใหญ่แบบหลายรูปแบบ และยังถือเป็นความก้าวหน้าที่สำคัญในการลดเกณฑ์สำหรับการฝึกโมเดลขนาดใหญ่อีกด้วย ในอนาคต เราคาดหวังว่าจะมีโมเดลขนาดใหญ่ราคาประหยัดที่มีประสิทธิภาพสูงที่คล้ายกันมากขึ้น ซึ่งจะช่วยส่งเสริมความนิยมและการพัฒนาเทคโนโลยีปัญญาประดิษฐ์ ประสิทธิภาพที่มีประสิทธิภาพในสภาพแวดล้อมที่มีทรัพยากรจำกัดได้นำข่าวดีมาสู่ทั้งภาควิชาการและภาคอุตสาหกรรม