อาลีบาบาประกาศว่าจะเปิดซอร์สโมเดลภาษาภาพรุ่นที่สอง Qwen2-VL และจัดเตรียมอินเทอร์เฟซ API และโค้ดโอเพ่นซอร์สเพื่ออำนวยความสะดวกในการใช้งานของนักพัฒนา โมเดลนี้มีความก้าวหน้าอย่างมากในการทำความเข้าใจรูปภาพและวิดีโอ รองรับหลายภาษา และมีความสามารถด้านวิชวลเอเจนต์ที่แข็งแกร่ง สามารถใช้งานโทรศัพท์มือถือและหุ่นยนต์ได้โดยอัตโนมัติ Qwen2-VL มีรุ่นสามขนาด: 2B, 7B และ 72B เพื่อตอบสนองความต้องการของสถานการณ์การใช้งานที่แตกต่างกัน รุ่น 72B ทำงานได้ดีที่สุดกับตัวบ่งชี้ส่วนใหญ่ ในขณะที่รุ่น 2B เหมาะสำหรับการใช้งานบนมือถือ
เมื่อวันที่ 2 กันยายน Tongyi Qianwen ได้ประกาศเปิดตัวโอเพ่นซอร์สของโมเดลภาษาภาพรุ่นที่สอง Qwen2-VL และเปิดตัว API สำหรับขนาด 2B และ 7B และโมเดลเวอร์ชันเชิงปริมาณบนแพลตฟอร์ม Alibaba Cloud Bailian เพื่อให้ผู้ใช้สามารถโทรได้โดยตรง
รุ่น Qwen2-VL ได้รับการปรับปรุงประสิทธิภาพอย่างครอบคลุมในหลายด้าน สามารถเข้าใจภาพที่มีความละเอียดและอัตราส่วนภาพต่างๆ และได้รับประสิทธิภาพชั้นนำระดับโลกในการทดสอบเกณฑ์มาตรฐาน เช่น DocVQA, RealWorldQA และ MTVQA นอกจากนี้ โมเดลยังสามารถเข้าใจวิดีโอขนาดยาวที่มีความยาวมากกว่า 20 นาที และรองรับแอปพลิเคชันถามตอบ บทสนทนา และการสร้างเนื้อหาในรูปแบบวิดีโอ Qwen2-VL ยังมีความสามารถด้านการมองเห็นที่ทรงพลัง และสามารถสั่งงานโทรศัพท์มือถือและหุ่นยนต์ได้โดยอัตโนมัติ เพื่อทำการให้เหตุผลและการตัดสินใจที่ซับซ้อน
โมเดลนี้สามารถเข้าใจข้อความหลายภาษาในรูปภาพและวิดีโอ รวมถึงภาษาจีน อังกฤษ ภาษายุโรปส่วนใหญ่ ญี่ปุ่น เกาหลี อาหรับ เวียดนาม และอื่นๆ ทีม Tongyi Qianwen ประเมินความสามารถของโมเดลจาก 6 แง่มุม ได้แก่ คำถามระดับวิทยาลัยที่ครอบคลุม ความสามารถทางคณิตศาสตร์ ความเข้าใจในเอกสาร ตาราง ข้อความและรูปภาพหลายภาษา คำถามและคำตอบเกี่ยวกับฉากทั่วไป ความเข้าใจในวิดีโอ และความสามารถของตัวแทน
ในฐานะรุ่นเรือธง Qwen2-VL-72B ได้มาถึงระดับที่เหมาะสมที่สุดในตัวบ่งชี้ส่วนใหญ่แล้ว Qwen2-VL-7B บรรลุประสิทธิภาพการแข่งขันสูงด้วยขนาดพารามิเตอร์ที่ประหยัด ในขณะที่ Qwen2-VL-2B รองรับแอปพลิเคชันมือถือที่หลากหลาย และมีความสามารถในการเข้าใจรูปภาพและวิดีโอหลายภาษาอย่างสมบูรณ์
ในแง่ของสถาปัตยกรรมโมเดล Qwen2-VL ยังคงใช้โครงสร้างซีรีส์ของ ViT บวกกับ Qwen2 ทั้งสามขนาดรุ่นใช้ 600M ViT ซึ่งรองรับอินพุตรูปภาพและวิดีโอแบบรวม เพื่อปรับปรุงการรับรู้ข้อมูลภาพและความสามารถในการทำความเข้าใจวิดีโอของโมเดล ทีมงานได้อัปเกรดสถาปัตยกรรม รวมถึงการใช้การสนับสนุนเต็มรูปแบบสำหรับความละเอียดไดนามิกดั้งเดิม และการใช้วิธีการฝังตำแหน่งการหมุนหลายรูปแบบ (M-ROPE)
แพลตฟอร์ม Alibaba Cloud Bailian มี Qwen2-VL-72B API ซึ่งผู้ใช้สามารถโทรได้โดยตรง ในเวลาเดียวกัน โค้ดโอเพ่นซอร์สของ Qwen2-VL-2B และ Qwen2-VL-7B ได้ถูกรวมเข้ากับ Hugging Face Transformers, vLLM และเฟรมเวิร์กของบุคคลที่สามอื่นๆ แล้ว และนักพัฒนาก็สามารถดาวน์โหลดและใช้โมเดลต่างๆ ผ่านแพลตฟอร์มเหล่านี้ได้
แพลตฟอร์มอาลีบาบาคลาวด์ Bailian:
https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api
GitHub:
https://github.com/QwenLM/Qwen2-VL
การกอดใบหน้า:
https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
ขอบเขตโมเดลเมจิก:
https://modelscope.cn/organization/qwen?tab=model
ประสบการณ์โมเดล:
https://huggingface.co/spaces/Qwen/Qwen2-VL
กล่าวโดยสรุป โอเพ่นซอร์สของโมเดล Qwen2-VL ช่วยให้นักพัฒนามีเครื่องมืออันทรงพลัง ส่งเสริมการพัฒนาเทคโนโลยีโมเดลภาษาภาพ และนำความเป็นไปได้มาสู่สถานการณ์การใช้งานต่างๆ มากขึ้น นักพัฒนาสามารถรับโมเดลและโค้ดผ่านลิงก์ที่ให้ไว้เพื่อเริ่มสร้างแอปพลิเคชันของตนเอง