ทีม Alibaba Tongyi Qianwen เปิดตัวโมเดล Qwen2-VL เพื่อรองรับการวิเคราะห์วิดีโอไดนามิกแบบเรียลไทม์

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-24 09:32:01

Alibaba Damo Academy เปิดตัวการอัปเดตครั้งใหญ่สำหรับโมเดลภาษาขนาดใหญ่หลายรูปแบบ Qwen2-VL เมื่อวันที่ 30 สิงหาคม 2024 การอัปเดตนี้ทำให้เกิดความก้าวหน้าอย่างมากในการทำความเข้าใจรูปภาพ การประมวลผลวิดีโอ และการสนับสนุนหลายภาษา และกำหนดเกณฑ์มาตรฐานประสิทธิภาพใหม่ โมเดล Qwen2-VL ไม่เพียงปรับปรุงความเข้าใจในข้อมูลภาพเท่านั้น แต่ยังมีความสามารถในการทำความเข้าใจวิดีโอขั้นสูงและฟังก์ชันตัวแทนการแสดงภาพแบบบูรณาการ ทำให้สามารถดำเนินการให้เหตุผลและการตัดสินใจที่ซับซ้อนมากขึ้น นอกจากนี้ การสนับสนุนหลายภาษาที่ขยายทำให้ใช้งานทั่วโลกได้ง่ายขึ้น

รุ่น Qwen2-VL ได้รับการปรับปรุงอย่างมีนัยสำคัญในด้านความเข้าใจภาพ การประมวลผลวิดีโอ และการรองรับหลายภาษา โดยสร้างมาตรฐานใหม่สำหรับตัวบ่งชี้ประสิทธิภาพหลัก คุณสมบัติใหม่ของรุ่น Qwen2-VL รวมถึงความสามารถในการทำความเข้าใจรูปภาพที่ได้รับการปรับปรุงซึ่งช่วยให้เข้าใจและตีความข้อมูลภาพได้แม่นยำยิ่งขึ้น ความสามารถในการทำความเข้าใจวิดีโอขั้นสูงที่ช่วยให้โมเดลสามารถวิเคราะห์เนื้อหาวิดีโอไดนามิกแบบเรียลไทม์ และความสามารถในการสร้างภาพแบบบูรณาการที่เปลี่ยนแปลงโมเดล เป็นตัวแทนที่ทรงพลังสำหรับการให้เหตุผลที่ซับซ้อนและการตัดสินใจ และขยายการสนับสนุนหลายภาษา ทำให้เข้าถึงได้มากขึ้นและมีประสิทธิภาพในสภาพแวดล้อมของภาษาที่แตกต่างกัน

ในแง่ของสถาปัตยกรรมทางเทคนิค Qwen2-VL ใช้การรองรับความละเอียดแบบไดนามิกและสามารถประมวลผลรูปภาพที่มีความละเอียดใดๆ โดยไม่ต้องแบ่งออกเป็นบล็อก ดังนั้นจึงมั่นใจได้ถึงความสอดคล้องระหว่างอินพุตโมเดลและข้อมูลโดยธรรมชาติของรูปภาพ นอกจากนี้ นวัตกรรมของ Multimodal Rotary Position Embedding (M-ROPE) ช่วยให้โมเดลสามารถจับภาพและรวมข้อความ 1D, การมองเห็น 2D และข้อมูลตำแหน่งวิดีโอ 3D ได้พร้อมกัน

โมเดล Qwen2-VL-7B ยังคงรองรับอินพุตรูปภาพ หลายรูปภาพ และวิดีโอในระดับ 7B ได้สำเร็จ และทำงานได้ดีในงานทำความเข้าใจเอกสารและทำความเข้าใจข้อความหลายภาษาตามรูปภาพ

ในเวลาเดียวกัน ทีมงานยังได้เปิดตัวโมเดล 2B ที่ได้รับการปรับให้เหมาะกับการใช้งานบนมือถือ แม้ว่าจำนวนพารามิเตอร์จะอยู่ที่ 2B เท่านั้น แต่ก็ทำงานได้ดีในการทำความเข้าใจรูปภาพ วิดีโอ และหลายภาษา

ลิงค์รุ่น:

Qwen2-VL-2B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-2B-Instruct

Qwen2-VL-7B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-7B-Instruct

การอัปเดตโมเดล Qwen2-VL ถือเป็นความก้าวหน้าครั้งใหม่ของเทคโนโลยีโมเดลภาษาขนาดใหญ่แบบหลายโมดัล ความสามารถอันทรงพลังในการประมวลผลภาพ วิดีโอ และหลายภาษา มอบโอกาสที่กว้างขวางสำหรับการใช้งานในอนาคต การเปิดตัวสองเวอร์ชัน 7B และ 2B ยังมอบทางเลือกที่ยืดหยุ่นมากขึ้นสำหรับสถานการณ์การใช้งานที่แตกต่างกัน