ทีมวิจัยวิทยาศาสตร์ของจีนได้เปิดตัวชุดข้อมูลหลายรูปแบบอินฟินิตี้-MM ขนาดใหญ่และโมเดล Aquila-VL-2B AI ที่ผ่านการฝึกอบรมตามชุดข้อมูลทำให้เกิดการพัฒนาที่สำคัญในสาขา AI แบบหลายรูปแบบ ชุดข้อมูล Infinity-MM ประกอบด้วยคำอธิบายภาพขนาดใหญ่ข้อมูลคำสั่งภาพและข้อมูลที่สร้างขึ้นโดยรุ่น GPT-4 และใช้โมเดล RAM ++ สำหรับการวิเคราะห์ภาพและระบบการจำแนกประเภทหกหมวดหมู่ที่ไม่ซ้ำกันเพื่อให้แน่ใจว่าคุณภาพข้อมูล โมเดล Aquila-VL-2B นั้นใช้สถาปัตยกรรม LLAVA-OneVision ได้รวมรูปแบบภาษา Qwen-2.5 และเทคโนโลยีการประมวลผลภาพ SIGLIP ใช้วิธีการฝึกอบรมแบบก้าวหน้าสี่ขั้นตอนซึ่งทำงานได้อย่างยอดเยี่ยมในการทดสอบมาตรฐานหลายระดับ
ชุดข้อมูล Infinity-MM นั้นยอดเยี่ยมในระดับและมีข้อมูลสี่ประเภท: คำอธิบายภาพ 10 ล้านรายการข้อมูลการเรียนการสอนภาพทั่วไป 24.4 ล้านข้อมูลข้อมูลการเรียนการสอนคุณภาพสูง 6 ล้านรายการและ 3 ล้านโมเดล AI เช่น GPT-4 ที่สร้างขึ้น ข้อมูล. ทีมวิจัยใช้โมเดลโอเพนซอร์ส AI RAM ++ สำหรับการวิเคราะห์ภาพและการสกัดข้อมูลและทำให้มั่นใจถึงคุณภาพและความหลากหลายของข้อมูลที่สร้างขึ้นผ่านระบบการจำแนกประเภทหกหมวดที่ไม่ซ้ำกัน
ในแง่ของสถาปัตยกรรมแบบจำลอง Aquila-VL-2B ถูกสร้างขึ้นตาม LLAVA-OneVision และรวมรูปแบบภาษา QWEN-2.5 และเทคโนโลยีการประมวลผลภาพ SIGLIP ทีมวิจัยได้ใช้วิธีการฝึกอบรมแบบค่อยเป็นค่อยไปสี่ขั้นตอน: เริ่มต้นจากการเรียนรู้สหสัมพันธ์แบบกราฟิกพื้นฐานพื้นฐานค่อยๆเปลี่ยนไปใช้งานภาพทั่วไปและการประมวลผลการเรียนการสอนที่เฉพาะเจาะจงและในที่สุดก็รวมข้อมูลสังเคราะห์ในขณะที่ค่อยๆเพิ่มขีด จำกัด สูงสุดของความละเอียดภาพ
แม้จะมีพารามิเตอร์เพียง 2 พันล้านพารามิเตอร์ Aquila-VL-2B ทำงานได้ดีในการทดสอบมาตรฐานต่างๆ คะแนนที่ดีที่สุดในการทดสอบความสามารถในการทำความเข้าใจหลายรูปแบบ MMSTAR ประสบความสำเร็จ 54.9%และคะแนนสูงในการทดสอบความสามารถทางคณิตศาสตร์ Mathvista ประสบความสำเร็จ 59%ซึ่งเหนือกว่าระบบที่คล้ายคลึงกันอย่างมีนัยสำคัญ ในการทดสอบการทำความเข้าใจภาพทั่วไปแบบจำลองได้ผลลัพธ์ที่ยอดเยี่ยม 43% และ 75.2% ใน Hallusionbench และ Mmbench ตามลำดับ
การศึกษาพบว่าการแนะนำข้อมูลสังเคราะห์มีส่วนสำคัญในการปรับปรุงประสิทธิภาพของแบบจำลอง การทดลองแสดงให้เห็นว่าโดยไม่ต้องใช้ข้อมูลเพิ่มเติมเหล่านี้ประสิทธิภาพของโมเดลจะลดลงโดยเฉลี่ย 2.4% เริ่มต้นจากขั้นตอนที่สามประสิทธิภาพของ Aquila-VL-2B นั้นเกินกว่ารูปแบบการอ้างอิงอย่างมีนัยสำคัญเช่น InternVL2-2B และ QWEN2VL-2B โดยเฉพาะอย่างยิ่งในขั้นตอนที่สี่การปรับปรุงประสิทธิภาพจะชัดเจนยิ่งขึ้นเมื่อปริมาณข้อมูลเพิ่มขึ้น
เป็นเรื่องที่ควรค่าแก่การกล่าวถึงว่าทีมวิจัยได้เปิดชุดข้อมูลและแบบจำลองให้กับชุมชนการวิจัยซึ่งจะส่งเสริมการพัฒนาเทคโนโลยี AI แบบหลายรูปแบบอย่างมาก รุ่นนี้ไม่เพียง แต่จะเสร็จสิ้นการฝึกอบรมเกี่ยวกับ Nvidia A100GPU แต่ยังสนับสนุนชิปที่พัฒนาด้วยตนเองของจีนแสดงให้เห็นถึงความสามารถในการปรับตัวของฮาร์ดแวร์ที่แข็งแกร่ง
ความสำเร็จของโมเดล Aquila-VL-2B รวมถึงแหล่งข้อมูลและโมเดลแบบเปิดโล่งเป็นความคืบหน้าอย่างมีนัยสำคัญในสาขาปัญญาประดิษฐ์หลายรูปแบบของจีนเป็นรากฐานที่มั่นคงสำหรับการพัฒนา AI ในอนาคต จะนำโอกาสในการใช้งานที่กว้างขึ้น