บรรณาธิการของ Downcodes ได้เรียนรู้ว่าทีมวิจัยทางวิทยาศาสตร์ของจีนได้เปิดตัวชุดข้อมูลหลายรูปแบบขนาดใหญ่พิเศษ Infinity-MM และโมเดล AI Aquila-VL-2B โดยอิงจากการฝึกอบรม ชุดข้อมูลนี้ประกอบด้วยคำอธิบายรูปภาพขนาดใหญ่ ข้อมูลคำแนะนำด้วยภาพ ฯลฯ และใช้เทคโนโลยีการวิเคราะห์รูปภาพและการดึงข้อมูลขั้นสูงเพื่อให้มั่นใจในคุณภาพและความหลากหลายของข้อมูล โมเดล Aquila-VL-2B ทำงานได้ดีในการทดสอบเกณฑ์มาตรฐานหลายรายการ ซึ่งเหนือกว่าระบบที่คล้ายกัน และแสดงให้เห็นถึงความก้าวหน้าที่สำคัญของจีนในด้าน AI หลายรูปแบบ ลักษณะโอเพ่นซอร์สของมันจะส่งเสริมการวิจัยทางวิชาการและการพัฒนาเทคโนโลยีอย่างมาก
ขนาดของชุดข้อมูล Infinity-MM นั้นมีจำนวนมหาศาล โดยประกอบด้วยข้อมูลสี่ประเภทหลักๆ ได้แก่ คำอธิบายรูปภาพ 10 ล้านรายการ ข้อมูลคำแนะนำด้วยภาพทั่วไป 24.4 ล้านรายการ ข้อมูลคำแนะนำคุณภาพสูงที่เลือกไว้ 6 ล้านรายการ และโมเดล AI 3 ล้านรายการ เช่น GPT-4 ที่สร้างขึ้น ข้อมูล. ทีมวิจัยใช้โมเดล AI แบบโอเพ่นซอร์ส RAM++ สำหรับการวิเคราะห์ภาพและการดึงข้อมูล และรับประกันคุณภาพและความหลากหลายของข้อมูลที่สร้างขึ้นผ่านระบบการจำแนกประเภทหกหมวดหมู่ที่เป็นเอกลักษณ์
ในแง่ของสถาปัตยกรรมโมเดล Aquila-VL-2B สร้างขึ้นบน LLaVA-OneVision และผสานรวมโมเดลภาษา Qwen-2.5 และเทคโนโลยีการประมวลผลภาพ SigLIP ทีมวิจัยนำวิธีการฝึกอบรมแบบก้าวหน้าสี่ขั้นตอนมาใช้: เริ่มต้นจากการเรียนรู้การเชื่อมโยงข้อความรูปภาพขั้นพื้นฐาน ค่อยๆ เปลี่ยนไปใช้งานด้านภาพทั่วไป การประมวลผลคำสั่งเฉพาะ และสุดท้ายก็รวมข้อมูลสังเคราะห์ ในขณะที่ค่อยๆ เพิ่มขีดจำกัดสูงสุดของความละเอียดของภาพ
แม้จะมีขนาดพารามิเตอร์เพียง 2 พันล้าน แต่ Aquila-VL-2B ก็ทำงานได้ดีในการทดสอบเกณฑ์มาตรฐานต่างๆ โดยได้รับคะแนนดีที่สุดที่ 54.9% ในการทดสอบความสามารถในการทำความเข้าใจแบบหลายรูปแบบ MMStar และยังได้คะแนนสูงถึง 59% ในการทดสอบความสามารถทางคณิตศาสตร์ MathVista ซึ่งเหนือกว่าระบบที่คล้ายกันอย่างมาก ในการทดสอบความเข้าใจเกี่ยวกับภาพทั่วไป โมเดลดังกล่าวได้รับผลลัพธ์ที่ยอดเยี่ยมถึง 43% และ 75.2% ใน HallusionBench และ MMBench ตามลำดับ
การวิจัยพบว่าการนำข้อมูลสังเคราะห์มาใช้มีส่วนช่วยอย่างมากในการปรับปรุงประสิทธิภาพของแบบจำลอง การทดลองแสดงให้เห็นว่าหากไม่ใช้ข้อมูลเพิ่มเติมนี้ ประสิทธิภาพของโมเดลจะลดลงโดยเฉลี่ย 2.4% ตั้งแต่ขั้นตอนที่สาม ประสิทธิภาพของ Aquila-VL-2B ได้แซงหน้ารุ่นอ้างอิงอย่างมาก เช่น InternVL2-2B และ Qwen2VL-2B โดยเฉพาะอย่างยิ่งในขั้นตอนที่สี่ เมื่อปริมาณข้อมูลเพิ่มขึ้น การปรับปรุงประสิทธิภาพก็ชัดเจนยิ่งขึ้น
เป็นที่น่าสังเกตว่าทีมวิจัยได้เปิดชุดข้อมูลและแบบจำลองให้กับชุมชนการวิจัย ซึ่งจะส่งเสริมการพัฒนาเทคโนโลยี AI หลายรูปแบบอย่างมาก โมเดลดังกล่าวไม่เพียงแต่ได้รับการฝึกฝนบน Nvidia A100 GPU เท่านั้น แต่ยังรองรับชิปที่จีนพัฒนาขึ้นเองอีกด้วย ซึ่งแสดงให้เห็นถึงความสามารถในการปรับเปลี่ยนฮาร์ดแวร์ที่แข็งแกร่ง
การเปิดตัวโมเดล Aquila-VL-2B ถือเป็นความก้าวหน้าครั้งสำคัญในด้าน AI แบบหลายรูปแบบในประเทศจีน ลักษณะโอเพ่นซอร์สและประสิทธิภาพอันทรงพลังของโมเดลนี้จะส่งเสริมการพัฒนาทางเทคโนโลยีและนวัตกรรมการใช้งานในด้านนี้ โดยอัดฉีดความมีชีวิตชีวาใหม่ ๆ ให้กับการพัฒนาในอนาคต ของปัญญาประดิษฐ์ บรรณาธิการของ Downcodes รอคอยที่จะมีการพัฒนาที่ก้าวหน้าที่คล้ายกันมากขึ้นในอนาคต