ทีมวิจัยจากสถาบันต่างๆ เช่น Chinese University of Hong Kong และ Chinese Academy of Sciences ได้เปิดตัวกระบวนทัศน์ก่อนการฝึกอบรมแบบเต็มรูปแบบที่เรียกว่า MiCo ซึ่งสร้างความก้าวหน้าอย่างก้าวกระโดดในด้านการเรียนรู้แบบหลายรูปแบบและรีเฟรช 37 state-of บันทึกการแสดงศิลปะ (SOTA) MiCo มีเป้าหมายเพื่อสร้างความฉลาดแบบเต็มรูปแบบที่สามารถเข้าใจรูปแบบต่างๆ และเรียนรู้การเป็นตัวแทนแบบสากล และจำลองกระบวนการรับรู้แบบหลายรูปแบบของสมองมนุษย์โดยแนะนำรูปแบบ ปริมาณข้อมูล และพารามิเตอร์ของแบบจำลองมากขึ้น แกนหลักคือการแบ่งโหมดต่างๆ ออกเป็น "โหมดความรู้" และ "โหมดอินเทอร์เฟซ" และออกแบบสถาปัตยกรรมการเรียนรู้แบบเต็มรูปแบบที่สอดคล้องกัน โดยใช้บริบทแบบหลายรูปแบบเพื่อเสริมสร้างการเสริมกำลังซึ่งกันและกันระหว่างรูปแบบต่างๆ และสร้างความสัมพันธ์ตามบริบทแบบข้ามโมดัล ผลการวิจัยนี้ให้แนวทางและแนวคิดใหม่ในการพัฒนาด้านปัญญาประดิษฐ์
ข่าวจาก ChinaZ.com เมื่อวันที่ 17 มิถุนายน: ทีมวิจัยจาก Chinese University of Hong Kong, Chinese Academy of Sciences และสถาบันอื่นๆ เสนอกระบวนทัศน์ก่อนการฝึกอบรมแบบเต็มรูปแบบที่เรียกว่า MiCo (Multimodal Context) วิธีนี้มีผลลัพธ์ที่น่าทึ่ง ประสบความสำเร็จในด้านการเรียนรู้แบบหลายรูปแบบ โดยสร้างบันทึกประสิทธิภาพอันล้ำสมัย (SOTA) 37 รายการ
คุณสมบัติหลัก:
ความเข้าใจแบบเต็มรูปแบบ: MiCo มุ่งหวังที่จะสร้างความฉลาดแบบเต็มรูปแบบที่สามารถเข้าใจรูปแบบใดๆ และเรียนรู้การเป็นตัวแทนแบบสากล
การฝึกอบรมล่วงหน้าขนาดใหญ่: ด้วยการแนะนำรูปแบบ ปริมาณข้อมูล และพารามิเตอร์แบบจำลองที่มากขึ้น MiCo จะจำลองกระบวนการรับรู้แบบหลายรูปแบบของสมองมนุษย์ในระหว่างกระบวนการก่อนการฝึกอบรม
การออกแบบโครงสร้างโครงข่ายประสาทเทียม: MiCo แบ่งโหมดต่างๆ ออกเป็น "โหมดความรู้" และ "โหมดอินเทอร์เฟซ" และออกแบบสถาปัตยกรรมการเรียนรู้แบบเต็มรูปแบบที่สอดคล้องกัน ซึ่งสอดคล้องกันผ่านวิธีการให้เหตุผลเชิงกำเนิด
บริบทหลายรูปแบบและกฎหมายการปรับขนาด: MiCo ใช้บริบทหลายรูปแบบเพื่อเสริมสร้างการเสริมกำลังร่วมกันระหว่างรูปแบบต่างๆ และสร้างความสัมพันธ์บริบทข้ามรูปแบบ
ผลการทดลองแสดง:
ในการทดสอบเกณฑ์มาตรฐานการรับรู้แบบโหมดเดียวของ 10 โหมดที่แตกต่างกัน MiCo ได้รับผลลัพธ์ SOTA 7 รายการ
ในงานทำความเข้าใจข้ามโมดัล 25 งาน รวมถึงการสืบค้น คำถามและคำตอบ คำอธิบาย ฯลฯ MiCo บรรลุผลลัพธ์ SOTA 20 รายการ
ในการทดสอบเกณฑ์มาตรฐานแบบจำลองภาษาขนาดใหญ่หลายรูปแบบ 18 รูปแบบ MiCo ได้รับผลลัพธ์ SOTA ทั้งหมด 10 รายการ
วิธีการฝึกอบรมล่วงหน้าของ MiCo:
ทีมงานใช้วิดีโอและเสียงที่จับคู่ คำอธิบายข้อความ ความลึกและปกติสำหรับการฝึกร่วมกันล่วงหน้าเพื่อจำลองความสามารถในการรับรู้ทางภาพ การได้ยิน และกาลอวกาศของสมองมนุษย์
ความสัมพันธ์ของบริบทแบบหลายโมดัลถูกสร้างขึ้นโดยการแยกคุณสมบัติหลายโมดอลโดยใช้ตัวเข้ารหัสทุกรูปแบบ (เช่น ViT) และการแยกคุณสมบัติข้อความโดยใช้ตัวเข้ารหัสข้อความ
บทสรุปและงานในอนาคต:
โครงการ MiCo ถือเป็นความพยายามครั้งสำคัญของปัญญาประดิษฐ์ในการจำลองการรับรู้หลายรูปแบบของสมองมนุษย์ ทีมงานคาดหวังว่าโครงการนี้จะสร้างแรงบันดาลใจให้กับการวิจัยในอนาคต และพัฒนาแบบจำลองพื้นฐานแบบเต็มรูปแบบที่มีประสิทธิภาพมากขึ้น
แผนงานในอนาคตรวมถึงการรวมรูปแบบต่างๆ เข้าด้วยกัน เช่น การไหลด้วยแสง ข้อมูล IMU และไฟล์เหตุการณ์ เพื่อปรับปรุงการฝึกอบรมล่วงหน้าร่วมแบบเต็มรูปแบบต่อไป
ประสิทธิภาพที่โดดเด่นของ MiCo ได้สร้างมาตรฐานใหม่ในด้านการเรียนรู้แบบหลายรูปแบบ ศักยภาพในการพัฒนาในอนาคตนั้นมีมากมายและสมควรได้รับความสนใจอย่างต่อเนื่อง ทิศทางการวิจัยในอนาคตของทีมก็คุ้มค่าที่จะรอคอย และผมเชื่อว่า MiCo จะยังคงส่งเสริมความก้าวหน้าของเทคโนโลยีปัญญาประดิษฐ์ต่อไป