เมื่อเร็วๆ นี้ สถาบันวิจัย Zhiyuan ได้เปิดตัว Emu2 โมเดลพื้นฐานหลายรูปแบบรุ่นใหม่ ซึ่งได้สร้างความก้าวหน้าครั้งสำคัญในด้านความสามารถในการเรียนรู้บริบทแบบหลายรูปแบบ ด้วยการฝึกล่วงหน้าแบบหลายโมดัลที่สร้างการถดถอยอัตโนมัติขนาดใหญ่ Emu2 ทำงานได้ดีในงานทำความเข้าใจหลายโมดัลเพียงไม่กี่ตัวอย่าง ซึ่งเหนือกว่าโมเดลกระแสหลักเช่น Flamingo-80B และ IDEFICS-80B และทำงานได้ดีในการทำความเข้าใจสองสามตัวอย่างหลายตัวอย่าง การตอบคำถามด้วยภาพและบรรลุประสิทธิภาพสูงสุดในงานสร้างภาพ Emu2 มีแอปพลิเคชั่นหลักสองแอปพลิเคชั่น: Emu2-Chat และ Emu2-Gen ซึ่งมุ่งเน้นไปที่ความเข้าใจในการสอนรูปภาพและข้อความ และการสร้างรูปภาพ/วิดีโอตามลำดับ
Zhiyuan Research Institute ได้เปิดตัวโมเดลพื้นฐานหลายรูปแบบ Emu2 เจเนอเรชันใหม่ ซึ่งส่งเสริมความก้าวหน้าอย่างมากในด้านความสามารถในการเรียนรู้บริบทแบบหลายรูปแบบ ผ่านการฝึกอบรมล่วงหน้าแบบหลายรูปแบบแบบ autoregressive generative ขนาดใหญ่ Emu2 ทำงานได้ดีในงานทำความเข้าใจหลายรูปแบบเพียงไม่กี่ตัวอย่าง ซึ่งเหนือกว่ารุ่นขนาดใหญ่ที่ได้รับการฝึกล่วงหน้าหลายรูปแบบหลักอย่าง Flamingo-80B และ IDEFICS-80B Emu2 ได้รับประสิทธิภาพสูงสุดในการทำความเข้าใจไม่กี่ช็อต การตอบคำถามด้วยภาพ และงานสร้างภาพ Emu2-Chat สามารถเข้าใจคำสั่งแบบกราฟิกและข้อความได้อย่างแม่นยำ เพื่อให้บรรลุการรับรู้ข้อมูล ความเข้าใจในเจตนา และการวางแผนการตัดสินใจได้ดีขึ้น Emu2-Gen สามารถรับรูปภาพ ข้อความ และลำดับตำแหน่งที่แทรกเป็นอินพุตเพื่อให้ได้ภาพและวิดีโอคุณภาพสูงที่ยืดหยุ่น ควบคุมได้ และ Emu2 ใช้เฟรมเวิร์กการสร้างแบบจำลองที่เรียบง่ายกว่าและปรับขนาดโมเดลเป็นพารามิเตอร์ 37B สำหรับรายละเอียด โปรดดูลิงก์โครงการที่เผยแพร่โดย Zhiyuan Research Instituteด้วยประสิทธิภาพที่ทรงพลังและกรอบการทำงานที่กระชับ Emu2 แสดงให้เห็นถึงความก้าวหน้าล่าสุดในด้านปัญญาประดิษฐ์หลายรูปแบบ และมอบรากฐานที่มั่นคงสำหรับการพัฒนาแอปพลิเคชันหลายรูปแบบในอนาคต นวัตกรรมอย่างต่อเนื่องของ Zhiyuan Research Institute คุ้มค่ากับการรอคอย