เมื่อเร็วๆ นี้ ห้องปฏิบัติการปัญญาประดิษฐ์เซี่ยงไฮ้ได้ประกาศว่าโมเดลขนาดใหญ่หลายรูปแบบ InternLM-XComposer ที่พัฒนาโดยบริษัท ได้รับการอัปเกรดเป็นเวอร์ชัน 2.5 (IXC-2.5) เวอร์ชันนี้ได้สร้างความก้าวหน้าครั้งใหญ่ในการทำความเข้าใจบริบทที่ยาวนาน ความเข้าใจภาษาภาพ และการขยายแอปพลิเคชัน ปรับปรุงความสามารถในการทำความเข้าใจและการสร้างภาพข้อความอย่างมีนัยสำคัญ และเหนือกว่าโมเดลโอเพ่นซอร์สที่มีอยู่ในการทดสอบเกณฑ์มาตรฐานหลายตัว ตัวชี้วัดบางตัวยังเทียบได้กับ GPT-4V และ Gemini Pro อีกด้วย สามารถเปรียบเทียบได้ IXC-2.5 แสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่งและศักยภาพในการใช้งานที่หลากหลาย โดยกำหนดมาตรฐานใหม่สำหรับการพัฒนาโมเดลขนาดใหญ่แบบหลายรูปแบบ
เมื่อเร็วๆ นี้ โมเดลขนาดใหญ่หลายรูปแบบ InternLM-XComposer ได้รับการอัปเกรดเป็นเวอร์ชัน 2.5 โมเดลนี้พัฒนาโดย Shanghai Artificial Intelligence Laboratory ได้ปรับปรุงความเข้าใจข้อความและรูปภาพด้วยความสามารถในการป้อนข้อมูลและเอาท์พุตบริบทแบบยาวที่ยอดเยี่ยม รวมถึงแอปพลิเคชันที่สร้างสรรค์ ความก้าวหน้าทางการปฏิวัติ
IXC-2.5 สามารถจัดการบริบทขนาดยาวได้ถึง 96K ได้อย่างง่ายดาย เนื่องจากมีข้อมูลข้อความรูปภาพแบบแทรกสลับขนาด 24K ที่ใช้ในการฝึกอบรม ความสามารถบริบทแบบยาวนี้ช่วยให้ IXC-2.5 ทำงานได้ดีในงานที่ต้องใช้บริบทอินพุตและเอาต์พุตที่ครอบคลุม
เมื่อเทียบกับเวอร์ชันก่อนหน้า IXC-2.5 มีการอัพเกรดหลักสามประการในการทำความเข้าใจภาษาภาพ:
ความเข้าใจที่มีความละเอียดสูงเป็นพิเศษ: IXC-2.5 รองรับภาพความละเอียดสูงในทุกอัตราส่วนภาพผ่านตัวเข้ารหัสภาพขนาด 560×560ViT แบบเนทีฟ
การทำความเข้าใจวิดีโอแบบละเอียด: ถือว่าวิดีโอเป็นภาพคอมโพสิตที่มีความละเอียดสูงพิเศษที่ประกอบด้วยหลายสิบถึงหลายร้อยเฟรม เก็บรายละเอียดผ่านการสุ่มตัวอย่างที่หนาแน่นและมีความละเอียดสูงกว่า
บทสนทนาหลายเลี้ยวและหลายภาพ: รองรับบทสนทนาหลายเลี้ยวและหลายภาพรูปแบบอิสระเพื่อการโต้ตอบที่เป็นธรรมชาติกับมนุษย์
นอกเหนือจากการปรับปรุงความเข้าใจแล้ว IXC-2.5 ยังขยายแอปพลิเคชันที่น่าสนใจอีก 2 รายการโดยใช้พารามิเตอร์ LoRA เพิ่มเติมสำหรับการสร้างภาพข้อความ:
สร้างหน้าเว็บ: ตามคำแนะนำเกี่ยวกับรูปภาพข้อความ IXC-2.5 สามารถเขียนซอร์สโค้ด HTML, CSS และ JavaScript เพื่อสร้างหน้าเว็บได้
เขียนบทความกราฟิกคุณภาพสูง: ใช้เทคโนโลยี Chain-of-Thought (CoT) และ Direct Preference Optimization (DPO) ที่ออกแบบมาเป็นพิเศษ เพื่อปรับปรุงคุณภาพเนื้อหาการเขียนของคุณอย่างมีนัยสำคัญ
IXC-2.5 ได้รับการประเมินโดยใช้เกณฑ์มาตรฐาน 28 รายการ และมีประสิทธิภาพเหนือกว่าโมเดลโอเพ่นซอร์สอันล้ำสมัยที่มีอยู่ในเกณฑ์มาตรฐาน 16 รายการ นอกจากนี้ยังจับคู่หรือเหนือกว่า GPT-4V และ Gemini Pro ใน 16 งานหลัก ความสำเร็จนี้พิสูจน์ให้เห็นถึงประสิทธิภาพอันทรงพลังและศักยภาพการใช้งานที่หลากหลายของ IXC-2.5
ที่อยู่กระดาษ: https://arxiv.org/pdf/2407.03320
ที่อยู่โครงการ: https://github.com/InternLM/InternLM-XComposer
โดยรวมแล้ว การเปิดตัวเวอร์ชัน IXC-2.5 ถือเป็นความก้าวหน้าที่สำคัญในเทคโนโลยีโมเดลขนาดใหญ่หลายรูปแบบ และประสิทธิภาพอันทรงพลังและสถานการณ์การใช้งานที่หลากหลาย บ่งชี้ถึงอนาคตที่สดใสสำหรับการพัฒนาเทคโนโลยีปัญญาประดิษฐ์ในอนาคต รอคอยการอัปเดตฟีเจอร์ที่ทรงพลังมากขึ้นเรื่อยๆ ในอนาคต!