ห้องปฏิบัติการ NExT++ ที่มหาวิทยาลัยแห่งชาติสิงคโปร์ และทีมงานของ Liu Zhiyuan ที่มหาวิทยาลัย Tsinghua ร่วมมือกันพัฒนาแบบจำลองขนาดใหญ่หลายรูปแบบอันทรงพลัง ซึ่งผสานรวมโมดูลการตรวจจับและการแบ่งส่วน ซึ่งช่วยให้กระบวนการปูง่ายขึ้นอย่างมาก ผู้ใช้จำเป็นต้องใช้เพียงภาษาธรรมชาติในการอธิบายวัตถุเป้าหมาย และแบบจำลองสามารถติดป้ายกำกับและอธิบายข้อความที่เกี่ยวข้องได้อย่างรวดเร็วและแม่นยำ เทคโนโลยีที่ก้าวล้ำนี้แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในชุดข้อมูลหลายชุด โดยเฉพาะอย่างยิ่งในการแบ่งส่วนการอ้างอิงและงาน REC
แบบจำลองหลายรูปแบบขนาดใหญ่ที่สร้างขึ้นโดยห้องปฏิบัติการ NExT++ ของมหาวิทยาลัยแห่งชาติสิงคโปร์ และทีมงานของ Liu Zhiyuan ที่มหาวิทยาลัย Tsinghua ได้รวมเอาโมดูลการตรวจจับและการแบ่งส่วนเข้าด้วยกัน ทำให้การเกลี่ยภาพง่ายขึ้น ด้วยการอธิบายข้อกำหนดในภาษาธรรมชาติ โมเดลสามารถทำเครื่องหมายออบเจ็กต์ที่ต้องการได้อย่างรวดเร็วและให้คำอธิบายด้วยข้อความ แบบจำลองนี้มีประสิทธิภาพการทดลองที่ยอดเยี่ยมกับชุดข้อมูลงานหลายชุด และมีความสามารถที่ดีในการอ้างอิงถึงการแบ่งส่วนและงาน REC นอกจากนี้ โมเดลนี้ยังแนะนำวิธีการสร้างแบบจำลองตำแหน่งตามการฝัง ซึ่งมีความสามารถในการสร้างแบบจำลองตำแหน่งที่ดีกว่า ด้วยการเพิ่มประสิทธิภาพของกระบวนการฝึกอบรม โมเดลยังสามารถบรรลุประสิทธิภาพที่ดีในการแบ่งส่วนงานที่มีคำอธิบายประกอบที่หายาก
วิธีการสร้างแบบจำลองตามตำแหน่งแบบฝังของโมเดลและกระบวนการฝึกอบรมที่ได้รับการปรับปรุงให้เหมาะสมช่วยให้บรรลุผลลัพธ์ที่น่าพึงพอใจในงานการแบ่งส่วนด้วยคำอธิบายประกอบข้อมูลที่หายาก แสดงให้เห็นถึงความสามารถในการปรับตัวและความสามารถในการปฏิบัติที่แข็งแกร่ง และวางรากฐานสำหรับรูปแบบหลายรูปแบบในอนาคต ทิศทางและแนวคิดใหม่ ผลการวิจัยนี้คาดว่าจะมีผลกระทบในวงกว้างในการประมวลผลภาพและสาขาที่เกี่ยวข้องกับปัญญาประดิษฐ์