ในช่วงไม่กี่ปีที่ผ่านมา โมเดลภาษาขนาดใหญ่ (LLM) มีความก้าวหน้าอย่างมากในด้านการประมวลผลภาษาธรรมชาติ แต่วิธีการประมวลผลระดับโทเค็นมีข้อจำกัดในการทำความเข้าใจบริบทและแอปพลิเคชันหลายภาษาและหลายรูปแบบ Meta AI เสนอวิธีการใหม่ล่าสุดสำหรับจุดประสงค์นี้ - Large Concept Models (LCM) โดยมีเป้าหมายเพื่อแก้ไขข้อบกพร่องของ LLM ที่มีอยู่ ด้วยการสร้างแบบจำลองในพื้นที่ฝังมิติสูง SONAR LCM รองรับหลายภาษาและรูปแบบ และใช้สถาปัตยกรรมแบบลำดับชั้นเพื่อปรับปรุงความสอดคล้องและความสามารถในการแก้ไขเนื้อหาขนาดยาวในท้องถิ่น ซึ่งช่วยปรับปรุงประสิทธิภาพและความสามารถในการวางนัยทั่วไปของแบบจำลองอย่างมาก
โมเดลแนวคิดขนาดใหญ่ (LCM) แสดงถึงการเปลี่ยนแปลงที่สำคัญจากสถาปัตยกรรม LLM แบบดั้งเดิม พวกเขาแนะนำนวัตกรรมที่สำคัญสองประการ: ประการแรก โมเดล LCM ในพื้นที่ฝังมิติสูง แทนที่จะอาศัยโทเค็นที่แยกจากกัน พื้นที่ฝังนี้เรียกว่า SONAR ได้รับการออกแบบเพื่อรองรับภาษามากกว่า 200 ภาษาและรูปแบบต่างๆ มากมาย รวมถึงข้อความและคำพูด ให้ความสามารถในการประมวลผลที่ไม่ขึ้นอยู่กับภาษาและรูปแบบ ประการที่สอง การออกแบบ LCM ช่วยให้สามารถเปลี่ยนแปลงได้อย่างราบรื่นในระดับความหมาย ช่วยให้สามารถสรุปข้อมูลทั่วไปแบบ Zero-shot ในภาษาและรูปแบบที่แตกต่างกันได้
ที่แกนกลางของ LCM มีตัวเข้ารหัสและตัวถอดรหัสแนวคิด ซึ่งเป็นส่วนประกอบที่จับคู่ประโยคอินพุตกับพื้นที่การฝังของ SONAR และถอดรหัสการฝังกลับไปเป็นภาษาธรรมชาติหรือรูปแบบอื่นๆ การออกแบบส่วนประกอบเหล่านี้แบบแช่แข็งทำให้มั่นใจได้ถึงความเป็นโมดูล ทำให้ง่ายต่อการขยายภาษาหรือรูปแบบใหม่ๆ โดยไม่ต้องฝึกอบรมโมเดลทั้งหมดใหม่
ในแง่ของรายละเอียดทางเทคนิค LCM ใช้สถาปัตยกรรมแบบลำดับชั้นที่เลียนแบบกระบวนการให้เหตุผลของมนุษย์ ดังนั้นจึงปรับปรุงความสอดคล้องของเนื้อหาที่มีรูปแบบยาว ในขณะเดียวกันก็เปิดใช้งานการแก้ไขเฉพาะที่โดยไม่รบกวนบริบทโดยรวม LCM เป็นเลิศในกระบวนการสร้างโดยใช้แบบจำลองการแพร่กระจายที่คาดการณ์การฝัง SONAR ถัดไปโดยอิงตามการฝังครั้งก่อน ในการทดลอง มีการใช้สถาปัตยกรรม 2 แบบ คือ แบบหอคอยเดี่ยวและแบบหอคอยคู่ สถาปัตยกรรมแบบหอคอยคู่จะประมวลผลการเข้ารหัสบริบทและการลดสัญญาณรบกวนแยกกัน ซึ่งช่วยปรับปรุงประสิทธิภาพ
ผลการทดลองแสดงให้เห็นว่า LCM แบบสองทาวเวอร์ที่ใช้การแพร่กระจายแสดงให้เห็นถึงความสามารถในการแข่งขันในงานหลายอย่าง ตัวอย่างเช่น ในงานสรุปหลายภาษา LCM มีประสิทธิภาพเหนือกว่าแบบจำลองพื้นฐานในกรณีแบบ Zero-Shot ซึ่งแสดงให้เห็นถึงความสามารถในการปรับตัว ในเวลาเดียวกัน LCM ยังแสดงประสิทธิภาพและความแม่นยำสูงเมื่อประมวลผลลำดับที่สั้นลง ซึ่งได้รับการยืนยันจากการปรับปรุงที่สำคัญในตัวชี้วัดที่เกี่ยวข้อง
โมเดลแนวคิดขนาดใหญ่ของ Meta AI เป็นทางเลือกที่มีแนวโน้มแทนโมเดลภาษาระดับโทเค็นแบบดั้งเดิม โดยแก้ไขข้อจำกัดที่สำคัญบางประการของวิธีการที่มีอยู่ผ่านการฝังแนวคิดมิติสูงและการประมวลผลที่ไม่ขึ้นอยู่กับรูปแบบ ในขณะที่การวิจัยเกี่ยวกับสถาปัตยกรรมนี้มีความลึกมากขึ้น LCM ได้รับการคาดหวังให้กำหนดขีดความสามารถของโมเดลภาษาใหม่ และมอบแนวทางการสื่อสารที่ขับเคลื่อนด้วย AI ที่ปรับขนาดและปรับเปลี่ยนได้มากขึ้น
ทางเข้าโครงการ: https://github.com/facebookresearch/large_concept_model
โดยรวมแล้ว โมเดล LCM ที่เสนอโดย Meta AI มอบโซลูชันที่เป็นนวัตกรรมเพื่อแก้ไขข้อจำกัดของ LLM แบบดั้งเดิม ข้อดีของมันในหลายภาษา การประมวลผลหลายรูปแบบ และการออกแบบสถาปัตยกรรมที่มีประสิทธิภาพ ทำให้มีอนาคตที่ดีในด้านภาษาธรรมชาติ มีศักยภาพมากและสมควรได้รับความสนใจและการวิจัยเชิงลึกอย่างต่อเนื่อง