บทความนี้จะแนะนำ Transformer² ซึ่งเป็นเฟรมเวิร์กการปรับตัวใหม่ที่เสนอโดย Sakana AI ซึ่งแก้ไขข้อบกพร่องแบบคงที่ในการคำนวณและแบบคงที่ของวิธีการปรับแต่งอย่างละเอียดแบบดั้งเดิมของโมเดลภาษาขนาดใหญ่ (LLM) Transformer² ใช้กลไกสองขั้นตอนเพื่อปรับน้ำหนัก LLM แบบเรียลไทม์ระหว่างกระบวนการหาเหตุผล ทำให้สามารถปรับให้เข้ากับงานที่ไม่รู้จักต่างๆ ได้อย่างยืดหยุ่น และปรับให้เข้ากับสภาพแวดล้อมเหมือนปลาหมึกยักษ์ แกนหลักอยู่ที่การปรับแต่งค่าเอกพจน์ (SVF) และกลยุทธ์การปรับตัว ซึ่งฝึกเวกเตอร์ "ผู้เชี่ยวชาญ" ผ่านการเรียนรู้แบบเสริมกำลัง และรวมเวกเตอร์เหล่านี้แบบไดนามิกเพื่อให้บรรลุการตอบสนองที่แม่นยำต่องานต่างๆ เฟรมเวิร์กนี้มีข้อดีหลายประการ เช่น ประสิทธิภาพของพารามิเตอร์ ความเป็นโมดูล และความเข้ากันได้ข้ามโมเดล และได้แสดงให้เห็นประสิทธิภาพที่ดีกว่าวิธีการปรับแต่งแบบดั้งเดิมในการทดลอง
แกนหลักของ Transformer² คือกลไกสองขั้นตอนที่เป็นเอกลักษณ์และเทคโนโลยีการปรับแต่งค่าเอกพจน์ (SVF) เช่นเดียวกับการผสมผสานกลยุทธ์การปรับตัวที่หลากหลายอย่างชาญฉลาด เวกเตอร์ "ผู้เชี่ยวชาญ" ที่ได้รับการฝึกอบรมผ่านการเรียนรู้แบบเสริมกำลังทำให้โมเดลมีความสามารถในการปรับตัวได้ดี ทำให้สามารถทำงานได้ดีในงานต่างๆ ที่ไม่รู้จัก แม้ว่าจะยังมีช่องว่างสำหรับการปรับปรุง Transformer² ได้ดำเนินการขั้นตอนสำคัญในการสร้างระบบ AI แบบไดนามิกและจัดระเบียบตัวเองอย่างแท้จริง ทิศทางการวิจัยในอนาคตรวมถึงการรวมแบบจำลองและการขยายวิธี CEM ที่อยู่ของบทความนี้แนบอยู่ท้ายบทความ และเราหวังว่าจะมีนักวิจัยจำนวนมากขึ้นที่สำรวจเรื่องนี้ในเชิงลึก