การออกแบบสถาปัตยกรรมของโมเดลภาษาขนาดใหญ่ (LLM) กำลังอยู่ระหว่างการเปลี่ยนแปลงครั้งใหญ่ และการครอบงำของสถาปัตยกรรม Transformer กำลังเผชิญกับความท้าทาย เพื่อจัดการกับความท้าทายนี้ Liquid AI ซึ่งเป็นสตาร์ทอัพที่บ่มเพาะที่ MIT ได้เปิดตัวเฟรมเวิร์กนวัตกรรมที่เรียกว่า STAR (Synthetic of Tailored Architectures) ซึ่งมีเป้าหมายเพื่อสร้างและเพิ่มประสิทธิภาพสถาปัตยกรรมโมเดล AI โดยอัตโนมัติ กรอบงาน STAR ใช้อัลกอริธึมเชิงวิวัฒนาการและเทคโนโลยีการเข้ารหัสแบบลำดับชั้นเพื่อสังเคราะห์และเพิ่มประสิทธิภาพสถาปัตยกรรมโมเดลโดยอิงตามประสิทธิภาพเฉพาะและข้อกำหนดของฮาร์ดแวร์ ซึ่งแสดงให้เห็นถึงข้อได้เปรียบที่สำคัญทั้งในด้านประสิทธิภาพและประสิทธิภาพ
กรอบงาน STAR ใช้อัลกอริธึมเชิงวิวัฒนาการและระบบการเข้ารหัสเชิงตัวเลขเพื่อสร้างและเพิ่มประสิทธิภาพสถาปัตยกรรมโมเดลปัญญาประดิษฐ์โดยอัตโนมัติ ทีมวิจัยของ Liquid AI ตั้งข้อสังเกตว่าแนวทางการออกแบบของ STAR แตกต่างจากการออกแบบสถาปัตยกรรมแบบดั้งเดิมโดยใช้เทคนิคการเข้ารหัสแบบลำดับชั้นที่เรียกว่า "STAR Genome" เพื่อสำรวจพื้นที่การออกแบบที่กว้างขวางของสถาปัตยกรรมที่มีศักยภาพ ด้วยการผสมผสานและการกลายพันธุ์ของจีโนม STAR จึงสามารถสังเคราะห์และเพิ่มประสิทธิภาพสถาปัตยกรรมที่ตรงตามข้อกำหนดด้านประสิทธิภาพและฮาร์ดแวร์เฉพาะได้
ในการทดสอบที่กำหนดเป้าหมายไปที่การสร้างแบบจำลองภาษาแบบถอยหลังอัตโนมัติ STAR แสดงให้เห็นประสิทธิภาพที่เหนือกว่า Transformer++ และรุ่นไฮบริดที่ได้รับการปรับปรุงแบบดั้งเดิม ในแง่ของคุณภาพการปรับให้เหมาะสมและขนาดแคช สถาปัตยกรรมที่พัฒนาขึ้นของ STAR ช่วยลดขนาดแคชได้มากถึง 37% เมื่อเทียบกับรุ่นไฮบริด และลดลงได้ 90% เมื่อเทียบกับ Transformer แบบดั้งเดิม ประสิทธิภาพนี้ไม่ได้ลดประสิทธิภาพในการคาดการณ์ของโมเดลลง แต่ในบางกรณีก็มีประสิทธิภาพเหนือกว่าคู่แข่ง
การวิจัยยังแสดงให้เห็นว่าสถาปัตยกรรมของ STAR สามารถปรับขนาดได้สูง ด้วยแบบจำลองวิวัฒนาการของ STAR ที่ปรับขนาดจาก 125 ล้านพารามิเตอร์เป็น 1 พันล้านพารามิเตอร์ที่ทำงานบนการวัดประสิทธิภาพมาตรฐาน เช่นเดียวกับหรือดีกว่า Transformer++ และรุ่นไฮบริดที่มีอยู่ ในขณะเดียวกันก็ลดการใช้เหตุผลเกี่ยวกับข้อกำหนดในการแคชลงอย่างมาก
Liquid AI กล่าวว่าแนวคิดการออกแบบของ STAR รวมเอาหลักการของระบบไดนามิก การประมวลผลสัญญาณ และพีชคณิตเชิงเส้นเชิงตัวเลข เพื่อสร้างพื้นที่ค้นหาหน่วยการคำนวณที่ยืดหยุ่น คุณลักษณะเฉพาะของ STAR คือการออกแบบโมดูลาร์ ซึ่งช่วยให้สามารถเข้ารหัสและเพิ่มประสิทธิภาพสถาปัตยกรรมในหลายระดับ ทำให้นักวิจัยมีโอกาสได้รับข้อมูลเชิงลึกเกี่ยวกับการผสมผสานองค์ประกอบทางสถาปัตยกรรมที่มีประสิทธิภาพ
Liquid AI เชื่อว่าความสามารถในการสังเคราะห์สถาปัตยกรรมที่มีประสิทธิภาพของ STAR จะถูกนำไปใช้ในด้านต่างๆ โดยเฉพาะอย่างยิ่งในสถานการณ์ที่คุณภาพและประสิทธิภาพการประมวลผลจำเป็นต้องมีความสมดุล แม้ว่า Liquid AI จะไม่ได้ประกาศแผนการปรับใช้เชิงพาณิชย์หรือการกำหนดราคาโดยเฉพาะ แต่ผลการวิจัยก็ถือเป็นความก้าวหน้าครั้งสำคัญในด้านการออกแบบสถาปัตยกรรมอัตโนมัติ ในขณะที่สาขา AI ยังคงพัฒนาต่อไป เฟรมเวิร์กเช่น STAR อาจมีบทบาทสำคัญในการกำหนดรูปแบบระบบอัจฉริยะรุ่นต่อไป
บล็อกอย่างเป็นทางการ: https://www.liquid.ai/research/automated-architecture-synthetic-via-targeted-evolution
โดยรวมแล้ว เฟรมเวิร์ก STAR ของ Liquid AI มอบวิธีการอัตโนมัติใหม่สำหรับการออกแบบสถาปัตยกรรมโมเดล AI ความก้าวหน้าในด้านประสิทธิภาพและประสิทธิภาพมีความสำคัญอย่างยิ่ง และมอบความเป็นไปได้ใหม่ๆ สำหรับการพัฒนาระบบ AI ในอนาคต การออกแบบแบบโมดูลาร์และความสามารถในการปรับขนาดของเฟรมเวิร์กยังทำให้มีความเป็นไปได้ในการใช้งานในวงกว้างในสาขาต่างๆ