Apple เพิ่งเผยแพร่ผลการวิจัยที่ช่วยปรับปรุงประสิทธิภาพของโมเดลภาษาขนาดใหญ่บนอุปกรณ์ที่มีหน่วยความจำจำกัดได้อย่างมาก การวิจัยนี้จัดเก็บพารามิเตอร์โมเดลอย่างชาญฉลาดในหน่วยความจำแฟลช และโหลดไปยัง DRAM ตามความต้องการเมื่อจำเป็น ช่วยแก้ปัญหาคอขวดของหน่วยความจำได้อย่างมีประสิทธิภาพ และบรรลุความเร็วในการอนุมานที่ก้าวกระโดดครั้งใหญ่ผ่านชุดกลยุทธ์การปรับให้เหมาะสม ความก้าวหน้าทางเทคโนโลยีนี้ปูทางไปสู่การประยุกต์ใช้โมเดลภาษาขนาดใหญ่ในสภาพแวดล้อมที่มีทรัพยากรจำกัด เช่น อุปกรณ์เคลื่อนที่และระบบฝังตัว และมีความสำคัญเชิงปฏิบัติที่สำคัญ
การวิจัยล่าสุดของ Apple ชี้ให้เห็นว่าเมื่อหน่วยความจำอุปกรณ์มีจำกัด ด้วยการจัดเก็บพารามิเตอร์โมเดลไว้ในหน่วยความจำแฟลชและโหลดลงใน DRAM ตามความต้องการระหว่างการอนุมาน ประสิทธิภาพการทำงานของโมเดลภาษาขนาดใหญ่ได้รับการปรับปรุงเรียบร้อยแล้ว และความเร็วในการอนุมานเพิ่มขึ้น 25 เท่า . วิธีนี้จะปรับโมเดลต้นทุนการอนุมานให้เหมาะสม ลดปริมาณการส่งข้อมูล และแนะนำกลยุทธ์การกำหนดหน้าต่างและเทคโนโลยีการรวมแถว-คอลัมน์ ทำให้สามารถรันโมเดลที่มีขนาดใหญ่กว่าความจุ DRAM ที่มีอยู่สองเท่าบนอุปกรณ์ที่มีความจุหน่วยความจำจำกัด เมื่อเปรียบเทียบกับวิธีการโหลดแบบไร้เดียงสา ความเร็วในการอนุมานของ CPU และ GPU จะเพิ่มขึ้น 4-5 เท่า และ 20-25 เท่า ตามลำดับ ในเวลาเดียวกัน มันรวมการรับรู้แบบกระจาย การโหลดตามบริบท และการออกแบบที่เน้นฮาร์ดแวร์เพื่ออำนวยความสะดวก การอนุมานโมเดลภาษาขนาดใหญ่บนอุปกรณ์ที่มีหน่วยความจำจำกัด นำความเป็นไปได้ใหม่ๆ สามารถดูรายงานโดยละเอียดได้ [ที่นี่](https://arxiv.org/pdf/2312.11514.pdf)ผลการวิจัยนี้ไม่เพียงแต่ได้รับการปรับปรุงความเร็วอย่างมีนัยสำคัญเท่านั้น แต่ที่สำคัญกว่านั้นคือยังให้ความเป็นไปได้ในการประยุกต์ใช้โมเดลภาษาขนาดใหญ่บนอุปกรณ์ที่หลากหลายมากขึ้น ซึ่งบ่งชี้ว่าเทคโนโลยี AI จะได้รับความนิยมและสะดวกยิ่งขึ้นในอนาคต นวัตกรรมจาก Apple นี้นำมาซึ่งทิศทางใหม่ในการพัฒนาด้าน AI