Meta AI พัฒนา MobileLLM โมเดลภาษาขนาดกะทัดรัดสำหรับอุปกรณ์มือถือที่มีพารามิเตอร์เพียง 350 ล้านพารามิเตอร์

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-05 08:48:01

รายงานตัวแก้ไขดาวน์โค้ด: Meta AI ได้เปิดตัว MobileLLM ซึ่งเป็นโมเดลภาษาใหม่และมีประสิทธิภาพที่ออกแบบมาสำหรับอุปกรณ์ที่มีทรัพยากรจำกัด เช่น สมาร์ทโฟน มันท้าทายความเข้าใจแบบดั้งเดิมเกี่ยวกับขนาดของโมเดลภาษาขนาดใหญ่ จำนวนพารามิเตอร์ของมันนั้นน้อยกว่าโมเดลขนาดใหญ่อย่าง GPT-4 มาก แต่ทำงานได้ดีในการทดสอบเกณฑ์มาตรฐาน ผลการวิจัยนี้จัดทำโดยทีม Meta Reality Labs, PyTorch และ Meta AI Research ซึ่งเผยแพร่เมื่อวันที่ 27 มิถุนายน 2024 ซึ่งเป็นแนวทางใหม่สำหรับการพัฒนาโมเดล AI แบบน้ำหนักเบา

นักวิจัยของ MetaAI ได้เปิดตัว MobileLLM ซึ่งเป็นแนวทางใหม่ในการออกแบบโมเดลภาษาที่มีประสิทธิภาพสำหรับสมาร์ทโฟนและอุปกรณ์อื่นๆ ที่จำกัดทรัพยากร การศึกษาซึ่งเผยแพร่เมื่อวันที่ 27 มิถุนายน 2567 ท้าทายสมมติฐานเกี่ยวกับขนาดที่จำเป็นของโมเดล AI ที่มีประสิทธิภาพ

ทีมวิจัยซึ่งประกอบด้วยสมาชิกจาก Meta Reality Labs, PyTorch และ Meta AI Research (FAIR) มุ่งเน้นไปที่การปรับโมเดลให้เหมาะสมด้วยพารามิเตอร์น้อยกว่า 1 พันล้านตัว นี่เป็นเพียงเศษเสี้ยวของโมเดลอย่าง GPT-4 ซึ่งคาดว่าจะมีพารามิเตอร์มากกว่าล้านล้านพารามิเตอร์

นวัตกรรมที่สำคัญของ MobileLLM ได้แก่:

จัดลำดับความสำคัญของความลึกของโมเดลมากกว่าความกว้าง
ใช้การแชร์แบบฝังและความสนใจในแบบสอบถามแบบกลุ่ม
การใช้เทคนิคการแบ่งปันน้ำหนักบล็อกโดยตรงแบบใหม่

ตัวเลือกการออกแบบเหล่านี้ช่วยให้ MobileLLM มีประสิทธิภาพเหนือกว่ารุ่นก่อนหน้าที่มีขนาดใกล้เคียงกัน 2.7% ถึง 4.3% ในงานวัดประสิทธิภาพทั่วไป แม้ว่าการปรับปรุงด้วยตัวเลขหลักเดียวเหล่านี้อาจดูเล็กน้อย แต่ก็แสดงถึงความก้าวหน้าที่สำคัญในด้านการพัฒนาแบบจำลองภาษาที่มีการแข่งขันสูง

ในงานการเรียก API บางงาน MobileLLM เวอร์ชันพารามิเตอร์ 350 ล้านรายการแสดงความแม่นยำที่เทียบเคียงได้กับโมเดล LLaMA-2 พารามิเตอร์ขนาดใหญ่กว่า 7 พันล้านรายการ สิ่งนี้ชี้ให้เห็นว่าสำหรับบางแอปพลิเคชันเฉพาะ โมเดลที่มีขนาดกะทัดรัดกว่าอาจมีฟังก์ชันการทำงานที่คล้ายคลึงกันในขณะที่ใช้ทรัพยากรการคำนวณน้อยลง

การพัฒนา MobileLLM เกิดขึ้นพร้อมกับความสนใจที่เพิ่มขึ้นในโมเดล AI ที่มีประสิทธิภาพมากขึ้น เนื่องจากความคืบหน้าในแบบจำลองภาษาที่มีขนาดใหญ่มากแสดงให้เห็นสัญญาณของการชะลอตัว นักวิจัยจึงกำลังสำรวจศักยภาพของการออกแบบเฉพาะทางที่มีขนาดกะทัดรัดมากขึ้น แม้จะมีชื่อเป็น "LLM" แต่การมุ่งเน้นไปที่ประสิทธิภาพและการปรับใช้อุปกรณ์ทำให้ MobileLLM อยู่ในหมวดหมู่เดียวกันกับที่นักวิจัยบางคนเรียกว่าโมเดลภาษาขนาดเล็ก (SLM)

แม้ว่า MobileLLM ยังไม่เปิดให้บริการสู่สาธารณะ แต่ Meta ได้สร้างโค้ดโอเพ่นซอร์สก่อนการฝึกอบรม ซึ่งช่วยให้นักวิจัยคนอื่น ๆ สามารถต่อยอดผลงานของมันได้ ในขณะที่เทคโนโลยีพัฒนาขึ้น อาจนำความสามารถ AI ขั้นสูงมาสู่อุปกรณ์ส่วนบุคคลมากขึ้น แม้ว่าไทม์ไลน์และความสามารถเฉพาะจะยังคงไม่แน่นอนก็ตาม

การเกิดขึ้นของ MobileLLM บ่งชี้ว่าโมเดล AI ที่มีน้ำหนักเบาและมีประสิทธิภาพจะกลายเป็นกระแสสำคัญในการพัฒนาในอนาคต โดยนำความสามารถ AI ที่ทรงพลังมาสู่อุปกรณ์ต่างๆ มากขึ้น บรรณาธิการของ Downcodes จะยังคงให้ความสนใจกับความก้าวหน้าของเทคโนโลยีนี้ต่อไป