ค่าใช้จ่ายในการลดค่าใช้จ่ายในการฝึกอบรมของแบบจำลองขนาดใหญ่คือฮอตสปอตการวิจัยในปัจจุบันในด้านปัญญาประดิษฐ์ งานวิจัยล่าสุดที่เผยแพร่โดยทีม Tencent Mixed Yuan ได้กล่าวถึงกฎของการฝึกอบรมเชิงปริมาณแบบลอยตัวแบบลอยตัวต่ำซึ่งเป็นแนวคิดใหม่สำหรับรูปแบบการฝึกอบรมที่มีประสิทธิภาพสูง การศึกษาวิเคราะห์ผลกระทบของขนาดแบบจำลองข้อมูลการฝึกอบรมความแม่นยำเชิงปริมาณและปัจจัยอื่น ๆ ต่อผลการฝึกอบรมผ่านการทดลองจำนวนมากและในที่สุดก็ได้รับกฎหมายว่าจะจัดสรรทรัพยากรการฝึกอบรมได้อย่างมีประสิทธิภาพเพื่อให้ได้ผลที่ดีที่สุดภายใต้ความแม่นยำที่แตกต่างกัน การวิจัยนี้ไม่เพียง แต่มีความสำคัญทางทฤษฎีที่สำคัญ แต่ยังให้คำแนะนำที่มีคุณค่าสำหรับการประยุกต์ใช้แบบจำลองขนาดใหญ่จริง
วันนี้การพัฒนาอย่างรวดเร็วของรูปแบบภาษาขนาดใหญ่ (LLM) ค่าใช้จ่ายในการฝึกอบรมและการใช้เหตุผลของแบบจำลองได้กลายเป็นจุดสนใจของการวิจัยและการประยุกต์มากขึ้นเรื่อย ๆ เมื่อเร็ว ๆ นี้ทีม Tencent Mixed Yuan ได้เปิดตัวการศึกษาที่สำคัญซึ่งกล่าวถึง "กฎหมายการปรับขนาด" อย่างลึกซึ้งของการฝึกอบรมเชิงปริมาณที่ลอยอยู่ในระดับต่ำนั่นคือกฎขนาดของการฝึกอบรมมาตราส่วนของการฝึกอบรมเชิงปริมาณแบบลอยตัว แกนหลักของการศึกษานี้คือการลดค่าใช้จ่ายในการคำนวณและการจัดเก็บโดยการลดความแม่นยำของแบบจำลองและไม่สูญเสียประสิทธิภาพ
ทีมวิจัยดำเนินการฝึกอบรมเชิงปริมาณแบบลอยตัวมากถึง 366 ชุดของพารามิเตอร์และความแม่นยำที่แตกต่างกัน ), บิตดัชนี (e) ,,,,,,,,,, บิตดัชนี (e) ,,,, บิตดัชนี (e) ,,,,,,,,, tail digital (m) และอนุภาคเชิงปริมาณ ขนาด (b) จากการทดลองเหล่านี้นักวิจัยได้รับกฎหมายการปรับขนาดแบบครบวงจรเผยให้เห็นวิธีการกำหนดค่าข้อมูลการฝึกอบรมและพารามิเตอร์แบบจำลองอย่างมีประสิทธิภาพภายใต้ความแม่นยำที่แตกต่างกันเพื่อให้ได้ผลการฝึกอบรมที่ดีที่สุด
สิ่งที่สำคัญที่สุดคือการวิจัยชี้ให้เห็นว่าในการฝึกอบรมเชิงปริมาณแบบลอยตัวต่ำ -ความแม่นยำมี "ผล จำกัด " ซึ่งคือภายใต้ข้อมูลจำนวนเฉพาะประสิทธิภาพของแบบจำลองจะไปถึงที่เหมาะสมที่สุด . นอกจากนี้การศึกษายังพบว่าในทางทฤษฎีค่าใช้จ่ายที่ดีที่สุด -ความแม่นยำในการฝึกอบรมเชิงปริมาณที่มีประสิทธิภาพในการลอยตัวควรอยู่ระหว่าง 4 ถึง 8 กัดซึ่งมีความสำคัญในการชี้นำที่สำคัญสำหรับ LLM ที่มีประสิทธิภาพ
การศึกษาครั้งนี้ไม่เพียง แต่เติมเต็มช่องว่างในสาขาการฝึกอบรมเชิงปริมาณแบบลอยตัว แต่ยังให้การอ้างอิงสำหรับผู้ผลิตฮาร์ดแวร์ในอนาคตเพื่อช่วยให้พวกเขาเพิ่มประสิทธิภาพความสามารถในการคำนวณแบบลอยตัวแบบลอยตัวที่ความแม่นยำที่แตกต่างกัน ในท้ายที่สุดการวิจัยนี้ให้ทิศทางที่ชัดเจนสำหรับการฝึกอบรมแบบจำลองขนาดใหญ่เพื่อให้แน่ใจว่าในกรณีของทรัพยากรที่ จำกัด มันยังคงสามารถบรรลุผลการฝึกอบรมที่มีประสิทธิภาพ
ที่อยู่วิทยานิพนธ์: https: //arxiv.org/pdf/2501.02423
ในระยะสั้นการศึกษาของทีม Tencent Hybrid เป็นวิธีแก้ปัญหาที่มีประสิทธิภาพสำหรับการลดค่าใช้จ่ายของรูปแบบการฝึกอบรมขนาดใหญ่ งานนี้ชี้ให้เห็นถึงทิศทางของประสิทธิภาพสูงและการฝึกอบรมแบบจำลองต่ำและมีค่าควรแก่ความสนใจและการวิจัยเชิงลึก