ในช่วงไม่กี่ปีที่ผ่านมาค่าใช้จ่ายในการฝึกอบรมของแบบจำลองภาษาขนาดใหญ่ยังคงสูงซึ่งได้กลายเป็นปัจจัยสำคัญที่ จำกัด การพัฒนา AI วิธีลดต้นทุนการฝึกอบรมและปรับปรุงประสิทธิภาพได้กลายเป็นจุดสนใจของความสนใจของอุตสาหกรรม นักวิจัยที่ Harvard และ Stanford University ได้ใช้วิธีการที่แตกต่างและเริ่มต้นด้วยความแม่นยำในการฝึกอบรมแบบจำลองเพื่อสำรวจวิธีการฝึกอบรมที่คุ้มค่า พวกเขาพบว่าโดยการลดความแม่นยำของแบบจำลองปริมาณการคำนวณสามารถลดลงได้อย่างมีประสิทธิภาพและปรับปรุงประสิทธิภาพของโมเดลในบางกรณี การศึกษาครั้งนี้ให้แนวคิดใหม่สำหรับการฝึกอบรมรูปแบบภาษาที่เหมาะสมและชี้ให้เห็นทิศทางสำหรับการพัฒนา AI ในอนาคต
ในสาขาปัญญาประดิษฐ์ยิ่งสเกลมีขนาดใหญ่ขึ้นความสามารถที่แข็งแกร่งขึ้น เพื่อที่จะติดตามรูปแบบภาษาที่มีประสิทธิภาพมากขึ้น บริษัท เทคโนโลยีที่สำคัญคือพารามิเตอร์แบบจำลองการซ้อนกันอย่างบ้าคลั่งและข้อมูลการฝึกอบรม แต่พวกเขาพบว่าค่าใช้จ่ายเพิ่มขึ้นเช่นกัน ไม่มีวิธีที่คุ้มค่าและมีประสิทธิภาพในการฝึกอบรมแบบจำลองภาษาหรือไม่?
นักวิจัยจากมหาวิทยาลัยฮาร์วาร์ดและสแตนฟอร์ดเพิ่งตีพิมพ์บทความที่พวกเขาพบว่าความแม่นยำของการฝึกอบรมแบบจำลองเป็นเหมือนกุญแจที่ซ่อนอยู่ซึ่งปลดล็อค "รหัสผ่านต้นทุน" ของการฝึกอบรมแบบจำลองภาษา
ความแม่นยำของแบบจำลองคืออะไร? แบบจำลองการเรียนรู้ลึกแบบดั้งเดิมมักจะได้รับการฝึกฝนโดยใช้หมายเลขจุดลอยตัว 32 บิต (FP32) แต่ในช่วงไม่กี่ปีที่ผ่านมาด้วยการพัฒนาฮาร์ดแวร์ใช้ประเภทตัวเลขที่แม่นยำต่ำกว่าเช่นหมายเลขจุดลอย 16 บิต (FP16) หรือ 8 บิต การฝึกอบรมจำนวนเต็ม (INT8) เป็นไปได้
ดังนั้นผลกระทบใดที่จะลดความแม่นยำของแบบจำลองที่มีต่อประสิทธิภาพของโมเดล จากการทดลองจำนวนมากนักวิจัยวิเคราะห์การเปลี่ยนแปลงค่าใช้จ่ายและประสิทธิภาพของการฝึกอบรมแบบจำลองและการอนุมานที่ความแม่นยำที่แตกต่างกันและเสนอชุดใหม่ของกฎการปรับขนาด "การรับรู้ที่แม่นยำ"
พวกเขาพบว่าการฝึกอบรมที่มีความแม่นยำต่ำสามารถลดจำนวน "พารามิเตอร์ที่มีประสิทธิภาพ" ได้อย่างมีประสิทธิภาพของแบบจำลองซึ่งจะช่วยลดปริมาณการคำนวณที่จำเป็นสำหรับการฝึกอบรม ซึ่งหมายความว่าภายใต้งบประมาณการคำนวณเดียวกันเราสามารถฝึกอบรมโมเดลขนาดใหญ่หรือในระดับเดียวกันโดยใช้ความแม่นยำที่ต่ำกว่าสามารถประหยัดทรัพยากรการคำนวณจำนวนมากได้
ยิ่งไปกว่านั้นนักวิจัยก็พบว่าในบางกรณีการฝึกอบรมด้วยความแม่นยำที่ต่ำกว่าสามารถปรับปรุงประสิทธิภาพของแบบจำลองได้จริง! เฟสโมเดลจะมีความแข็งแกร่งมากขึ้นต่อการลดความแม่นยำเชิงปริมาณดังนั้นจึงแสดงประสิทธิภาพที่ดีขึ้นในขั้นตอนการอนุมาน
ดังนั้นความแม่นยำใดที่เราควรเลือกที่จะฝึกอบรมแบบจำลอง?
การฝึกอบรมความแม่นยำ 16 บิตแบบดั้งเดิมอาจไม่ใช่ทางเลือกที่ดีที่สุด การวิจัยของพวกเขาแสดงให้เห็นว่าความแม่นยำ 7-8 บิตอาจเป็นตัวเลือกที่คุ้มค่ากว่า
มันไม่ได้เป็นการเคลื่อนไหวที่ชาญฉลาดในการฝึกอบรมความแม่นยำต่ำเป็นพิเศษ (เช่นการฝึกอบรม 4 บิต) เนื่องจากความแม่นยำต่ำมากจำนวนพารามิเตอร์ที่มีประสิทธิภาพของโมเดลจะลดลงอย่างรวดเร็วเพื่อรักษาประสิทธิภาพเราจำเป็นต้องเพิ่มขนาดของรุ่นอย่างมีนัยสำคัญซึ่งจะนำไปสู่ต้นทุนการคำนวณที่สูงขึ้น
ความแม่นยำในการฝึกอบรมที่ดีที่สุดอาจแตกต่างกันไปตามรูปแบบที่แตกต่างกัน สำหรับแบบจำลองที่ต้องใช้ "overtraining" มากมายเช่นซีรีย์ LLAMA-3 และ GEMMA-2 การฝึกอบรมด้วยความแม่นยำที่สูงขึ้นอาจมีประสิทธิภาพมากขึ้น
การศึกษาครั้งนี้ให้มุมมองใหม่อย่างสมบูรณ์สำหรับเราในการทำความเข้าใจและเพิ่มประสิทธิภาพการฝึกอบรมรูปแบบภาษา มันบอกเราว่าการเลือกความแม่นยำนั้นไม่คงที่ แต่จำเป็นต้องมีการซื้อขายตามขนาดของโมเดลเฉพาะปริมาณข้อมูลการฝึกอบรมและสถานการณ์แอปพลิเคชัน
แน่นอนการศึกษานี้มีข้อ จำกัด บางประการ ตัวอย่างเช่นแบบจำลองที่ใช้มีขนาดค่อนข้างเล็กและผลการทดลองอาจไม่ได้ถูกนำไปใช้โดยตรงกับโมเดลขนาดใหญ่โดยตรง นอกจากนี้พวกเขามุ่งเน้นไปที่ฟังก์ชั่นการสูญเสียของแบบจำลองเท่านั้นและไม่ได้ประเมินประสิทธิภาพของแบบจำลองในงานดาวน์สตรีม
อย่างไรก็ตามการศึกษาครั้งนี้มีความสำคัญอย่างยิ่ง มันเผยให้เห็นความสัมพันธ์ที่ซับซ้อนระหว่างความแม่นยำของแบบจำลองและประสิทธิภาพของแบบจำลองและค่าใช้จ่ายในการฝึกอบรมและให้ข้อมูลเชิงลึกที่มีค่าสำหรับเราในการออกแบบและฝึกอบรมแบบจำลองภาษาที่แข็งแกร่งและประหยัดยิ่งขึ้นในอนาคต
กระดาษ: https://arxiv.org/pdf/2411.04330
ในระยะสั้นการศึกษานี้ให้แนวคิดและวิธีการใหม่ ๆ เพื่อลดค่าใช้จ่ายในการฝึกอบรมของแบบจำลองภาษาขนาดใหญ่และให้ค่าอ้างอิงที่สำคัญสำหรับการพัฒนาในอนาคตของสาขาปัญญาประดิษฐ์ แม้ว่าจะมีข้อ จำกัด บางประการในการวิจัย แต่กฎการปรับขนาด "การรับรู้ที่แม่นยำ" ที่เสนอและการอภิปรายเชิงลึกเกี่ยวกับความสัมพันธ์ระหว่างความแม่นยำของแบบจำลองและค่าใช้จ่ายและประสิทธิภาพมีความสำคัญทางทฤษฎีและแนวทางปฏิบัติที่สำคัญ