เมื่อเร็วๆ นี้ Epoch AI ได้เปิดตัวเครื่องจำลองพลังการประมวลผลการฝึกอบรมโมเดลภาษาขนาดใหญ่ เครื่องจำลองให้ข้อมูลอ้างอิงที่มีคุณค่าสำหรับนักวิจัยโดยการจำลองต้นทุนและประสิทธิภาพของการฝึกอบรม GPT-4 ภายใต้เงื่อนไขของฮาร์ดแวร์ที่แตกต่างกัน ผลการจำลองแสดงให้เห็นว่าแม้การใช้กราฟิกการ์ดรุ่นเก่า GTX580 จากปี 2012 ก็สามารถฝึก GPT-4 ได้ แต่ค่าใช้จ่ายจะสูงกว่าฮาร์ดแวร์สมัยใหม่ถึง 10 เท่า ซึ่งเน้นย้ำถึงความสำคัญของการปรับปรุงประสิทธิภาพของฮาร์ดแวร์สำหรับการฝึกโมเดล AI เครื่องจำลองยังรองรับการจำลองการฝึกอบรมศูนย์ข้อมูลหลายศูนย์ ช่วยให้ผู้ใช้ปรับแต่งพารามิเตอร์และวิเคราะห์ความแตกต่างด้านประสิทธิภาพของฮาร์ดแวร์และกลยุทธ์การฝึกอบรมที่แตกต่างกัน มอบพื้นฐานการตัดสินใจที่สำคัญสำหรับการฝึกอบรมโมเดล AI ขนาดใหญ่ในอนาคต
เมื่อเร็วๆ นี้ บริษัทวิจัยปัญญาประดิษฐ์ Epoch AI ได้เปิดตัวโปรแกรมจำลองแบบโต้ตอบที่ออกแบบมาเพื่อจำลองพลังการประมวลผลที่จำเป็นในการฝึกโมเดลภาษาขนาดใหญ่โดยเฉพาะ เมื่อใช้เครื่องจำลองนี้ นักวิจัยพบว่าแม้จะสามารถฝึก GPT-4 โดยใช้กราฟิกการ์ดรุ่นเก่าตั้งแต่ปี 2012 เช่น GTX580 ได้ แต่ค่าใช้จ่ายจะสูงกว่าฮาร์ดแวร์สมัยใหม่ในปัจจุบันถึงสิบเท่า
การวิจัยจาก Epoch AI แสดงให้เห็นว่าจำนวนการดำเนินการจุดลอยตัว (FLOP) ที่จำเป็นในการฝึก GPT-4 อยู่ระหว่าง 1e25 ถึง 1e26 สำหรับการศึกษานี้ เครื่องจำลองจะวิเคราะห์ประสิทธิภาพของกราฟิกการ์ดต่างๆ โดยเฉพาะอย่างยิ่งเมื่อโมเดลขยายขนาดขึ้น ผลการวิจัยพบว่าเมื่อแบบจำลองเติบโตขึ้น ประสิทธิภาพโดยทั่วไปจะลดลง ยกตัวอย่างกราฟิกการ์ด H100 ที่เปิดตัวในช่วงไม่กี่ปีที่ผ่านมา ซึ่งสามารถรักษาประสิทธิภาพสูงได้เป็นเวลานาน ในขณะที่ประสิทธิภาพของกราฟิกการ์ด V100 จะลดลงอย่างเห็นได้ชัดเมื่อต้องเผชิญกับระดับการฝึกอบรมที่ใหญ่ขึ้น
ในการทดลองของ Epoch AI หน่วยความจำของการ์ดกราฟิก GTX580 มีเพียง 3GB กราฟิกการ์ดนี้เป็นตัวเลือกกระแสหลักในการฝึกโมเดล AlexNet ในปี 2012 แม้ว่าเทคโนโลยีจะก้าวหน้าไปแล้ว แต่นักวิจัยเชื่อว่าการฝึกอบรมในขนาดใหญ่เช่นนี้เป็นไปได้โดยใช้ฮาร์ดแวร์รุ่นเก่า แต่ทรัพยากรและต้นทุนที่จำเป็นนั้นเป็นสิ่งที่ห้ามปราม
นอกจากนี้ เครื่องจำลองยังรองรับการจำลองการฝึกอบรมที่ซับซ้อนในศูนย์ข้อมูลหลายแห่ง ผู้ใช้สามารถปรับแต่งพารามิเตอร์ เช่น ขนาดศูนย์ข้อมูล เวลาแฝง และแบนด์วิธการเชื่อมต่อ เพื่อจำลองการฝึกอบรมในหลายสถานที่ เครื่องมือนี้ยังช่วยให้สามารถวิเคราะห์ความแตกต่างด้านประสิทธิภาพระหว่างกราฟิกการ์ดสมัยใหม่ (เช่น H100 และ A100) ศึกษาผลกระทบของขนาดแบตช์ที่แตกต่างกันและการฝึกใช้ GPU หลายตัว และสร้างไฟล์บันทึกโดยละเอียดที่บันทึกผลลัพธ์ของโมเดล
Epoch AI กล่าวว่าได้พัฒนาเครื่องจำลองเพื่อเพิ่มความเข้าใจในการปรับปรุงประสิทธิภาพของฮาร์ดแวร์ให้ลึกซึ้งยิ่งขึ้น และประเมินผลกระทบของการควบคุมการส่งออกชิป ด้วยความคาดหวังที่เพิ่มขึ้นในภารกิจการฝึกอบรมขนาดใหญ่ในช่วงศตวรรษนี้ การทำความเข้าใจข้อกำหนดด้านฮาร์ดแวร์ที่จำเป็นในอนาคตจึงเป็นสิ่งสำคัญอย่างยิ่ง
โดยรวมแล้ว การวิจัยและการจำลองของ Epoch AI นี้ให้ค่าอ้างอิงที่สำคัญสำหรับการฝึกอบรมโมเดลภาษาขนาดใหญ่ ช่วยให้นักวิจัยเข้าใจประสิทธิภาพของฮาร์ดแวร์ได้ดีขึ้น เพิ่มประสิทธิภาพกลยุทธ์การฝึกอบรม และให้การฝึกอบรมที่เชื่อถือได้มากขึ้นสำหรับการคาดการณ์ AI ในอนาคต