Nvidia เพิ่งเปิดสองรุ่นใหม่: Nemotron-4-minitron-4b และ Nemotron-4-minitron-8b ซึ่งทำให้เกิดความก้าวหน้าอย่างมีนัยสำคัญในประสิทธิภาพการฝึกอบรม ผ่านเทคโนโลยีการตัดแต่งกิ่งและความรู้ที่มีโครงสร้างข้อมูลที่จำเป็นสำหรับการฝึกอบรมทั้งสองรุ่นนี้ลดลง 40 ครั้งและค่าใช้จ่ายในการคำนวณลดลง 1.8 เท่า สิ่งนี้ไม่เพียง แต่แสดงให้เห็นถึงการก้าวกระโดดในเทคโนโลยี AI เท่านั้น แต่ยังนำความเป็นไปได้ใหม่ ๆ มาสู่สนาม AI และมีส่วนช่วยทรัพยากรที่มีค่าให้กับชุมชน AI
การฝึกอบรมแบบจำลอง AI แบบดั้งเดิมต้องการข้อมูลและองค์ประกอบมากมาย อย่างไรก็ตาม Nvidia ได้ลดความต้องการนี้อย่างมีนัยสำคัญโดยใช้การตัดแต่งกิ่งที่มีโครงสร้างและการกลั่นความรู้ โดยเฉพาะเมื่อเทียบกับการฝึกอบรมตั้งแต่เริ่มต้นข้อมูลโทเค็นการฝึกอบรมที่จำเป็นสำหรับรุ่นใหม่ได้ลดลง 40 เท่าและค่าใช้จ่ายในการคำนวณกำลังประหยัด 1.8 ครั้ง เบื้องหลังความสำเร็จนี้คือการเพิ่มประสิทธิภาพเชิงลึกของ Nvidia ของโมเดล Llama-3.18b ที่มีอยู่
การตัดแต่งโครงสร้างเป็นเทคโนโลยีการบีบอัดเครือข่ายประสาทที่ทำให้โครงสร้างแบบจำลองง่ายขึ้นโดยการลบน้ำหนักที่ไม่สำคัญ แตกต่างจากกิ่งแบบสุ่มสาขาที่มีโครงสร้างยังคงโครงสร้างของเมทริกซ์น้ำหนัก
การกลั่นความรู้เป็นวิธีการปรับปรุงประสิทธิภาพโดยการเลียนแบบโมเดลครูของแบบจำลองนักเรียน ในการปฏิบัติของ Nvidia ผ่านการกลั่นความรู้ตาม logit โมเดลนักเรียนสามารถเรียนรู้ความเข้าใจที่ลึกซึ้งของรูปแบบครูและแม้ว่ามันจะลดข้อมูลการฝึกอบรมได้อย่างมาก แต่ก็สามารถรักษาประสิทธิภาพที่ยอดเยี่ยมได้
โมเดล Minitron-4B และ Minitron-8B ที่ผ่านการฝึกอบรมโดยสาขาที่มีโครงสร้างและการกลั่นความรู้เพิ่มขึ้น 16%สำหรับ MMLU และประสิทธิภาพสามารถเทียบเคียงได้กับโมเดลที่รู้จักกันดีเช่น Mistral7b, Gemma7b และ LLAMA-38B ความสำเร็จนี้พิสูจน์ให้เห็นถึงประสิทธิภาพของวิธี NVIDIA และยังให้ความเป็นไปได้ใหม่สำหรับการฝึกอบรมและการปรับใช้แบบจำลอง AI ขนาดใหญ่
การวัดโอเพ่นซอร์สของ NVIDIA นี้ไม่เพียง แต่แสดงตำแหน่งความเป็นผู้นำในเทคโนโลยี AI เท่านั้น แต่ยังนำทรัพยากรที่มีค่ามาสู่ชุมชน AI ด้วยความก้าวหน้าอย่างต่อเนื่องของเทคโนโลยี AI เราหวังว่าจะได้เห็นวิธีการที่เป็นนวัตกรรมมากขึ้นเพื่อส่งเสริม AI ในการพัฒนาในทิศทางที่มีประสิทธิภาพและฉลาดขึ้น
ที่อยู่รุ่น:
https://huggingface.co/nvidia/nemotron-4-minitron-4b-base
https://huggingface.co/nvidia/nemotron-4-minitron-8b-base
สองรุ่นที่สำคัญของโอเพนซอร์ส NVIDIA ให้แนวคิดใหม่สำหรับการปรับปรุงประสิทธิภาพของสนาม AI และยังระบุว่าการลดลงของค่าใช้จ่ายในการฝึกอบรมแบบจำลอง AI ในอนาคตและการขยายขอบเขตของการใช้งานต่อไป รอคอยแอพพลิเคชั่นที่เป็นนวัตกรรมมากขึ้นตามนี้