NVIDIA ได้เปิดตัวโมเดลภาษาขนาดใหญ่ใหม่ Nemotron-4 ซึ่งเป็นโมเดลพารามิเตอร์ 15 พันล้านที่ทำงานได้ดีในการวัดประสิทธิภาพหลายรายการ ซึ่งมีประสิทธิภาพเหนือกว่าคู่แข่งที่มีขนาดเท่ากัน โมเดลนี้อิงตามสถาปัตยกรรม Transformer ตัวถอดรหัสบริสุทธิ์มาตรฐาน และได้รับการฝึกอบรมโดยใช้ชุดข้อมูลหลายภาษาและการเข้ารหัสที่มีโทเค็น 8 ล้านล้านโทเค็น ประสิทธิภาพอันทรงพลังครอบคลุมการใช้เหตุผลทั่วไป คณิตศาสตร์และโค้ด การจำแนกและการสร้างหลายภาษา และการแปลภาษาด้วยเครื่อง
ทีม NVIDIA เปิดตัวโมเดลใหม่ที่มีพารามิเตอร์ 15 พันล้าน Nemotron-4 ซึ่งทำงานได้ดีในภาษาอังกฤษ หลายภาษา และงานเขียนโค้ด และเหนือกว่าโมเดลที่มีขนาดพารามิเตอร์เท่ากันในเกณฑ์การประเมินหลายรายการ การใช้สถาปัตยกรรม Transformer ถอดรหัสบริสุทธิ์มาตรฐาน ชุดข้อมูลการฝึกอบรมประกอบด้วยโทเค็น 8 ล้านล้านโทเค็น ครอบคลุมหลายภาษาและข้อความที่เข้ารหัส Nemotron-415B มีประสิทธิภาพที่ยอดเยี่ยมในงานต่างๆ รวมถึงการใช้เหตุผลสามัญสำนึก คณิตศาสตร์และการเขียนโค้ด การจำแนกและการสร้างหลายภาษา การแปลด้วยคอมพิวเตอร์ ฯลฯ ผู้เขียนเชื่อว่า Nemotron-415B คาดว่าจะกลายเป็นรุ่นใหญ่สำหรับใช้งานทั่วไปที่ดีที่สุดที่สามารถทำงานบน NVIDIA A100 หรือ H100 GPU ตัวเดียวได้
การเกิดขึ้นของ Nemotron-4 แสดงให้เห็นถึงความก้าวหน้าทางเทคโนโลยีอย่างต่อเนื่องของ NVIDIA ในด้านโมเดลภาษาขนาดใหญ่ ข้อได้เปรียบในการใช้งาน GPU เดี่ยวยังทำให้มีโอกาสในการใช้งานในวงกว้างอีกด้วย ของปัญญาประดิษฐ์ในอนาคต