DeepSeek สตาร์ทอัพด้านปัญญาประดิษฐ์ของจีน ได้เปิดตัว DeepSeek-V3 รุ่นขนาดใหญ่พิเศษล่าสุด ซึ่งกลายเป็นจุดสนใจของอุตสาหกรรมด้วยโค้ดโอเพ่นซอร์สและประสิทธิภาพอันทรงพลัง ด้วยพารามิเตอร์ 671B และสถาปัตยกรรมไฮบริดแบบผู้เชี่ยวชาญ ทำให้ DeepSeek-V3 เหนือกว่ารุ่นโอเพ่นซอร์สชั้นนำในการวัดประสิทธิภาพหลายรายการ และยังทำงานคล้ายกับโมเดลโอเพ่นซอร์สบางรุ่นอีกด้วย นวัตกรรมอยู่ที่กลยุทธ์การปรับสมดุลโหลดแบบไม่สูญเสียการสูญเสียและเทคโนโลยีการคาดการณ์แบบหลายโทเค็น ซึ่งช่วยปรับปรุงประสิทธิภาพการฝึกโมเดลและความเร็วในการดำเนินการได้อย่างมาก การเปิดตัว DeepSeek-V3 ถือเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยี AI แบบโอเพ่นซอร์ส ซึ่งช่วยลดช่องว่างด้วย AI แบบปิด และปูทางไปสู่การพัฒนาปัญญาประดิษฐ์ทั่วไป (AGI)
เมื่อวันที่ 26 ธันวาคม 2024 DeepSeek สตาร์ทอัพด้านปัญญาประดิษฐ์ของจีนได้เปิดตัว DeepSeek-V3 รุ่นขนาดใหญ่พิเศษรุ่นล่าสุด ซึ่งขึ้นชื่อในด้านเทคโนโลยีโอเพ่นซอร์สและความท้าทายด้านนวัตกรรมชั้นนำของผู้จำหน่าย AI DeepSeek-V3 มีพารามิเตอร์ 671B และใช้สถาปัตยกรรมแบบผสมผสานของผู้เชี่ยวชาญเพื่อเปิดใช้งานพารามิเตอร์เฉพาะเพื่อจัดการงานที่กำหนดได้อย่างถูกต้องและมีประสิทธิภาพ จากการวัดประสิทธิภาพโดย DeepSeek โมเดลใหม่นี้ได้แซงหน้าโมเดลโอเพ่นซอร์สชั้นนำ รวมถึง Llama3.1-405B ของ Meta และมีประสิทธิภาพใกล้เคียงกับโมเดลปิดจาก Anthropic และ OpenAI
การเปิดตัว DeepSeek-V3 ช่วยลดช่องว่างระหว่าง AI แบบโอเพ่นซอร์สและ AI แบบปิด DeepSeek ซึ่งเริ่มต้นจากการเป็นหน่อของกองทุน High-Flyer Capital Management ของจีน หวังว่าการพัฒนาเหล่านี้จะปูทางไปสู่ปัญญาประดิษฐ์ทั่วไป (AGI) ซึ่งโมเดลจะสามารถเข้าใจหรือเรียนรู้งานทางปัญญาใดๆ ที่มนุษย์สามารถทำได้ .
คุณสมบัติหลักของ DeepSeek-V3 ได้แก่:
เช่นเดียวกับ DeepSeek-V2 รุ่นก่อน โมเดลใหม่นี้ใช้สถาปัตยกรรมพื้นฐานของ Multi-head Latent Attention (MLA) และ DeepSeekMoE เพื่อให้มั่นใจถึงการฝึกอบรมและการอนุมานที่มีประสิทธิภาพ
นอกจากนี้ บริษัทยังได้เปิดตัวนวัตกรรม 2 รายการ ได้แก่ กลยุทธ์การปรับสมดุลโหลดแบบไม่สูญเสียการสูญเสีย และ Multi-Token Prediction (MTP) ซึ่งช่วยให้โมเดลสามารถทำนายโทเค็นในอนาคตหลายรายการพร้อมกัน ปรับปรุงประสิทธิภาพการฝึกอบรม และช่วยให้โมเดลทำงานเร็วขึ้นสามเท่า ต่อการสร้าง 60 โทเค็นต่อวินาที .
ในระยะก่อนการฝึกอบรม DeepSeek-V3 ฝึกอบรมเกี่ยวกับโทเค็นคุณภาพสูงและหลากหลาย 14.8T และดำเนินการขยายความยาวบริบทสองขั้นตอน และสุดท้ายดำเนินการหลังการฝึกอบรมด้วยการปรับแต่งแบบละเอียดภายใต้การดูแล (SFT) และการเรียนรู้แบบเสริมกำลัง (RL) เพื่อจัดโมเดลให้สอดคล้องกับความชอบของมนุษย์และปลดล็อกศักยภาพของมันต่อไป
ในขั้นตอนการฝึกอบรม DeepSeek ใช้การเพิ่มประสิทธิภาพฮาร์ดแวร์และอัลกอริทึมที่หลากหลาย รวมถึงเฟรมเวิร์กการฝึกอบรมที่มีความแม่นยำแบบผสม FP8 และอัลกอริทึม DualPipe สำหรับการทำไปป์ไลน์แบบขนาน ซึ่งช่วยลดต้นทุนการฝึกอบรม กระบวนการฝึกอบรมทั้งหมดของ DeepSeek-V3 อ้างว่าจะเสร็จสิ้นภายใน 2,788,000 ชั่วโมง GPU H800 หรือประมาณ 5.57 ล้านดอลลาร์ ซึ่งน้อยกว่าเงินหลายร้อยล้านดอลลาร์ที่ปกติใช้ในการฝึกโมเดลภาษาขนาดใหญ่ล่วงหน้ามาก
DeepSeek-V3 ได้กลายเป็นโมเดลโอเพ่นซอร์สที่แข็งแกร่งที่สุดในตลาด การวัดประสิทธิภาพหลายรายการดำเนินการโดยบริษัทแสดงให้เห็นว่ามีประสิทธิภาพเหนือกว่า GPT-4o แบบปิดในการวัดประสิทธิภาพส่วนใหญ่ ยกเว้น SimpleQA และ FRAMES ที่เน้นภาษาอังกฤษ โดยที่โมเดล OpenAI นำด้วยคะแนน 38.2 และ 80.5 ตามลำดับ (คะแนน DeepSeek-V3 คือ 24.9 และ 73.3 ตามลำดับ) DeepSeek-V3 ทำงานได้ดีเป็นพิเศษกับเกณฑ์มาตรฐานภาษาจีนและคณิตศาสตร์ โดยได้คะแนน 90.2 ในการทดสอบ Math-500 ตามมาด้วย Qwen's 80
ปัจจุบัน รหัสสำหรับ DeepSeek-V3 มีให้บริการภายใต้ใบอนุญาต MIT บน GitHub และโมเดลดังกล่าวมีให้ภายใต้ใบอนุญาตโมเดลของบริษัท องค์กรต่างๆ ยังสามารถทดสอบโมเดลใหม่ๆ ผ่าน DeepSeek Chat ซึ่งเป็นแพลตฟอร์มที่คล้ายกับ ChatGPT และเข้าถึง API เพื่อการใช้งานเชิงพาณิชย์ DeepSeek จะให้บริการ API ในราคาเดียวกับ DeepSeek-V2 จนถึงวันที่ 8 กุมภาพันธ์ หลังจากนั้น จะมีการเรียกเก็บค่าธรรมเนียม 0.27 ดอลลาร์ต่อล้านโทเค็นอินพุต (0.07 ดอลลาร์ต่อล้านโทเค็นสำหรับการเข้าถึงแคช) และ 1.10 ดอลลาร์ต่อล้านโทเค็นเอาท์พุตจะถูกเรียกเก็บ
ไฮไลท์:
DeepSeek-V3 เปิดตัวแล้ว โดยมีประสิทธิภาพเหนือกว่า Llama และ Qwen
ใช้พารามิเตอร์ 671B และสถาปัตยกรรมไฮบริดแบบผู้เชี่ยวชาญเพื่อปรับปรุงประสิทธิภาพ
นวัตกรรมประกอบด้วยกลยุทธ์การปรับสมดุลโหลดแบบไม่สูญเสียและการทำนายโทเค็นหลายรายการเพื่อความเร็วที่ดีขึ้น
ค่าใช้จ่ายในการฝึกอบรมลดลงอย่างมาก ซึ่งส่งเสริมการพัฒนา AI แบบโอเพ่นซอร์ส
โอเพ่นซอร์สและประสิทธิภาพสูงของ DeepSeek-V3 จะมีผลกระทบอย่างมากต่อสาขาปัญญาประดิษฐ์ ส่งเสริมการพัฒนาเทคโนโลยี AI โอเพ่นซอร์ส และส่งเสริมการประยุกต์ใช้ในด้านต่างๆ DeepSeek จะยังคงทำงานเพื่อพัฒนาโมเดล AI ขั้นสูงเพิ่มเติม และสนับสนุนให้ AGI เกิดขึ้นจริง ในอนาคต เรามีเหตุผลที่จะคาดหวังความก้าวหน้าเพิ่มเติมจาก DeepSeek