DeepSeek-V3: เปิดตัวโมเดล AI โอเพ่นซอร์สขนาดใหญ่พิเศษ ประสิทธิภาพเหนือกว่า Llama และ Qwen

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-30 17:32:01

DeepSeek สตาร์ทอัพด้านปัญญาประดิษฐ์ของจีน ได้เปิดตัว DeepSeek-V3 รุ่นขนาดใหญ่พิเศษล่าสุด ซึ่งกลายเป็นจุดสนใจของอุตสาหกรรมด้วยโค้ดโอเพ่นซอร์สและประสิทธิภาพอันทรงพลัง ด้วยพารามิเตอร์ 671B และสถาปัตยกรรมไฮบริดแบบผู้เชี่ยวชาญ ทำให้ DeepSeek-V3 เหนือกว่ารุ่นโอเพ่นซอร์สชั้นนำในการวัดประสิทธิภาพหลายรายการ และยังทำงานคล้ายกับโมเดลโอเพ่นซอร์สบางรุ่นอีกด้วย นวัตกรรมอยู่ที่กลยุทธ์การปรับสมดุลโหลดแบบไม่สูญเสียการสูญเสียและเทคโนโลยีการคาดการณ์แบบหลายโทเค็น ซึ่งช่วยปรับปรุงประสิทธิภาพการฝึกโมเดลและความเร็วในการดำเนินการได้อย่างมาก การเปิดตัว DeepSeek-V3 ถือเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยี AI แบบโอเพ่นซอร์ส ซึ่งช่วยลดช่องว่างด้วย AI แบบปิด และปูทางไปสู่การพัฒนาปัญญาประดิษฐ์ทั่วไป (AGI)

เมื่อวันที่ 26 ธันวาคม 2024 DeepSeek สตาร์ทอัพด้านปัญญาประดิษฐ์ของจีนได้เปิดตัว DeepSeek-V3 รุ่นขนาดใหญ่พิเศษรุ่นล่าสุด ซึ่งขึ้นชื่อในด้านเทคโนโลยีโอเพ่นซอร์สและความท้าทายด้านนวัตกรรมชั้นนำของผู้จำหน่าย AI DeepSeek-V3 มีพารามิเตอร์ 671B และใช้สถาปัตยกรรมแบบผสมผสานของผู้เชี่ยวชาญเพื่อเปิดใช้งานพารามิเตอร์เฉพาะเพื่อจัดการงานที่กำหนดได้อย่างถูกต้องและมีประสิทธิภาพ จากการวัดประสิทธิภาพโดย DeepSeek โมเดลใหม่นี้ได้แซงหน้าโมเดลโอเพ่นซอร์สชั้นนำ รวมถึง Llama3.1-405B ของ Meta และมีประสิทธิภาพใกล้เคียงกับโมเดลปิดจาก Anthropic และ OpenAI

การเปิดตัว DeepSeek-V3 ช่วยลดช่องว่างระหว่าง AI แบบโอเพ่นซอร์สและ AI แบบปิด DeepSeek ซึ่งเริ่มต้นจากการเป็นหน่อของกองทุน High-Flyer Capital Management ของจีน หวังว่าการพัฒนาเหล่านี้จะปูทางไปสู่ปัญญาประดิษฐ์ทั่วไป (AGI) ซึ่งโมเดลจะสามารถเข้าใจหรือเรียนรู้งานทางปัญญาใดๆ ที่มนุษย์สามารถทำได้ .

คุณสมบัติหลักของ DeepSeek-V3 ได้แก่:

เช่นเดียวกับ DeepSeek-V2 รุ่นก่อน โมเดลใหม่นี้ใช้สถาปัตยกรรมพื้นฐานของ Multi-head Latent Attention (MLA) และ DeepSeekMoE เพื่อให้มั่นใจถึงการฝึกอบรมและการอนุมานที่มีประสิทธิภาพ

นอกจากนี้ บริษัทยังได้เปิดตัวนวัตกรรม 2 รายการ ได้แก่ กลยุทธ์การปรับสมดุลโหลดแบบไม่สูญเสียการสูญเสีย และ Multi-Token Prediction (MTP) ซึ่งช่วยให้โมเดลสามารถทำนายโทเค็นในอนาคตหลายรายการพร้อมกัน ปรับปรุงประสิทธิภาพการฝึกอบรม และช่วยให้โมเดลทำงานเร็วขึ้นสามเท่า ต่อการสร้าง 60 โทเค็นต่อวินาที .

ในระยะก่อนการฝึกอบรม DeepSeek-V3 ฝึกอบรมเกี่ยวกับโทเค็นคุณภาพสูงและหลากหลาย 14.8T และดำเนินการขยายความยาวบริบทสองขั้นตอน และสุดท้ายดำเนินการหลังการฝึกอบรมด้วยการปรับแต่งแบบละเอียดภายใต้การดูแล (SFT) และการเรียนรู้แบบเสริมกำลัง (RL) เพื่อจัดโมเดลให้สอดคล้องกับความชอบของมนุษย์และปลดล็อกศักยภาพของมันต่อไป

ในขั้นตอนการฝึกอบรม DeepSeek ใช้การเพิ่มประสิทธิภาพฮาร์ดแวร์และอัลกอริทึมที่หลากหลาย รวมถึงเฟรมเวิร์กการฝึกอบรมที่มีความแม่นยำแบบผสม FP8 และอัลกอริทึม DualPipe สำหรับการทำไปป์ไลน์แบบขนาน ซึ่งช่วยลดต้นทุนการฝึกอบรม กระบวนการฝึกอบรมทั้งหมดของ DeepSeek-V3 อ้างว่าจะเสร็จสิ้นภายใน 2,788,000 ชั่วโมง GPU H800 หรือประมาณ 5.57 ล้านดอลลาร์ ซึ่งน้อยกว่าเงินหลายร้อยล้านดอลลาร์ที่ปกติใช้ในการฝึกโมเดลภาษาขนาดใหญ่ล่วงหน้ามาก

DeepSeek-V3 ได้กลายเป็นโมเดลโอเพ่นซอร์สที่แข็งแกร่งที่สุดในตลาด การวัดประสิทธิภาพหลายรายการดำเนินการโดยบริษัทแสดงให้เห็นว่ามีประสิทธิภาพเหนือกว่า GPT-4o แบบปิดในการวัดประสิทธิภาพส่วนใหญ่ ยกเว้น SimpleQA และ FRAMES ที่เน้นภาษาอังกฤษ โดยที่โมเดล OpenAI นำด้วยคะแนน 38.2 และ 80.5 ตามลำดับ (คะแนน DeepSeek-V3 คือ 24.9 และ 73.3 ตามลำดับ) DeepSeek-V3 ทำงานได้ดีเป็นพิเศษกับเกณฑ์มาตรฐานภาษาจีนและคณิตศาสตร์ โดยได้คะแนน 90.2 ในการทดสอบ Math-500 ตามมาด้วย Qwen's 80

ปัจจุบัน รหัสสำหรับ DeepSeek-V3 มีให้บริการภายใต้ใบอนุญาต MIT บน GitHub และโมเดลดังกล่าวมีให้ภายใต้ใบอนุญาตโมเดลของบริษัท องค์กรต่างๆ ยังสามารถทดสอบโมเดลใหม่ๆ ผ่าน DeepSeek Chat ซึ่งเป็นแพลตฟอร์มที่คล้ายกับ ChatGPT และเข้าถึง API เพื่อการใช้งานเชิงพาณิชย์ DeepSeek จะให้บริการ API ในราคาเดียวกับ DeepSeek-V2 จนถึงวันที่ 8 กุมภาพันธ์ หลังจากนั้น จะมีการเรียกเก็บค่าธรรมเนียม 0.27 ดอลลาร์ต่อล้านโทเค็นอินพุต (0.07 ดอลลาร์ต่อล้านโทเค็นสำหรับการเข้าถึงแคช) และ 1.10 ดอลลาร์ต่อล้านโทเค็นเอาท์พุตจะถูกเรียกเก็บ

ไฮไลท์:

DeepSeek-V3 เปิดตัวแล้ว โดยมีประสิทธิภาพเหนือกว่า Llama และ Qwen

ใช้พารามิเตอร์ 671B และสถาปัตยกรรมไฮบริดแบบผู้เชี่ยวชาญเพื่อปรับปรุงประสิทธิภาพ

นวัตกรรมประกอบด้วยกลยุทธ์การปรับสมดุลโหลดแบบไม่สูญเสียและการทำนายโทเค็นหลายรายการเพื่อความเร็วที่ดีขึ้น

ค่าใช้จ่ายในการฝึกอบรมลดลงอย่างมาก ซึ่งส่งเสริมการพัฒนา AI แบบโอเพ่นซอร์ส

โอเพ่นซอร์สและประสิทธิภาพสูงของ DeepSeek-V3 จะมีผลกระทบอย่างมากต่อสาขาปัญญาประดิษฐ์ ส่งเสริมการพัฒนาเทคโนโลยี AI โอเพ่นซอร์ส และส่งเสริมการประยุกต์ใช้ในด้านต่างๆ DeepSeek จะยังคงทำงานเพื่อพัฒนาโมเดล AI ขั้นสูงเพิ่มเติม และสนับสนุนให้ AGI เกิดขึ้นจริง ในอนาคต เรามีเหตุผลที่จะคาดหวังความก้าวหน้าเพิ่มเติมจาก DeepSeek