ความท้าทายใหม่ของ AI โอเพ่นซอร์ส: DeepSeek V3 เหนือกว่า Llama3.1 ด้วยข้อมูลการฝึกอบรมสูงถึง 14.8 ล้านล้านโทเค็น

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-30 17:48:02

จีนมีความก้าวหน้าครั้งสำคัญในด้านปัญญาประดิษฐ์! DeepSeek ได้เปิดตัว DeepSeek V3 ซึ่งเป็นโมเดลภาษาโอเพ่นซอร์สขนาดใหญ่ที่มีขนาดพารามิเตอร์ 671 พันล้านประสิทธิภาพเหนือกว่าโมเดลโอเพ่นซอร์สทั่วไปหลายรุ่น รวมถึง GPT-4 DeepSeek V3 ไม่เพียงทำงานได้ดีในการแข่งขันการเขียนโปรแกรมและการทดสอบการรวมโค้ดเท่านั้น แต่ยังสะดุดตาด้วยต้นทุนการพัฒนาที่มีประสิทธิภาพ เพียงสองเดือนและ 5.5 ล้านเหรียญสหรัฐ ซึ่งแตกต่างอย่างมากกับการลงทุนในการพัฒนาผลิตภัณฑ์ที่คล้ายคลึงกัน เบื้องหลังความสำเร็จนี้คือการสนับสนุนอย่างแข็งแกร่งของกองทุนป้องกันความเสี่ยงเชิงปริมาณ High-Flyer Capital Management ซึ่งลงทุนในการสร้างคลัสเตอร์เซิร์ฟเวอร์ที่ทรงพลัง

บริษัทปัญญาประดิษฐ์ของจีน DeepSeek เพิ่งเปิดตัวโมเดลภาษาขนาดใหญ่โอเพ่นซอร์สชื่อดัง DeepSeek V3 โมเดลที่มีพารามิเตอร์ 671 พันล้านพารามิเตอร์นี้ไม่เพียงแต่เหนือกว่า Llama3.1 ของ Meta เท่านั้น แต่ยังมีประสิทธิภาพเหนือกว่าโมเดลโอเพนซอร์สกระแสหลัก รวมถึง GPT-4 ในการทดสอบเกณฑ์มาตรฐานหลายรายการอีกด้วย

คุณสมบัติที่โดดเด่นของ DeepSeek V3 คือประสิทธิภาพอันทรงพลังและกระบวนการพัฒนาที่มีประสิทธิภาพ โมเดลดังกล่าวทำงานได้ดีในการแข่งขันบนแพลตฟอร์มการเขียนโปรแกรม Codeforces และเป็นผู้นำคู่แข่งในการทดสอบ Aider Polyglot ซึ่งทดสอบความสามารถในการรวมโค้ด การฝึกโมเดลใช้ชุดข้อมูลขนาดใหญ่จำนวน 14.8 ล้านล้านโทเค็น และขนาดพารามิเตอร์สูงถึง 1.6 เท่าของ Llama3.1

AI 机器人人工智能 (2)

สิ่งที่น่าทึ่งยิ่งกว่านั้นคือ DeepSeek เสร็จสิ้นการฝึกอบรมโมเดลภายในเวลาเพียงสองเดือนและมีค่าใช้จ่าย 5.5 ล้านเหรียญสหรัฐ ซึ่งต่ำกว่าการลงทุนในการพัฒนาผลิตภัณฑ์ที่คล้ายคลึงกันมาก

ผู้สนับสนุนเบื้องหลัง DeepSeek คือกองทุนป้องกันความเสี่ยงเชิงปริมาณของจีน High-Flyer Capital Management กองทุนนี้ได้ลงทุนในคลัสเตอร์เซิร์ฟเวอร์ที่มี GPU Nvidia A100 จำนวน 10,000 ตัว มูลค่าประมาณ 138 ล้านดอลลาร์ Liang Wenfeng ผู้ก่อตั้ง High-Flyer กล่าวว่าในที่สุด AI แบบโอเพ่นซอร์สจะทำลายข้อได้เปรียบผูกขาดของโมเดลปิดในปัจจุบันในที่สุด

DeepSeek V3 เปิดตัวภายใต้ใบอนุญาตที่ได้รับอนุญาต ช่วยให้นักพัฒนาสามารถดาวน์โหลด แก้ไข และใช้งานแอพพลิเคชั่นต่างๆ รวมถึงวัตถุประสงค์ทางการค้า แม้ว่าการใช้งานเวอร์ชันเต็มยังคงต้องการการสนับสนุนฮาร์ดแวร์ที่ทรงพลัง แต่การเปิดตัวโมเดลโอเพ่นซอร์สนี้ถือเป็นก้าวสำคัญสำหรับนวัตกรรมแบบเปิดในด้าน AI

การเปิดตัวโอเพ่นซอร์สของ DeepSeek V3 ไม่เพียงแต่ส่งเสริมความก้าวหน้าของเทคโนโลยีปัญญาประดิษฐ์เท่านั้น แต่ยังเปิดโอกาสมากขึ้นสำหรับนักพัฒนาทั่วโลก ซึ่งบ่งชี้ว่าการพัฒนาด้านปัญญาประดิษฐ์ในอนาคตจะเปิดกว้างและหลากหลายมากขึ้น กระบวนการฝึกอบรมที่มีต้นทุนต่ำและมีประสิทธิภาพสูงยังมอบประสบการณ์ที่มีคุณค่าและการอ้างอิงสำหรับสถาบันวิจัยและบริษัทอื่นๆ และคุ้มค่าที่จะรอคอยการพัฒนาครั้งต่อไป