أصدرت شركة DeepSeek الصينية الناشئة في مجال الذكاء الاصطناعي أحدث طراز كبير جدًا منها DeepSeek-V3، والذي أصبح محور الصناعة بكوده مفتوح المصدر وأدائه القوي. بفضل معلمات 671B وبنية هجينة متخصصة، يتفوق DeepSeek-V3 على النماذج مفتوحة المصدر الرائدة في معايير متعددة، بل ويؤدي أداءً مشابهًا لبعض النماذج مغلقة المصدر. يكمن ابتكارها في إستراتيجيتها المساعدة لموازنة التحميل بدون فقدان وتقنية التنبؤ متعددة الرموز، والتي تعمل على تحسين كفاءة تدريب النموذج وسرعة التشغيل بشكل كبير. يمثل إطلاق DeepSeek-V3 إنجازًا كبيرًا في تكنولوجيا الذكاء الاصطناعي مفتوح المصدر، مما يزيد من تضييق الفجوة مع الذكاء الاصطناعي مغلق المصدر ويمهد الطريق لتطوير الذكاء العام الاصطناعي (AGI).
في 26 ديسمبر 2024، أصدرت شركة DeepSeek الصينية الناشئة للذكاء الاصطناعي أحدث طراز كبير للغاية DeepSeek-V3، المعروف بتكنولوجيته مفتوحة المصدر والتحديات المبتكرة التي تقود بائعي الذكاء الاصطناعي. يحتوي DeepSeek-V3 على 671B من المعلمات ويستخدم بنية خليط من الخبراء لتنشيط معلمات محددة للتعامل مع مهمة معينة بدقة وكفاءة. وفقًا للمعايير التي قدمتها DeepSeek، تجاوز هذا النموذج الجديد النماذج الرائدة مفتوحة المصدر بما في ذلك Meta’s Llama3.1-405B، وله أداء مماثل للنماذج المغلقة من Anthropic وOpenAI.
يمثل إصدار DeepSeek-V3 مزيدًا من تضييق الفجوة بين الذكاء الاصطناعي مفتوح المصدر والذكاء الاصطناعي مغلق المصدر. DeepSeek، التي بدأت كفرع من صندوق التحوط الكمي الصيني High-Flyer Capital Management، تأمل أن تمهد هذه التطورات الطريق للذكاء الاصطناعي العام (AGI)، حيث ستتمكن النماذج من فهم أو تعلم أي مهمة فكرية يمكن للإنسان القيام بها .
تشمل الميزات الرئيسية لبرنامج DeepSeek-V3 ما يلي:
مثل سابقه DeepSeek-V2، يعتمد النموذج الجديد على البنية الأساسية للانتباه الكامن متعدد الرؤوس (MLA) وDeepSeekMoE، مما يضمن كفاءة التدريب والاستدلال.
أطلقت الشركة أيضًا ابتكارين: استراتيجية مساعدة لموازنة التحميل بدون خسارة والتنبؤ بالرموز المتعددة (MTP)، والذي يسمح للنماذج بالتنبؤ بالعديد من الرموز المستقبلية في وقت واحد، مما يحسن كفاءة التدريب ويسمح للنماذج بالعمل بشكل أسرع ثلاث مرات، لكل توليد 60 رمزًا مميزًا في الثانية. .
في مرحلة ما قبل التدريب، تدرب DeepSeek-V3 على 14.8T من الرموز المميزة عالية الجودة والمتنوعة، وقام بتوسيع طول السياق على مرحلتين، وأجرى أخيرًا تدريبًا ما بعد الضبط الدقيق تحت الإشراف (SFT) والتعلم المعزز (RL) ، لمواءمة النموذج مع التفضيلات البشرية وإطلاق إمكاناته بشكل أكبر.
في مرحلة التدريب، يستخدم DeepSeek مجموعة متنوعة من تحسينات الأجهزة والخوارزميات، بما في ذلك إطار التدريب المختلط الدقة FP8 وخوارزمية DualPipe لموازاة خطوط الأنابيب، مما يقلل تكاليف التدريب. يُزعم أن عملية التدريب الكاملة لـ DeepSeek-V3 قد اكتملت في 2788 ألف ساعة من وحدات معالجة الرسومات H800 أو ما يقرب من 5.57 مليون دولار، وهو أقل بكثير من مئات الملايين من الدولارات التي يتم إنفاقها عادةً على نماذج اللغات الكبيرة قبل التدريب.
أصبح DeepSeek-V3 أقوى نموذج مفتوح المصدر في السوق. أظهرت العديد من المعايير التي أجرتها الشركة أنها تتفوق على GPT-4o مغلق المصدر في معظم المعايير، باستثناء SimpleQA وFRAMES التي تركز على اللغة الإنجليزية، حيث تقدم نموذج OpenAI بدرجات 38.2 و80.5، على التوالي (درجات DeepSeek-V3 هي 24.9 و 73.3 على التوالي). كان أداء DeepSeek-V3 جيدًا بشكل خاص في معايير اللغة الصينية والرياضيات، حيث سجل 90.2 في اختبار Math-500، يليه Qwen's 80.
حاليًا، يتوفر رمز DeepSeek-V3 بموجب ترخيص MIT على GitHub، ويتم توفير النموذج بموجب ترخيص نموذج الشركة. يمكن للشركات أيضًا اختبار نماذج جديدة من خلال DeepSeek Chat، وهي منصة مشابهة لـ ChatGPT، والوصول إلى واجهات برمجة التطبيقات للاستخدام التجاري. سيوفر DeepSeek واجهة برمجة التطبيقات (API) بنفس سعر DeepSeek-V2 حتى 8 فبراير. بعد ذلك، سيتم فرض رسوم قدرها 0.27 USD لكل مليون رمز مميز للإدخال (0.07 USD لكل مليون رمز مميز لزيارات ذاكرة التخزين المؤقت) و1.10 USD لكل مليون رمز مميز للمخرجات.
أبرز النقاط:
تم إصدار DeepSeek-V3 بأداء يفوق Llama وQwen.
اعتماد معلمات 671B والبنية الهجينة المتخصصة لتحسين الكفاءة.
تتضمن الابتكارات إستراتيجيات موازنة التحميل بدون فقدان البيانات والتنبؤ بالرموز المتعددة لتحسين السرعة.
تم تخفيض تكاليف التدريب بشكل كبير، مما يعزز تطوير الذكاء الاصطناعي مفتوح المصدر.
سيكون للمصدر المفتوح والأداء العالي لـ DeepSeek-V3 تأثير عميق على مجال الذكاء الاصطناعي، وتعزيز تطوير تكنولوجيا الذكاء الاصطناعي مفتوحة المصدر، وتعزيز تطبيقها في مختلف المجالات. ستواصل DeepSeek العمل على تطوير نماذج الذكاء الاصطناعي الأكثر تقدمًا والمساهمة في تحقيق الذكاء الاصطناعي العام. في المستقبل، لدينا سبب لتوقع المزيد من الإنجازات من DeepSeek.