تسببت نماذج Deepseek التي تم إصدارها مؤخرًا في Deepseek-V3 و Deepseek-R1 في استجابة كبيرة في مجال الذكاء الاصطناعي. على وجه الخصوص ، تكشف Deepseek-R1 Open Source Model الأوزان ويكشف جميع تقنيات التدريب ، والتي جذبت اهتمامًا واسع النطاق في هذه الصناعة ، كما أدى إلى ضغوط كبيرة على شركات مثل Meta. صرح مهندسو Meta علنًا بأن الفريق كان في حالة من الذعر وحاولوا تكرار تقنية Deepseek.
تسببت سلسلة النماذج التي أطلقتها مؤخراً في Deepseek في صدمة في دائرة الذكاء الاصطناعى العالمي. يحقق Deepseek-V3 أداءً عاليًا بتكلفة منخفضة ، ويمكن مقارنته بأعلى نموذج للمصدر في العديد من المراجعات ؛ إنه أيضًا المصدر المفتوح.
يكشف Deepseek أيضًا عن جميع تقنيات التدريب. يتم قياس R1 ضد نموذج O1 الخاص بـ Openai ، ويتم استخدام تقنية التعلم التعزيز على نطاق واسع في مرحلة ما بعد التدريب. قال Deepseek أن R1 مماثل لـ O1 في مهام مثل الرياضيات والرمز والتفكير في اللغة الطبيعية وسعر API أقل من 4 ٪ من O1.
Deepseek R1 قوي جدا! يقع مهندسو الفوقية في حالة من الذعر: تفكيك محاولات للنسخفي الآونة الأخيرة ، كان فريق TeamBlind ، وهو منشور مجهول من موظف ميتا في مجتمع مكان العمل المجهول في الخارج ، شائعًا بشكل خاص. إن إطلاق Deepseek V3 يضع Llama 4 في جميع أنحاء المعايير ، وفريق AI التوليدي التعويضي في حالة من الذعر. لدى "شركة صينية غير معروفة" ميزانية قدرها 5.5 مليون دولار لإكمال التدريب وصفع النموذج الكبير الحالي في الوجه.
يقوم مهندسو Meta بتفكيك Deepseek بشكل محموم ، في حين أن الإدارة قلقة بشأن كيفية شرح التكاليف العليا للإدارة العليا. إن ظهور Deepseek R1 يجعل الموقف أسوأ ، وعلى الرغم من أنه لا يمكن الكشف عن بعض المعلومات بعد ، إلا أنه سيتم الإعلان عنه قريبًا ، وقد يكون الوضع غير مواتٍ بحلول ذلك الوقت.
ترجمة المنشور المجهول لموظفي META هي كما يلي (ترجمتها Deepseek R1):
دائرة الذكاء الاصطناعى الولادة تدخل حالة الطوارئ
بدأ كل شيء مع Deepseek V3 - لقد جعلت الدرجة القياسية Llama 4 تبدو مؤرخة على الفور. الأمر الأكثر إحراجًا هو أن "شركة صينية غير معروفة حققت مثل هذا الاختراق بمبلغ 5 ملايين دولار فقط في ميزانية التدريب".
يقوم فريق المهندسين بتفكيك بنية Deepseek بشكل محموم ، ويحاول تكرار جميع تفاصيله الفنية. هذا ليس بأي حال من الأحوال مبالغة ، فإن قاعدة الكود لدينا تخضع لبحث على طراز السجاد.
تموت الإدارة حول عقلانية النفقات الضخمة للإدارة. عندما يتجاوز الراتب السنوي لكل "زعيم" في قسم الذكاء الاصطناعى التوليد تكلفة التدريب بأكملها لـ Deepseek V3 ، ولدينا العشرات من هؤلاء "القادة" ، كيف يجب أن يشرحوا للإدارة العليا؟
Deepseek R1 يجعل الموقف أكثر خطورة. على الرغم من أنه لا يمكن الكشف عن المعلومات السرية ، إلا أنه سيتم نشر البيانات ذات الصلة قريبًا.
يجب أن يكون فريقًا قادرًا على التكنولوجيا ، ولكن تم توسيع الهيكل التنظيمي عن عمد بسبب تدفق عدد كبير من الأشخاص للتأثير. نتيجة لعبة العروش هذه؟ في النهاية ، أصبح الجميع الخاسرين.
مقدمة لنماذج سلسلة DeepseekDeepseek-V3: هو نموذج لغة خبير مختلط (MOE) مع مبلغ معلمة 671B ، وكل رمز ينشط 37B. يتبنى اهتمامًا كامنًا متعدد الرأس (MLA) وبنية Deepseekmoe ، التي تم تدريبها مسبقًا على 14.8 تريليون رموز عالية الجودة. -4O و Claude 3.5 أعلى مصادر مغلقة مثل Sonnet لها أداء مماثل. تكلفة التدريب منخفضة ، فقط 2.788 مليون ساعة GPU ساعة ، حوالي 5.576 مليون دولار أمريكي ، وعملية التدريب مستقرة.
Deepseek-R1: يشمل Deepseek-R1-Zero و Deepseek-R1. من خلال التدريب على التعلم التعزيز على نطاق واسع ، يوضح Deepseek-R1-Zero التحقق من الذات والتفكير والقدرات الأخرى من خلال التدريب على التعلم التعزيز على نطاق واسع ، ولا يعتمد على التثبيت الخاضع للإشراف (SFT) ، ولكن هناك مشاكل مثل الفقراء قابلية القراءة والارتباك اللغوي. استنادًا إلى DeepSeek-R1 ، يقدم Deepseek-R1 التدريب متعدد المراحل وبيانات البدء البارد ، والذي يحل بعض المشكلات. في الوقت نفسه ، تم فتح نماذج متعددة ذات مقاييس معلمة مختلفة لتعزيز تطوير مجتمع المصدر المفتوح.
ما الذي يجعل Deepseek مميزًا جدًا؟أداء ممتاز: كان أداء Deepseek-V3 و Deepseek-R1 جيدًا في معايير متعددة. على سبيل المثال ، حقق Deepseek-V3 نتائج ممتازة في MMLU والإسقاط والتقييمات الأخرى ؛ .
ابتكار التدريب:
يعتمد Deepseek-V3 استراتيجيات موازنة التحميل دون خسائر مساعدة وأهداف تنبؤ متعددة (MTP) لتقليل تدهور الأداء وتحسين أداء النموذج ؛
يستخدم Deepseek-R1-Zero التدريب التعزيز الخالص والاعتماد فقط على إشارات المكافآت والعقاب البسيطة لتحسين النموذج ، مما يثبت أن التعلم التعزيز يمكن أن يحسن قدرة الاستدلال ؛ الاستقرار وقابلية القراءة.
مشاركة المصادر المفتوحة: تلتزم نماذج سلسلة Deepseek بمفهوم المصدر المفتوح وأوزان نموذج مفتوح المصدر ، مثل Deepseek-V3 و Deepseek-R1 ونماذجها المقطرة الصغيرة ، مما يسمح للمستخدمين بتدريب النماذج الأخرى من خلال تقنية التقطير لتعزيز التواصل والابتكار في تقنية الذكاء الاصطناعي.
مزايا متعددة المجالات: تُظهر Deepseek-R1 قدراتها القوية في مجالات متعددة. ومهام التوليد.
أداء عالية التكلفة: API Model Series Series Deepseek بأسعار معقولة. على سبيل المثال ، يكون سعر الإدخال والإخراج لـ Deepseek-V3 أقل بكثير من نماذج مماثلة ؛
سيناريوهات Deepseek-R1مهام معالجة اللغة الطبيعية: بما في ذلك توليد النص ، نظام الأسئلة والإجابة ، الترجمة الآلية ، ملخص النص ، إلخ. على سبيل المثال ، في نظام الأسئلة والأجوبة ، يمكن لـ Deepseek-R1 فهم المشكلة واستخدام قدرة التفكير على إعطاء إجابات دقيقة ؛
تطوير الكود: مساعدة مطوري كتابة الكود ، وبرامج التصحيح ، وفهم منطق الكود. على سبيل المثال ، عندما يواجه المطورون مشاكل في التعليمات البرمجية ، يمكن لـ Deepseek-R1 تحليل الكود وتوفير الحلول ؛
حل المشكلات الرياضية: حل المشكلات الرياضية المعقدة في التعليم الرياضي والبحث العلمي والسيناريوهات الأخرى. مثل Deepseek-R1 ، فإنه يؤدي بشكل جيد في أسئلة متعلقة بالمنافسة AIME ويمكن استخدامه لمساعدة الطلاب في تعلم الرياضيات والباحثين في التعامل مع مشاكل الرياضيات.
البحث والتطوير النموذجية: يوفر المرجع والأدوات للباحثين الذكاء الاصطناعي لدراسة التقطير النموذجية ، وتحسين هيكل النموذج وطرق التدريب. يمكن للباحثين إجراء تجارب بناءً على نموذج Deepseek Open Source لاستكشاف الاتجاهات التكنولوجية الجديدة.
اتخاذ القرارات الإضافية: معالجة البيانات والمعلومات وتقديم مشورة في صنع القرار في مجالات الأعمال ، والتمويل ، إلخ. على سبيل المثال ، تحليل بيانات السوق لتوفير مرجع للشركات لصياغة استراتيجيات التسويق ؛
برنامج تعليمي موجز لاستخدام لنماذج سلسلة Deepseekتفضل بزيارة النظام الأساسي: يمكن للمستخدمين تسجيل الدخول إلى موقع Deepseek الرسمي (https://www.deepeek.com/) لإدخال النظام الأساسي.
حدد نموذجًا: في الموقع الرسمي أو التطبيق ، يتم تحريك الحوار الافتراضي بواسطة DeepSeek-V3. إذا تم استدعاؤها من خلال API ، فقم بتعيين معلمات النموذج المقابلة في الكود وفقًا للمتطلبات ، مثل Setting Model = 'Deepseek-Researn "عند استخدام DeepSeek-R1.
مهام الإدخال: أدخل المهام الموضحة في اللغة الطبيعية في واجهة الحوار ، مثل "كتابة رواية حب" ، "شرح وظيفة هذا الرمز" ، "حل المعادلات الرياضية" ، إلخ. إلى مواصفات API وأضف المعلومات المتعلقة بالمهمة التي تم تمريرها كمعلمات إدخال.
احصل على النتائج: بعد أن قام النموذج بمعالجة المهمة ، وإرجاع النتائج ، وعرض النص الذي تم إنشاؤه ، والأسئلة التي تم الإجابة عليها ، وما إلى ذلك على الواجهة ؛
خاتمةحققت نماذج سلسلة Deepseek نتائج رائعة في مجال الذكاء الاصطناعى من خلال أدائها المتميز وطرق التدريب المبتكرة وروح مشاركة المصادر المفتوحة والمزايا الفعالة من حيث التكلفة.
إذا كنت مهتمًا بتكنولوجيا الذكاء الاصطناعي ، فقد تتعليق ومشاركة وجهات نظرك في سلسلة النماذج من Deepseek. في الوقت نفسه ، ما زلنا نولي اهتمامًا للتطوير اللاحق لـ Deepseek ، ونتطلع إلى تحقيق المزيد من المفاجآت والاختراق إلى حقل الذكاء الاصطناع الصناعات.
جلب ظهور Deepseek حيوية ومنافسة جديدة إلى مجال الذكاء الاصطناعي ، وروحه المصدر المفتوح أكثر جدارة بالثناء. في المستقبل ، ستظهر نماذج سلسلة Deepseek قدراتها القوية في المزيد من الحقول ، دعنا ننتظر ونرى!