في السنوات الأخيرة ، مع التطور السريع لنماذج اللغة الكبيرة ، أثارت نماذج تعزيز الاستدلال أيضًا مناقشات مكثفة حول معدلات الهلوسة مع تحسين قدرات المعالجة للمهام المعقدة. أجرى فريق التعلم الآلي لـ Vectara مؤخرًا دراسة متعمقة لنماذج سلسلة Deepseek ، مما كشف عن اختلافات كبيرة في نموذج تعزيز الاستدلال من حيث معدلات الهلوسة.
في الآونة الأخيرة ، أظهر فريق التعلم الآلي فيكتارا اختبارات هلوسة متعمقة على نموذجين من سلسلة Deepseek. V3. يشير هذا إلى أن DeepSeek-R1 ينتج أكثر دقة أو غير متوافقة مع المعلومات الأصلية أثناء عملية زيادة التفكير. تؤدي هذه النتيجة إلى مناقشة واسعة حول معدل الهلوسة من نموذج اللغة الكبيرة المحسنة للاستدلال (LLM).
ملاحظات مصدر الصورة: يتم إنشاء الصورة بواسطة الذكاء الاصطناعي ، ومزود الخدمة المعتمد Midjourney
أشار فريق البحث إلى أن نماذج زيادة الاستدلال قد تكون أكثر عرضة للهلوسة من نماذج اللغة الكبيرة العادية. هذه الظاهرة واضحة بشكل خاص في مقارنة سلسلة Deepseek مع نماذج تحسين الاستدلال الأخرى. مع أخذ سلسلة GPT كمثال ، فإن الفرق في معدل الهلوسة بين GPT-O1 المعزز بالمنطق والنسخة العادية من GPT-4O يتحقق من هذه التكهنات.
لتقييم أداء هذين النموذجين ، استخدم الباحثون نموذج HHEM الخاص بـ Vectara وطريقة حقائق Google لإصدار الأحكام. كأداة متخصصة للكشف عن الهلوسة ، يُظهر HHEM حساسية أعلى عند التقاط الزيادة في معدل الهلوسة في Deepseek-R1 ، بينما يعمل نموذج الحقائق بشكل سيء نسبيًا في هذا الصدد. هذا يذكرنا بأن HHEM قد يكون أكثر فعالية من LLM كمعيار.
تجدر الإشارة إلى أن Deepseek-R1 ، على الرغم من أدائها الممتاز في التفكير ، يرافقه معدل الهلوسة أعلى. قد يكون هذا مرتبطًا بالمنطق المعقد المطلوب لمعالجة نماذج تحسين الاستدلال. مع زيادة تعقيد التفكير النموذجي ، قد تتأثر دقة المحتوى الذي تم إنشاؤه بدلاً من ذلك. أكد فريق البحث أيضًا أنه إذا تمكن Deepseek من التركيز أكثر على تقليل الهلوسة خلال مرحلة التدريب ، فقد يكون من الممكن تحقيق توازن جيد بين قدرة التفكير والدقة.
في حين أن النماذج المحسنة للاستدلال تظهر بشكل عام هلوسة أعلى ، فإن هذا لا يعني أنها لا تتمتع بميزة في نواح أخرى. بالنسبة لسلسلة Deepseek ، لا يزال من الضروري حل الهلوسة في البحث والتحسين اللاحقين لتحسين الأداء النموذجية.
المرجع: https://www.vectara.com/blog/deepseek-r1-hallucinates-more-than-deepseek-v3
مع التطور المستمر لنماذج اللغة الكبيرة ، فإن كيفية تقليل معدلات الهلوسة مع تحسين قدرات التفكير ستصبح اتجاهًا مهمًا للبحث في المستقبل. توفر لنا نتائج الاختبار لسلسلة Deepseek إشارة قيمة لتعزيز الصناعة لتحسين أداء النموذج.