تم التشكيك في ما يسمى بأقوى نموذج Reflection 70B، ويواجه مؤسسه اتهامات "بالاحتيال"

الكاتب：Eve Cole وقت التحديث：2024-12-30 08:00:02

في الآونة الأخيرة، اجتذب نموذج الذكاء الاصطناعي مفتوح المصدر Reflection70B اهتمامًا واسع النطاق في الصناعة بسبب الجدل الدائر حول أدائه. تم إصدار النموذج بواسطة HyperWrite، التي ادعت في الأصل أنه أقوى نموذج مفتوح المصدر في العالم وجذب الكثير من الاهتمام بسبب أدائه الممتاز في اختبارات الطرف الثالث. ومع ذلك، شككت بعض المؤسسات المستقلة والمستخدمين لاحقًا في أدائها، واختلفت نتائج الاختبار بشكل كبير عن ادعاءات HyperWrite الأولية.

نموذج الذكاء الاصطناعي مفتوح المصدر Reflection70B، الذي ظهر لأول مرة، كان موضع تساؤل على نطاق واسع مؤخرًا من قبل الصناعة.

هذا النموذج الذي أصدرته شركة HyperWrite الناشئة في نيويورك، والذي يدعي أنه متغير Llama3.1 من Meta، قد جذب الانتباه نظرًا لأدائه الممتاز في اختبارات الطرف الثالث. ومع ذلك، مع إصدار بعض نتائج الاختبار، بدأت سمعة Reflection70B تتعرض للتحدي.

كان سبب الأمر هو أن مات شومر، المؤسس المشارك والرئيس التنفيذي لشركة HyperWrite، أعلن عن Reflection70B على وسائل التواصل الاجتماعي X في 6 سبتمبر، ووصفه بثقة بأنه "أقوى نموذج مفتوح المصدر في العالم".

تحدث شومر أيضًا عن تقنية "الضبط العاكس" للنموذج، زاعمًا أن هذه الطريقة تسمح للنموذج بمراجعة نفسه قبل إنشاء المحتوى، وبالتالي تحسين الدقة.

ومع ذلك، في اليوم التالي لإعلان HyperWrite، قامت مجموعة Artificial Analysis، وهي مجموعة متخصصة في "التحليل المستقل لنماذج الذكاء الاصطناعي ومقدمي خدمات الاستضافة"، بنشر تحليلها الخاص على X، مع الإشارة إلى أنهم قاموا بتقييم درجة MMLU (فهم لغة المهام المتعددة الضخمة) الخاصة بـ Reflection Llama3.170B. هو نفس Llama370B، ولكنه أقل بكثير من Llama3.170B الخاص بـ Meta، وهو اختلاف كبير عن النتائج التي نشرتها HyperWrite/Shumer في الأصل.

ذكر شومر لاحقًا أن هناك مشكلة في أوزان Reflection70B (أو إعدادات النموذج مفتوح المصدر) أثناء التحميل إلى Hugging Face (مستودع وشركة استضافة أكواد الذكاء الاصطناعي التابعة لجهة خارجية)، مما قد يؤدي إلى أداء أسوأ من "واجهة برمجة التطبيقات الداخلية" الخاصة بـ HyperWrite " إصدار. .

قالت شركة Artificial Analysis في بيان لاحق إنها تمكنت من الوصول إلى واجهة برمجة التطبيقات الخاصة وشهدت أداءً رائعًا، ولكن ليس إلى المستوى المذكور في الأصل. نظرًا لأن هذا الاختبار تم إجراؤه على واجهة برمجة تطبيقات خاصة، لم يتمكنوا من التحقق بشكل مستقل مما كانوا يختبرونه.

أثارت المجموعة قضيتين رئيسيتين تشككان جديًا في ادعاءات الأداء الأصلية لـ HyperWrite وShumer:

لماذا الإصدار الذي تم إصداره ليس هو الإصدار الذي تم اختباره عبر واجهة برمجة تطبيقات Reflection الخاصة.
لماذا لم يتم إصدار أوزان النموذج للإصدار الذي اختبروه بعد.

وفي الوقت نفسه، شكك المستخدمون في العديد من مجتمعات التعلم الآلي والذكاء الاصطناعي على Reddit أيضًا في أداء وأصول Reflection70B المزعومة. أشار البعض إلى أن Reflection70B يبدو أنه نسخة مختلفة من Llama3 بدلاً من Llama-3.1 ، بناءً على مقارنة نموذج نشرها طرف ثالث على Github، مما يلقي مزيدًا من الشك على ادعاءات Shumer وHyperWrite الأصلية.

أدى ذلك إلى قيام مستخدم X واحد على الأقل، وهو Shin Megami Boson، بالنشر في الثامن من سبتمبر بالتوقيت الشرقي

في الساعة 8:07 مساءً بتوقيت شرق الولايات المتحدة، اتهم شومر علنًا شومر بارتكاب "سلوك احتيالي" في مجتمع أبحاث الذكاء الاصطناعي وأصدر قائمة طويلة من لقطات الشاشة والأدلة الأخرى.

وزعم آخرون أن النموذج هو في الواقع "غلاف" أو تطبيق مبني على أعلى منافس خاص/مغلق المصدر Anthropic's Claude3.

ومع ذلك، فقد دافع مستخدمو X الآخرون عن Shumer وReflection70B، حيث نشر البعض أيضًا أداءً رائعًا في نهاية النموذج.

حاليًا، ينتظر مجتمع أبحاث الذكاء الاصطناعي رد شومر على اتهامات الاحتيال هذه وأوزان النماذج المحدثة على Hugging Face.

بعد إصدار نموذج Reflection70B، تم التشكيك في الأداء، مع فشل نتائج الاختبار في تكرار المطالبات الأولية.

⚙️ أوضح مؤسس HyperWrite أن مشاكل تحميل النموذج تسببت في تراجع الأداء ودعا إلى الاهتمام بالإصدار المحدث.

وقد نوقش هذا النموذج بشدة على وسائل التواصل الاجتماعي، حيث اختلطت الاتهامات والدفاعات.

في الوقت الحاضر، لا تزال حادثة Reflection70B مستمرة في التفاقم، ولا تزال النتيجة النهائية بحاجة إلى انتظار مزيد من التحقيق والاستجابة. تذكرنا هذه الحادثة أيضًا بأنه يجب علينا توخي الحذر بشأن تعزيز أداء أي نموذج للذكاء الاصطناعي والاعتماد على نتائج التحقق المستقلة لإصدار الأحكام.