لقد كان فهم الأعمال الداخلية لنماذج اللغات الكبيرة (LLMs) يمثل دائمًا تحديًا في مجال الذكاء الاصطناعي. توفر أحدث نتائج بحث Google DeepMind، Gemma Scope، طريقة جديدة لاستكشاف الآلية الداخلية لـ LLM. فهو يساعد الباحثين على فهم عملية اتخاذ القرار الخاصة بالنموذج بشكل أفضل من خلال تحليل متجهات تنشيط النموذج، وبالتالي تحسين إمكانية تفسير النموذج وموثوقيته. Gemma Scope ليست أداة تصور بسيطة، ولكنها نظام مدرب بعناية يمكنه إجراء تحليل متعمق للمكونات المختلفة للنموذج وقياس تأثيرها.
لقد تم تدريب Gemma Scope بعناية على تفعيل نموذج Gemma2. أثناء عملية التدريب، يتم تطبيع متجهات التنشيط للنموذج، ويتم تدريب SAEs في طبقات ومواقع مختلفة، بما في ذلك مخرجات رأس الانتباه، ومخرجات MLP، والتدفق المتبقي بعد MLP.
تم تقييم أداء جيما سكوب من وجهات نظر متعددة. تظهر النتائج التجريبية أن خسارة دلتا للتدفق المتبقي SAEs عادة ما تكون أعلى، في حين أن طول التسلسل له تأثير كبير على أداء SAE. بالإضافة إلى ذلك، يختلف أيضًا أداء مجموعات فرعية مختلفة من البيانات، ويقدم Gemma Scope أفضل أداء في رياضيات DeepMind.
يوفر إصدار Gemma Scope إمكانية حل سلسلة من المشكلات المفتوحة. لا يمكن أن يساعدنا ذلك على فهم SAEs بشكل أعمق فحسب، بل يمكنه أيضًا تحسين أداء المهام الحقيقية وحتى اختبار الفريق الأحمر SAEs لتحديد ما إذا كانوا قد وجدوا بالفعل المفاهيم "الحقيقية" في النموذج.
من خلال تطبيق Gemma Scope، من المتوقع أن نخطو خطوة كبيرة إلى الأمام في إمكانية شرح الذكاء الاصطناعي وأمانه. سيساعدنا ذلك على فهم الأعمال الداخلية لنماذج اللغة بشكل أفضل وتحسين شفافية وموثوقية النماذج.
عنوان الورقة: https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf
التجربة عبر الإنترنت: https://www.neuronpedia.org/gemma-scope#main
بشكل عام، يوفر Gemma Scope أداة قيمة لفهم نماذج اللغة الكبيرة، فهو لا يساعد الباحثين على استكشاف الآليات الداخلية للنموذج بعمق فحسب، بل يمهد الطريق أيضًا لتحسين إمكانية تفسير وأمان الذكاء الاصطناعي المستقبل. ونحن نتطلع إلى أن تلعب جيما سكوب دورًا أكبر في مجال الذكاء الاصطناعي.