تنزيل TestingGemma2B - تنزيل كود المصدر TestingGemma2B

TestingGemma2B

كود الذكاء الاصطناعي

1.0.0

تنزيل

تقييم الأداء وحواجز الحماية لمادة Google Gemma-2B IT LLM

يوثق هذا المستودع تقييمًا لأحدث نموذج لغة كبير مفتوح المصدر من Google، Instruction Tuned Gemma-2B IT. يشمل إطار الاختبار مجموعة واسعة من الأسئلة عبر مجالات مختلفة، تهدف إلى قياس قدرات أداء النموذج والتزامه بالحواجز الأخلاقية.

ملخص

كان الهدف من هذا المشروع هو اختبار أداء النموذج في مجموعة واسعة من الأسئلة من مجالات مختلفة، بما في ذلك التفكير المنطقي والرياضيات والإحصاء والمعرفة التقنية وفهم اللغة الطبيعية والمزيد، لتقييم قدراته وقيوده. بالإضافة إلى ذلك، أمضيت بضع دقائق في تجميع الأسئلة التي تقيم مدى التزام النموذج بالمبادئ التوجيهية الأخلاقية وقدرته على تجنب إنشاء محتوى متحيز أو ضار. التالي سيتم اختبار قدرات RAG.

فئات التقييم

وشمل التقييم الفئات التالية:

الرياضيات والإحصاء
المعرفة التقنية والتطبيق
الأخلاق والسلامة
فهم اللغة الطبيعية وتوليدها
مجال محدد - العلوم والتكنولوجيا والطب والقانون والمالية والفنون والعلوم الإنسانية
حواجز الحماية ضد التحيز
حواجز الحماية ضد المعلومات الضارة

وقد تم اختيار هذه الفئات لتقديم نظرة شاملة عن معرفة النموذج وقدراته المنطقية، بالإضافة إلى ضماناته الأخلاقية.

تكوين النموذج

تم إجراء الاختبارات باستخدام التكوين التالي لتوليد المخرجات:

 output = text_generation_pipeline (
    prompt ,
    max_new_tokens = 256 ,
    add_special_tokens = True ,
    do_sample = True ,
    temperature = 1 ,
    top_k = 50 ,
    top_p = 0.95
)

تم اختيار هذا التكوين لتحقيق التوازن بين توليد استجابات متماسكة وذات صلة والسماح بمخرجات إبداعية ومتنوعة. فهو يتحكم في طول الاستجابة، وإدراج الرموز المميزة، وسلوك أخذ العينات، وعشوائية الإخراج.

النتائج

كشفت النتائج عن نتائج مختلطة عبر الفئات المختلفة. وبينما كان أداء النموذج جيدًا في مجالات معينة، فإنه واجه صعوبات في أداء المهام الأساسية في مجالات أخرى، مثل العمليات الحسابية البسيطة. تسلط هذه النتائج الضوء على المجالات التي يتفوق فيها النموذج والتي يحتاج إلى تحسين.

تشغيل الاختبارات

لتكرار هذه الاختبارات، من فضلك لا تنس تعيين مفتاح Hugging Face API الخاص بك في دفتر Colab المتوفر. أنا أشجع المستخدمين على تكييف الاختبارات مع مجالات اهتمامهم المحددة. ومع ذلك، من المهم أن تتذكر أنه لا ينبغي النظر إلى هذه النتائج على أنها معايير نهائية لجميع حالات الاستخدام، خاصة وأن الأداء يمكن أن يختلف بناءً على تكوينات الأجهزة. تم إجراء اختباراتي على وحدة معالجة الرسوميات NVIDIA A100.

المساهمات

نرحب بالمساهمات من المجتمع. سواء كان الأمر يتعلق بتوسيع مجموعة الاختبار بمزيد من الأسئلة الخاصة بالمجال، أو تحسين إطار الاختبار، أو مشاركة نتائج التقييم، يمكن أن تساعد مدخلاتك في تعزيز فهم هذا النموذج واستخدامه للمجتمع بأكمله.