يوثق هذا المستودع تقييمًا لأحدث نموذج لغة كبير مفتوح المصدر من Google، Instruction Tuned Gemma-2B IT. يشمل إطار الاختبار مجموعة واسعة من الأسئلة عبر مجالات مختلفة، تهدف إلى قياس قدرات أداء النموذج والتزامه بالحواجز الأخلاقية.
كان الهدف من هذا المشروع هو اختبار أداء النموذج في مجموعة واسعة من الأسئلة من مجالات مختلفة، بما في ذلك التفكير المنطقي والرياضيات والإحصاء والمعرفة التقنية وفهم اللغة الطبيعية والمزيد، لتقييم قدراته وقيوده. بالإضافة إلى ذلك، أمضيت بضع دقائق في تجميع الأسئلة التي تقيم مدى التزام النموذج بالمبادئ التوجيهية الأخلاقية وقدرته على تجنب إنشاء محتوى متحيز أو ضار. التالي سيتم اختبار قدرات RAG.
وشمل التقييم الفئات التالية:
وقد تم اختيار هذه الفئات لتقديم نظرة شاملة عن معرفة النموذج وقدراته المنطقية، بالإضافة إلى ضماناته الأخلاقية.
تم إجراء الاختبارات باستخدام التكوين التالي لتوليد المخرجات:
output = text_generation_pipeline (
prompt ,
max_new_tokens = 256 ,
add_special_tokens = True ,
do_sample = True ,
temperature = 1 ,
top_k = 50 ,
top_p = 0.95
)
تم اختيار هذا التكوين لتحقيق التوازن بين توليد استجابات متماسكة وذات صلة والسماح بمخرجات إبداعية ومتنوعة. فهو يتحكم في طول الاستجابة، وإدراج الرموز المميزة، وسلوك أخذ العينات، وعشوائية الإخراج.
كشفت النتائج عن نتائج مختلطة عبر الفئات المختلفة. وبينما كان أداء النموذج جيدًا في مجالات معينة، فإنه واجه صعوبات في أداء المهام الأساسية في مجالات أخرى، مثل العمليات الحسابية البسيطة. تسلط هذه النتائج الضوء على المجالات التي يتفوق فيها النموذج والتي يحتاج إلى تحسين.
لتكرار هذه الاختبارات، من فضلك لا تنس تعيين مفتاح Hugging Face API الخاص بك في دفتر Colab المتوفر. أنا أشجع المستخدمين على تكييف الاختبارات مع مجالات اهتمامهم المحددة. ومع ذلك، من المهم أن تتذكر أنه لا ينبغي النظر إلى هذه النتائج على أنها معايير نهائية لجميع حالات الاستخدام، خاصة وأن الأداء يمكن أن يختلف بناءً على تكوينات الأجهزة. تم إجراء اختباراتي على وحدة معالجة الرسوميات NVIDIA A100.
نرحب بالمساهمات من المجتمع. سواء كان الأمر يتعلق بتوسيع مجموعة الاختبار بمزيد من الأسئلة الخاصة بالمجال، أو تحسين إطار الاختبار، أو مشاركة نتائج التقييم، يمكن أن تساعد مدخلاتك في تعزيز فهم هذا النموذج واستخدامه للمجتمع بأكمله.
هذا المشروع مفتوح المصدر ومتاح بموجب ترخيص MIT.