هذا المستودع مخصص لتوفير دليل شامل لاختبار نماذج اللغات الكبيرة (LLMs) مثل سلسلة GPT الخاصة بـ OpenAI. ويغطي مجموعة من منهجيات الاختبار المصممة للتأكد من أن LLMs موثوقة وآمنة وغير متحيزة وفعالة عبر التطبيقات المختلفة. يعد كل نوع من الاختبارات أمرًا بالغ الأهمية لتطوير LLMs التي تعمل بشكل فعال وأخلاقي في سيناريوهات العالم الحقيقي.
يتضمن هذا الدليل فئات الاختبار التالية، كل منها موجودة في الدليل الخاص بها:
اختبار الخصومة : تقنيات تحدي النموذج بمدخلات صعبة أو مضللة لضمان المتانة.
الاختبار السلوكي : يضمن أن النموذج يتصرف كما هو متوقع عبر مجموعة من السيناريوهات.
اختبار الامتثال : التحقق من الالتزام بالمعايير القانونية والأخلاقية.
اختبار الصحة الواقعية : التحقق من دقة المعلومات المقدمة من النموذج.
اختبار العدالة والتحيز : يقوم بتقييم المخرجات للتأكد من خلوها من التحيزات الديموغرافية.
اختبار التكامل : يقيم مدى تكامل LLM مع أنظمة البرامج الأخرى.
اختبار قابلية التفسير والتفسير : يختبر قدرة النموذج على شرح قراراته.
اختبار الأداء : يقيس كفاءة النموذج وقابليته للتوسع تحت أحمال مختلفة.
اختبار الانحدار : يضمن أن التحديثات الجديدة لا تعطل الوظائف الحالية.
اختبار السلامة والأمن : يضمن أن النموذج لا يقترح أو يمكّن السلوكيات الضارة.
يحتوي كل دليل على ملف README.md
مفصل يشرح طرق الاختبار المحددة المستخدمة، بالإضافة إلى examples.md
التي تقدم أمثلة عملية وسيناريوهات لإجراء الاختبارات.
لاستخدام هذا الدليل:
انتقل إلى أي دليل فئة اختبار يتوافق مع احتياجات الاختبار الخاصة بك.
اقرأ README.md
للحصول على نظرة عامة وشرح تفصيلي لتركيز الاختبار في هذه الفئة.
استكشف examples.md
للتعرف على سيناريوهات اختبار محددة، والنتائج المتوقعة، وإرشادات حول تنفيذ الاختبارات.