Repositori ini didedikasikan untuk menyediakan panduan komprehensif untuk menguji Model Bahasa Besar (LLM) seperti seri GPT OpenAI. Ini mencakup serangkaian metodologi pengujian yang dirancang untuk memastikan bahwa LLM dapat diandalkan, aman, tidak memihak, dan efisien di berbagai aplikasi. Setiap jenis pengujian sangat penting untuk mengembangkan LLM yang berfungsi secara efektif dan etis dalam skenario dunia nyata.
Panduan ini mencakup kategori pengujian berikut, yang masing-masing terdapat dalam direktorinya masing-masing:
Pengujian Adversarial : Teknik untuk menantang model dengan masukan yang rumit atau menyesatkan untuk memastikan ketahanannya.
Pengujian Perilaku : Memastikan model berperilaku seperti yang diharapkan di berbagai skenario.
Pengujian Kepatuhan : Memeriksa kepatuhan terhadap standar hukum dan etika.
Pengujian Kebenaran Faktual : Memverifikasi keakuratan informasi yang diberikan oleh model.
Pengujian Kewajaran dan Bias : Menilai keluaran untuk memastikan keluaran bebas dari bias demografis.
Pengujian Integrasi : Mengevaluasi seberapa baik LLM terintegrasi dengan sistem perangkat lunak lain.
Pengujian Interpretabilitas dan Penjelasan : Menguji kemampuan model untuk menjelaskan keputusannya.
Pengujian Kinerja : Mengukur efisiensi dan skalabilitas model di bawah berbagai beban.
Pengujian Regresi : Memastikan pembaruan baru tidak mengganggu fungsi yang ada.
Pengujian Keselamatan dan Keamanan : Memastikan model tidak menyarankan atau mengaktifkan perilaku berbahaya.
Setiap direktori berisi README.md
terperinci yang menjelaskan metode pengujian spesifik yang digunakan, bersama dengan examples.md
yang memberikan contoh dan skenario praktis untuk melakukan pengujian.
Untuk menggunakan panduan ini:
Navigasikan ke direktori kategori pengujian mana pun yang sesuai dengan kebutuhan pengujian Anda.
Baca README.md
untuk gambaran umum dan penjelasan rinci tentang fokus pengujian dalam kategori tersebut.
Jelajahi examples.md
untuk skenario pengujian spesifik, hasil yang diharapkan, dan panduan dalam menerapkan pengujian.