Repositori ini mendokumentasikan evaluasi model bahasa besar sumber terbuka terbaru Google, Instruksi Tuned Gemma-2B IT. Kerangka pengujian mencakup spektrum pertanyaan yang luas di berbagai domain, yang bertujuan untuk mengukur kemampuan kinerja model dan kepatuhannya terhadap batasan etika.
Tujuan dari proyek ini adalah untuk menguji kinerja model pada berbagai pertanyaan dari berbagai domain, termasuk penalaran logis, matematika dan statistik, pengetahuan teknis, pemahaman bahasa alami, dan banyak lagi, untuk menilai kemampuan dan keterbatasannya. Selain itu, saya menghabiskan beberapa menit untuk mengumpulkan pertanyaan yang mengevaluasi kepatuhan model terhadap pedoman etika dan kemampuannya untuk menghindari pembuatan konten yang bias atau berbahaya. Selanjutnya akan dilakukan pengujian kemampuan RAG.
Evaluasi tersebut mencakup kategori berikut:
Kategori-kategori ini dipilih untuk memberikan gambaran komprehensif tentang pengetahuan dan kemampuan penalaran model, serta perlindungan etisnya.
Pengujian dilakukan menggunakan konfigurasi berikut untuk menghasilkan keluaran:
output = text_generation_pipeline (
prompt ,
max_new_tokens = 256 ,
add_special_tokens = True ,
do_sample = True ,
temperature = 1 ,
top_k = 50 ,
top_p = 0.95
)
Konfigurasi ini dipilih untuk menyeimbangkan antara menghasilkan tanggapan yang koheren dan relevan serta memungkinkan keluaran yang kreatif dan beragam. Ini mengontrol panjang respons, penyertaan token khusus, perilaku pengambilan sampel, dan keacakan keluaran.
Temuan mengungkapkan hasil yang beragam di berbagai kategori. Meskipun model ini berkinerja baik di area tertentu, model ini kesulitan mengerjakan tugas dasar di area lain, seperti operasi aritmatika sederhana. Hasil ini menyoroti area dimana model ini unggul dan memerlukan perbaikan.
Untuk mereplikasi pengujian ini, jangan lupa menyetel kunci API Hugging Face Anda sendiri di notebook Colab yang disediakan. Saya mendorong pengguna untuk menyesuaikan pengujian dengan domain spesifik yang mereka minati. Namun, penting untuk diingat bahwa hasil ini tidak boleh dilihat sebagai tolok ukur pasti untuk semua kasus penggunaan, terutama karena performa dapat bervariasi berdasarkan konfigurasi perangkat keras. Pengujian saya dilakukan pada GPU NVIDIA A100.
Selamat datang kontribusi dari komunitas. Baik itu memperluas rangkaian pengujian dengan pertanyaan yang lebih spesifik untuk domain, meningkatkan kerangka pengujian, atau membagikan hasil evaluasi Anda, masukan Anda dapat membantu meningkatkan pemahaman dan pemanfaatan model ini untuk seluruh komunitas.
Proyek ini bersifat open-source dan tersedia di bawah Lisensi MIT.