Repositori ini berisi kode dan hasil tambahan untuk makalah Fishing for Magikarp: Secara Otomatis Mendeteksi Token yang Kurang Terlatih dalam Model Bahasa Besar
Hal yang paling menarik dalam repositori ini mungkin adalah laporan rinci dan tabel ringkasan yang terdapat di results/. Untuk setiap model, terdapat laporan 'lengkap' dan 'mini'. Versi 'mini' selalu dapat dibuka di github, tetapi versi lengkap mungkin memerlukan pengunduhan dan penayangan secara lokal karena keterbatasan ukuran file.
Dalam laporan ini:
▁
spasi (tetapi bukan _
)¿entry?
mewakili token dengan entry
kosakata yang tidak dikodekan seperti yang diharapkan. poetry shell # make/activate your virtual environment
poetry install # only the first time or on updates
Untuk beberapa model yang lebih baru, Anda mungkin perlu menginstal versi transformator yang lebih baru menggunakan pip install git+https://github.com/huggingface/transformers.git
Lihat run_verification.sh
untuk beberapa contoh perintah untuk menjalankan model baru. Skrip itu sendiri terutama merupakan referensi untuk reproduktifitas dan tidak disarankan untuk dijalankan.
Untuk model dengan penyematan terikat, atau untuk visualisasi dan hasil yang lebih bagus, Anda perlu melakukan hard-code pada beberapa id token yang tidak digunakan di magikarp/unused_tokens.py
.
[0]
, atau gunakan kosakata tokenizer untuk memilih beberapa.magikarp/fishing.py
dan matikan skrip tersebut saat mulai memverifikasi.results/verifications/yourmodel.jsonl
yang memungkinkan Anda melihat kosakata dan memperbarui token yang sesuai.generate_results.py
: Menghasilkan plot dan laporan penurunan harga. Ini terjadi secara otomatis setelah verifikasi, tetapi untuk membuat ulang Anda dapat python generate_results.py [your_model_id]
dan kemudian melihat results
. Jika Anda ingin menyumbangkan hasil untuk model tambahan, harap sertakan:
UNUSED_TOKENS
pytest
) lolos untuk model baru, yang menggunakan array ini sebagai registri model.run_verification.sh
results
yang bukan .gitignore
'd Jika Anda mengetahui model yang mungkin menarik untuk dianalisis, namun tidak memiliki sumber daya untuk menjalankannya sendiri, jangan ragu untuk membuka terbitan. Silakan tambahkan id Wajah Pelukan, beberapa informasi tentang betapa menariknya dalam hal tokenisasi, dan perlu diingat bahwa semakin besar modelnya, semakin kecil kemungkinannya untuk diprioritaskan.