該儲存庫包含論文《釣魚 Magikarp:自動偵測大型語言模型中訓練不足的令牌》的程式碼和擴充結果
這個儲存庫中最有趣的事情可能是 results/ 中找到的詳細報告和摘要表。對於每個模型,都有一個“完整”和“迷你”報告。 「迷你」版本始終可以在 github 上打開,但由於檔案大小限制,完整版本可能需要在本機下載和檢視。
在這些報告中:
▁
一個空格(但不是_
)¿entry?
表示未如預期編碼的詞彙entry
的標記。 poetry shell # make/activate your virtual environment
poetry install # only the first time or on updates
對於某些較新的型號,您可能需要使用pip install git+https://github.com/huggingface/transformers.git
安裝較新的 Transformers 版本
有關運行新模型的一些範例命令,請參閱run_verification.sh
。腳本本身主要是為了重現性的參考,不建議運行。
對於具有綁定嵌入的模型,或者為了更好的視覺化和結果,您需要在magikarp/unused_tokens.py
中對一些未使用的令牌 ID 進行硬編碼。
[0]
,或使用分詞器詞彙來選擇一些。magikarp/fishing.py
腳本並在它開始驗證時將其終止。results/verifications/yourmodel.jsonl
,它允許您查看詞彙表並更新適當的標記。generate_results.py
:產生繪圖和 Markdown 報告。這在驗證後會自動發生,但要重新生成,您可以python generate_results.py [your_model_id]
然後查看results
。 如果您想為其他模型貢獻結果,請包括:
UNUSED_TOKENS
條目pytest
)通過,該模型使用此陣列作為模型登錄。run_verification.sh
中的一行results
中所有未新增.gitignore
的文件如果您知道一個可能值得分析的模型,但沒有資源自己運行它,請隨時提出問題。請添加 Hugging Face id、一些關於標記化方面有趣的信息,並記住模型越大,被優先考慮的可能性就越小。