该存储库包含论文《钓鱼 Magikarp:自动检测大型语言模型中训练不足的令牌》的代码和扩展结果
这个存储库中最有趣的事情可能是 results/ 中找到的详细报告和摘要表。对于每个模型,都有一个“完整”和“迷你”报告。 “迷你”版本始终可以在 github 上打开,但由于文件大小限制,完整版本可能需要在本地下载和查看。
在这些报告中:
▁
一个空格(但不是_
)¿entry?
表示带有未按预期编码的词汇entry
的标记。 poetry shell # make/activate your virtual environment
poetry install # only the first time or on updates
对于某些较新的型号,您可能需要使用pip install git+https://github.com/huggingface/transformers.git
安装较新的 Transformers 版本
有关运行新模型的一些示例命令,请参阅run_verification.sh
。脚本本身主要是为了重现性的参考,不建议运行。
对于具有绑定嵌入的模型,或者为了更好的可视化和结果,您需要在magikarp/unused_tokens.py
中对一些未使用的令牌 ID 进行硬编码。
[0]
,或使用分词器词汇来选择一些。magikarp/fishing.py
脚本并在它开始验证时将其终止。results/verifications/yourmodel.jsonl
,它允许您查看词汇表并更新合适的标记。generate_results.py
:生成绘图和 Markdown 报告。这在验证后会自动发生,但要重新生成,您可以python generate_results.py [your_model_id]
然后查看results
。 如果您想为其他模型贡献结果,请包括:
UNUSED_TOKENS
条目pytest
)通过,该模型使用此数组作为模型注册表。run_verification.sh
中的一行results
中所有未添加.gitignore
的文件如果您知道一个可能值得分析的模型,但没有资源自己运行它,请随时提出问题。请添加 Hugging Face id、一些关于标记化方面有趣的信息,并记住模型越大,被优先考虑的可能性就越小。