このリポジトリには、論文「Fishing for Magikarp:Automatically Detecting Under-trained Tokens in Large Language Models」のコードと拡張結果が含まれています
このリポジトリで最も興味深いのは、results/ にある詳細なレポートと概要テーブルでしょう。各モデルには、「フル」レポートと「ミニ」レポートがあります。 「ミニ」バージョンはいつでも github で開くことができますが、完全バージョンはファイル サイズの制限により、ローカルにダウンロードして表示する必要がある場合があります。
これらのレポートでは次のようになります。
▁
( _
ではありません)¿entry?
は、予想どおりにエンコードされなかった語彙entry
を含むトークンを表します。 poetry shell # make/activate your virtual environment
poetry install # only the first time or on updates
一部の新しいモデルでは、 pip install git+https://github.com/huggingface/transformers.git
を使用して新しいバージョンのトランスフォーマーをインストールする必要がある場合があります。
新しいモデルを実行するためのいくつかのコマンド例については、 run_verification.sh
参照してください。スクリプト自体は主に再現性のためのリファレンスであり、実行することはお勧めしません。
結合された埋め込みを含むモデルの場合、またはより優れた視覚化と結果を得るには、いくつかの未使用のトークン ID をmagikarp/unused_tokens.py
にハードコーディングする必要があります。
[0]
などの推測を取るか、トークナイザーのボキャブラリーを使用していくつかを選択します。magikarp/fishing.py
スクリプトを実行し、検証が開始されたら強制終了します。results/verifications/yourmodel.jsonl
が作成され、語彙を確認して適切なトークンを更新できるようになりました。generate_results.py
: プロットとマークダウン レポートを生成します。これは検証後に自動的に行われますが、再生成するには、 python generate_results.py [your_model_id]
、 results
を確認します。 追加のモデルの結果に貢献したい場合は、以下を含めてください。
UNUSED_TOKENS
エントリpytest
経由) が合格することを確認します。run_verification.sh
内の行.gitignore
されていないresults
内のすべてのファイル分析するには興味深いかもしれないモデルを知っていても、それを自分で実行するためのリソースがない場合は、遠慮なく問題を開いてください。 Hugging Face ID、トークン化の観点からそれがどのように興味深いかについての情報を追加してください。また、モデルが大きくなるほど、優先される可能性が低くなることに留意してください。