Этот репозиторий содержит код и расширенные результаты статьи «Ловля Магикарпа: автоматическое обнаружение недостаточно обученных токенов в больших языковых моделях».
Самое интересное в этом репозитории — это, пожалуй, подробные отчеты и сводная таблица, которые можно найти в файле results/. По каждой модели есть «полный» и «мини» отчет. «Мини-версию» всегда можно открыть на GitHub, но полную версию может потребоваться загрузка и просмотр локально из-за ограничений размера файла.
В этих отчетах:
▁
пробел (но не _
)¿entry?
представляет токены со словарной entry
, которая не была закодирована должным образом. poetry shell # make/activate your virtual environment
poetry install # only the first time or on updates
Для некоторых более новых моделей вам может потребоваться установить более новую версию трансформаторов с помощью pip install git+https://github.com/huggingface/transformers.git
См run_verification.sh
для некоторых примеров команд для запуска новых моделей. Сам сценарий в основном является справочным для воспроизводимости, и его не рекомендуется запускать.
Для моделей со связанными внедрениями или для более приятных визуализаций и результатов вам потребуется жестко запрограммировать некоторые неиспользуемые идентификаторы токенов в magikarp/unused_tokens.py
.
[0]
, или воспользуйтесь словарем токенизатора, чтобы выбрать что-нибудь.magikarp/fishing.py
и завершите его, когда он начнет проверку.results/verifications/yourmodel.jsonl
, который позволяет вам просматривать словарь и обновлять подходящие токены.generate_results.py
: генерирует графики и отчеты об уценке. Это происходит автоматически после проверки, но для повторной генерации вы можете python generate_results.py [your_model_id]
, а затем просмотреть results
. Если вы хотите предоставить результаты для дополнительных моделей, укажите:
UNUSED_TOKENS
pytest
) проходят для новой модели, которая использует этот массив в качестве реестра модели.run_verification.sh
results
, которые не являются .gitignore
Если вам известна модель, которую может быть интересно проанализировать, но у вас нет ресурсов для ее самостоятельного запуска, смело открывайте проблему. Пожалуйста, добавьте идентификатор Hugging Face, некоторую информацию о том, насколько он интересен с точки зрения токенизации, и имейте в виду, что чем больше модель, тем меньше вероятность того, что она будет иметь приоритет.