Dieses Repository enthält den Code und erweiterte Ergebnisse für den Artikel Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models
Das Interessanteste an diesem Repository sind wahrscheinlich die detaillierten Berichte und die Übersichtstabelle in results/. Für jedes Modell gibt es einen „vollständigen“ und einen „Mini“-Bericht. Die „Mini“-Version kann jederzeit auf Github geöffnet werden, die Vollversion muss jedoch aufgrund von Dateigrößenbeschränkungen möglicherweise heruntergeladen und lokal angezeigt werden.
In diesen Berichten:
▁
ein Leerzeichen (aber nicht _
)¿entry?
stellt Token mit einem entry
dar, der nicht wie erwartet codiert wurde. poetry shell # make/activate your virtual environment
poetry install # only the first time or on updates
Bei einigen neueren Modellen müssen Sie möglicherweise eine neuere Transformers-Version mit pip install git+https://github.com/huggingface/transformers.git
installieren
Unter run_verification.sh
finden Sie einige Beispielbefehle zum Ausführen neuer Modelle. Das Skript selbst dient hauptsächlich als Referenz für die Reproduzierbarkeit und es wird nicht empfohlen, es auszuführen.
Für Modelle mit gebundenen Einbettungen oder für schönere Visualisierungen und Ergebnisse müssen Sie einige nicht verwendete Token-IDs in magikarp/unused_tokens.py
fest codieren.
[0]
, oder verwenden Sie das Tokenizer-Vokabular, um einige auszuwählen.magikarp/fishing.py
aus und beenden Sie es, wenn es mit der Überprüfung beginnt.results/verifications/yourmodel.jsonl
, mit dem Sie sich das Vokabular ansehen und geeignete Token aktualisieren können.generate_results.py
: Erstellt Diagramme und Markdown-Berichte. Dies geschieht automatisch nach der Überprüfung, aber zum erneuten Generieren können Sie python generate_results.py [your_model_id]
und dann in results
nachsehen. Wenn Sie Ergebnisse für weitere Modelle beisteuern möchten, geben Sie bitte Folgendes an:
UNUSED_TOKENS
Eintragpytest
) für das neue Modell erfolgreich sind, das dieses Array als Modellregistrierung verwendet.run_verification.sh
results
, die nicht .gitignore
sind Wenn Sie ein Modell kennen, dessen Analyse interessant sein könnte, Sie aber nicht über die Ressourcen verfügen, es selbst auszuführen, können Sie gerne ein Problem eröffnen. Bitte fügen Sie die Hugging Face-ID und einige Informationen darüber hinzu, wie interessant es im Hinblick auf die Tokenisierung ist, und bedenken Sie, dass die Wahrscheinlichkeit, dass das Modell priorisiert wird, umso geringer ist, je größer es ist.