magikarp Télécharger - magikarp Source code télécharger

magikarp

Autre code source

Télécharger

Code pour l'article "Pêche au Magikarp"

Ce référentiel contient le code et les résultats étendus de l'article Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models.

Explorer les résultats

La chose la plus intéressante dans ce référentiel est probablement les rapports détaillés et le tableau récapitulatif trouvés dans results/. Pour chaque modèle, il existe un rapport « complet » et un « mini ». La version « mini » peut toujours être ouverte sur github, mais la version complète peut nécessiter un téléchargement et une visualisation locale en raison des limitations de taille de fichier.

Dans ces rapports :

▁ un espace (mais pas _ )
¿entry? représente des jetons avec une entry de vocabulaire qui n'a pas été codée comme prévu.

Fonctionne sur d'autres modèles

Installation

Il s'agit d'un projet de poésie standard.

poetry shell   # make/activate your virtual environment
poetry install # only the first time or on updates

Pour certains modèles plus récents, vous devrez peut-être installer une version plus récente des transformateurs en utilisant pip install git+https://github.com/huggingface/transformers.git

En cours d'exécution

Voir run_verification.sh pour quelques exemples de commandes permettant d'exécuter de nouveaux modèles. Le script lui-même est principalement une référence en matière de reproductibilité et son exécution n'est pas recommandée.

Pour les modèles avec des intégrations liées, ou pour des visualisations et des résultats plus agréables, vous devrez coder en dur certains identifiants de jetons inutilisés dans magikarp/unused_tokens.py .

Si un modèle associé existe déjà, la copie des identifiants de jeton fonctionnera probablement très bien.
Pour les intégrations non liées, vous pouvez généralement simplement laisser la vérification se terminer et mettre à jour les jetons inutilisés après avoir obtenu les résultats.
Pour le cas rare de nouvelles familles de modèles avec des plongements liés :
- Devinez, comme [0] , ou utilisez le vocabulaire du tokenizer pour en choisir.
- Exécutez le script magikarp/fishing.py et tuez-le lorsqu'il commence la vérification.
- Vous avez maintenant results/verifications/yourmodel.jsonl qui vous permet de consulter le vocabulaire et de mettre à jour les jetons appropriés.
- Mettez à jour vos jetons inutilisés et effectuez la vérification.

Générer des résultats

generate_results.py : génère des tracés et des rapports de démarque. Cela se produit automatiquement après vérification, mais pour régénérer, vous pouvez python generate_results.py [your_model_id] puis consulter results .

Contribuer

Si vous souhaitez contribuer aux résultats de modèles supplémentaires, veuillez inclure :

L'entrée UNUSED_TOKENS
- assurez-vous que les tests de tokenisation (via pytest ) réussissent pour le nouveau modèle, qui utilise ce tableau comme registre de modèles.
Une ligne dans run_verification.sh
Tous les fichiers dans results qui ne sont pas .gitignore

Demandes de modèles

Si vous connaissez un modèle qui peut être intéressant à analyser, mais que vous n'avez pas les ressources nécessaires pour l'exécuter vous-même, n'hésitez pas à ouvrir un ticket. Veuillez ajouter l'identifiant Hugging Face, quelques informations sur son intérêt en termes de tokenisation, et gardez à l'esprit que plus le modèle est grand, moins il est susceptible d'être priorisé.

Développer

Informations supplémentaires

Version
Type Autre code source
Date de mise à jour 2024-11-23
taille 50MB
Provenant de Github

Applications connexes

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
wp functions

Autres catégories

1.0.0
termwind

Autres catégories

v2.3.0

Actualités connexes Tout