tokviz /
├── assets/
│ ├── example-deberta-v3-small.png
│ └── example-gpt2.png
├── tokviz /
│ ├── __init__.py
│ └── visualization.py
├── README.md
├── LICENSE
├── setup.py
└── pyproject.toml
tokviz
est une bibliothèque Python permettant de visualiser des modèles de tokenisation sur différents modèles de langage. Cette bibliothèque offre une plate-forme complète aux chercheurs, aux scientifiques des données et aux passionnés de PNL pour mieux comprendre comment différents modèles de langage traitent et tokenisent le texte.
Comparaison de modèles : le visualiseur permet aux utilisateurs de comparer les modèles de tokenisation sur plusieurs modèles de langage, y compris des modèles populaires tels que GPT-2, DistilGPT-2 et DeBERTa-v3-small. En affichant côte à côte les jetons codés par couleur, les utilisateurs peuvent facilement identifier les différences et les similitudes dans le comportement de tokenisation.
Saisie flexible : les utilisateurs peuvent saisir le texte de leur choix, permettant une exploration dynamique des modèles de tokenisation à travers diverses entrées textuelles. Qu'il s'agisse d'analyser des phrases courtes, des paragraphes ou des documents entiers, le visualiseur s'adapte aux entrées de l'utilisateur pour une analyse complète.
Visualisation à code couleur : les jetons sont codés par couleur en fonction de leurs propriétés et de leur index, offrant une représentation visuellement intuitive des modèles de tokenisation. Cela permet aux utilisateurs d'identifier rapidement des jetons et des modèles individuels dans le texte, facilitant ainsi une analyse et une interprétation plus approfondies.
Vous pouvez installer tokviz via pip :
pip install tokviz
from tokviz import token_visualizer
# Define input text
text = "In this example, the get_color function would need to be adjusted based on the specific properties of your model's tokenizer.
You might want to inspect the special tokens, check if a token is part of a special group,
or use any other relevant information provided by the tokenizer.
Keep in mind that the color logic may vary depending on the model,
so you need to tailor it to your specific use case."
# Compare tokenization across different language models
token_visualizer ( text , models = [ 'microsoft/deberta-v3-small' , 'openai-community/gpt2' ])
Cela visualisera les modèles de tokenisation pour le texte saisi en utilisant les modèles de langage spécifiés. Vous pouvez transmettre une liste de noms ou d'identifiants de modèles au paramètre models. Par défaut, il compare la tokenisation au modèle GPT-2.
Cette bibliothèque est basée sur le notebook LLM Tokenizer Visualizer