tokviz /
├── assets/
│ ├── example-deberta-v3-small.png
│ └── example-gpt2.png
├── tokviz /
│ ├── __init__.py
│ └── visualization.py
├── README.md
├── LICENSE
├── setup.py
└── pyproject.toml
tokviz
— это библиотека Python для визуализации шаблонов токенизации в различных языковых моделях. Эта библиотека предлагает комплексную платформу для исследователей, специалистов по данным и энтузиастов НЛП, позволяющую получить представление о том, как различные языковые модели обрабатывают и токенизируют текст.
Сравнение моделей. Визуализатор позволяет пользователям сравнивать шаблоны токенизации для нескольких языковых моделей, включая популярные модели, такие как GPT-2, DistilGPT-2 и DeBERTa-v3-small. Отображая токены с цветовой кодировкой рядом, пользователи могут легко определить различия и сходства в поведении токенизации.
Гибкий ввод: пользователи могут вводить любой текст по своему выбору, что позволяет динамически исследовать шаблоны токенизации для различных текстовых вводов. Независимо от того, анализируете ли вы короткие предложения, абзацы или целые документы, визуализатор адаптируется к вводу пользователя для комплексного анализа.
Визуализация с цветовой кодировкой: токены имеют цветовую маркировку в зависимости от их свойств и индекса, что обеспечивает визуально интуитивное представление шаблонов токенизации. Это позволяет пользователям быстро идентифицировать отдельные лексемы и шаблоны в тексте, способствуя более глубокому анализу и интерпретации.
Установить tokviz можно через pip:
pip install tokviz
from tokviz import token_visualizer
# Define input text
text = "In this example, the get_color function would need to be adjusted based on the specific properties of your model's tokenizer.
You might want to inspect the special tokens, check if a token is part of a special group,
or use any other relevant information provided by the tokenizer.
Keep in mind that the color logic may vary depending on the model,
so you need to tailor it to your specific use case."
# Compare tokenization across different language models
token_visualizer ( text , models = [ 'microsoft/deberta-v3-small' , 'openai-community/gpt2' ])
Это позволит визуализировать шаблоны токенизации для входного текста с использованием указанных языковых моделей. Вы можете передать список названий моделей или идентификаторов в параметр моделей. По умолчанию токенизация сравнивается с моделью GPT-2.
Эта библиотека основана на блокноте LLM Tokenizer Visualizer.