tokviz /
├── assets/
│ ├── example-deberta-v3-small.png
│ └── example-gpt2.png
├── tokviz /
│ ├── __init__.py
│ └── visualization.py
├── README.md
├── LICENSE
├── setup.py
└── pyproject.toml
tokviz
adalah pustaka Python untuk memvisualisasikan pola tokenisasi di berbagai model bahasa. Perpustakaan ini menawarkan platform komprehensif bagi para peneliti, ilmuwan data, dan penggemar NLP untuk mendapatkan wawasan tentang bagaimana berbagai model bahasa memproses dan memberi token pada teks.
Perbandingan Model: Visualisator memungkinkan pengguna membandingkan pola tokenisasi di berbagai model bahasa, termasuk model populer seperti GPT-2, DistilGPT-2, dan DeBERTa-v3-small. Dengan menampilkan token berkode warna secara berdampingan, pengguna dapat dengan mudah mengidentifikasi perbedaan dan persamaan dalam perilaku tokenisasi.
Masukan Fleksibel: Pengguna dapat memasukkan teks apa pun pilihan mereka, memungkinkan eksplorasi dinamis pola tokenisasi di berbagai masukan tekstual. Baik menganalisis kalimat pendek, paragraf, atau seluruh dokumen, visualisator menyesuaikan dengan masukan pengguna untuk analisis komprehensif.
Visualisasi Berkode Warna: Token diberi kode warna berdasarkan properti dan indeksnya, memberikan representasi pola tokenisasi yang intuitif secara visual. Hal ini memungkinkan pengguna dengan cepat mengidentifikasi token dan pola individual dalam teks, memfasilitasi analisis dan interpretasi yang lebih dalam.
Anda dapat menginstal tokviz melalui pip:
pip install tokviz
from tokviz import token_visualizer
# Define input text
text = "In this example, the get_color function would need to be adjusted based on the specific properties of your model's tokenizer.
You might want to inspect the special tokens, check if a token is part of a special group,
or use any other relevant information provided by the tokenizer.
Keep in mind that the color logic may vary depending on the model,
so you need to tailor it to your specific use case."
# Compare tokenization across different language models
token_visualizer ( text , models = [ 'microsoft/deberta-v3-small' , 'openai-community/gpt2' ])
Ini akan memvisualisasikan pola tokenisasi untuk teks masukan menggunakan model bahasa yang ditentukan. Anda dapat meneruskan daftar nama model atau pengidentifikasi ke parameter model. Secara default, ini membandingkan tokenisasi dengan model GPT-2.
Perpustakaan ini didasarkan pada notebook LLM Tokenizer Visualizer