tokviz /
├── assets/
│ ├── example-deberta-v3-small.png
│ └── example-gpt2.png
├── tokviz /
│ ├── __init__.py
│ └── visualization.py
├── README.md
├── LICENSE
├── setup.py
└── pyproject.toml
tokviz
เป็นไลบรารี Python สำหรับแสดงภาพรูปแบบโทเค็นไนเซชันในโมเดลภาษาต่างๆ ห้องสมุดนี้มีแพลตฟอร์มที่ครอบคลุมสำหรับนักวิจัย นักวิทยาศาสตร์ข้อมูล และผู้ที่ชื่นชอบ NLP เพื่อรับข้อมูลเชิงลึกเกี่ยวกับวิธีการประมวลผลโมเดลภาษาและโทเค็นข้อความ
การเปรียบเทียบโมเดล: Visualizer ช่วยให้ผู้ใช้สามารถเปรียบเทียบรูปแบบโทเค็นไนเซชันในโมเดลหลายภาษา รวมถึงโมเดลยอดนิยม เช่น GPT-2, DistilGPT-2 และ DeBERTa-v3-small ด้วยการแสดงโทเค็นรหัสสีเคียงข้างกัน ผู้ใช้สามารถระบุความแตกต่างและความคล้ายคลึงในลักษณะการทำงานของโทเค็นได้อย่างง่ายดาย
การป้อนข้อมูลที่ยืดหยุ่น: ผู้ใช้สามารถป้อนข้อความใดก็ได้ที่ต้องการ ช่วยให้สามารถสำรวจรูปแบบโทเค็นไนเซชันแบบไดนามิกผ่านอินพุตข้อความที่หลากหลาย ไม่ว่าจะวิเคราะห์ประโยคสั้น ย่อหน้า หรือทั้งเอกสาร เครื่องมือสร้างภาพจะปรับตามข้อมูลของผู้ใช้เพื่อการวิเคราะห์ที่ครอบคลุม
การแสดงภาพโดยใช้รหัสสี: โทเค็นจะถูกกำหนดรหัสสีตามคุณสมบัติและดัชนี ซึ่งให้การแสดงรูปแบบโทเค็นไนเซชันที่มองเห็นได้ง่าย ช่วยให้ผู้ใช้สามารถระบุโทเค็นและรูปแบบแต่ละรายการภายในข้อความได้อย่างรวดเร็ว ช่วยให้วิเคราะห์และตีความได้ลึกยิ่งขึ้น
คุณสามารถติดตั้ง tokviz ผ่าน pip:
pip install tokviz
from tokviz import token_visualizer
# Define input text
text = "In this example, the get_color function would need to be adjusted based on the specific properties of your model's tokenizer.
You might want to inspect the special tokens, check if a token is part of a special group,
or use any other relevant information provided by the tokenizer.
Keep in mind that the color logic may vary depending on the model,
so you need to tailor it to your specific use case."
# Compare tokenization across different language models
token_visualizer ( text , models = [ 'microsoft/deberta-v3-small' , 'openai-community/gpt2' ])
สิ่งนี้จะแสดงภาพรูปแบบโทเค็นสำหรับข้อความอินพุตโดยใช้โมเดลภาษาที่ระบุ คุณสามารถส่งรายการชื่อรุ่นหรือตัวระบุไปยังพารามิเตอร์รุ่นได้ โดยค่าเริ่มต้น ระบบจะเปรียบเทียบโทเค็นกับรุ่น GPT-2
ไลบรารีนี้ใช้ LLM Tokenizer Visualizer ของโน้ตบุ๊ก