tokviz /
├── assets/
│ ├── example-deberta-v3-small.png
│ └── example-gpt2.png
├── tokviz /
│ ├── __init__.py
│ └── visualization.py
├── README.md
├── LICENSE
├── setup.py
└── pyproject.toml
tokviz
هي مكتبة Python لتصور أنماط الترميز عبر نماذج لغة مختلفة. توفر هذه المكتبة منصة شاملة للباحثين وعلماء البيانات وعشاق البرمجة اللغوية العصبية لاكتساب رؤى حول كيفية معالجة النماذج اللغوية المختلفة للنص وترميزه.
مقارنة النماذج: يتيح المتخيل للمستخدمين مقارنة أنماط الترميز عبر نماذج لغات متعددة، بما في ذلك النماذج الشائعة مثل GPT-2 وDistilGPT-2 وDeBERTa-v3-small. من خلال عرض الرموز المميزة المرمزة بالألوان جنبًا إلى جنب، يمكن للمستخدمين بسهولة تحديد الاختلافات والتشابهات في سلوك الترميز.
إدخال مرن: يمكن للمستخدمين إدخال أي نص من اختيارهم، مما يسمح بالاستكشاف الديناميكي لأنماط الترميز عبر المدخلات النصية المتنوعة. سواء كان تحليل الجمل القصيرة أو الفقرات أو المستندات بأكملها، يتكيف المتخيل مع مدخلات المستخدم لإجراء تحليل شامل.
تصور مرمز بالألوان: يتم ترميز الرموز المميزة بالألوان بناءً على خصائصها وفهرسها، مما يوفر تمثيلًا بديهيًا بصريًا لأنماط الترميز. يتيح ذلك للمستخدمين التعرف بسرعة على الرموز والأنماط الفردية داخل النص، مما يسهل التحليل والتفسير بشكل أعمق.
يمكنك تثبيت tokviz عبر النقطة:
pip install tokviz
from tokviz import token_visualizer
# Define input text
text = "In this example, the get_color function would need to be adjusted based on the specific properties of your model's tokenizer.
You might want to inspect the special tokens, check if a token is part of a special group,
or use any other relevant information provided by the tokenizer.
Keep in mind that the color logic may vary depending on the model,
so you need to tailor it to your specific use case."
# Compare tokenization across different language models
token_visualizer ( text , models = [ 'microsoft/deberta-v3-small' , 'openai-community/gpt2' ])
سيؤدي هذا إلى تصور أنماط الترميز لنص الإدخال باستخدام نماذج اللغة المحددة. يمكنك تمرير قائمة بأسماء النماذج أو المعرفات إلى معلمة النماذج. بشكل افتراضي، يقوم بمقارنة الترميز مع نموذج GPT-2.
تعتمد هذه المكتبة على دفتر الملاحظات LLM Tokenizer Visualizer