يوفر تطبيقًا للرموز المميزة الأكثر استخدامًا اليوم، مع التركيز على الأداء وتعدد الاستخدامات.
تدريب مفردات جديدة ورموز مميزة، باستخدام الرموز المميزة الأكثر استخدامًا اليوم.
سريع للغاية (في كل من التدريب والترميز)، وذلك بفضل تطبيق Rust. يستغرق أقل من 20 ثانية لترميز غيغابايت من النص على وحدة المعالجة المركزية للخادم.
سهل الاستخدام، ولكنه أيضًا متعدد الاستخدامات للغاية.
مصممة للبحث والإنتاج.
التطبيع يأتي مع تتبع المحاذاة. من الممكن دائمًا الحصول على جزء الجملة الأصلية الذي يتوافق مع رمز معين.
يقوم بكل عمليات المعالجة المسبقة: اقتطاع، لوحة، إضافة الرموز المميزة الخاصة التي يحتاجها النموذج الخاص بك.
يمكن أن يختلف الأداء اعتمادًا على الأجهزة، ولكن تشغيل ~/bindings/python/benches/test_tiktoken.py يجب أن يوفر ما يلي على مثيل g6 aws:
نحن نقدم روابط للغات التالية (المزيد في المستقبل!):
الصدأ (التنفيذ الأصلي)
بايثون
Node.js
روبي (مساهمة بواسطةankane، الريبو الخارجي)
يمكنك التثبيت من المصدر باستخدام:
تثبيت النقطة git+https://github.com/huggingface/tokenizers.git#subdirectory=bindings/python
لدينا تثبيت الإصدارات التي تم إصدارها مع
تثبيت النقاط المميزة
اختر النموذج الخاص بك بين Byte-Pair Encoding أو WordPiece أو Unigram وقم بإنشاء مثيل للرمز المميز:
من tokenizers import Tokenizerfrom tokenizers.models import BPEtokenizer = Tokenizer(BPE())
يمكنك تخصيص كيفية إجراء الترميز المسبق (على سبيل المثال، التقسيم إلى كلمات):
من tokenizers.pre_tokenizers استيراد Whitespacetokenizer.pre_tokenizer = Whitespace()
بعد ذلك، يتطلب تدريب أداة الرمز المميز الخاصة بك على مجموعة من الملفات سطرين من الرموز:
من tokenizers.trainers import BpeTrainertrainer = BpeTrainer(special_tokens=["[UNK]"، "[CLS]"، "[SEP]"، "[PAD]"، "[MASK]"])tokenizer.train(files=[ "wiki.train.raw"، "wiki.valid.raw"، "wiki.test.raw"]، المدرب = المدرب)
بمجرد تدريب أداة الرمز المميز، قم بتشفير أي نص بسطر واحد فقط:
output = tokenizer.encode("مرحبًا، كيف حالكم؟؟")print(output.tokens)# ["مرحبًا"، "،"، "y"، "'"، "all"، "! "، "كيف"، "حالك"، "أنت"، "[UNK]"، "؟"]
تحقق من الوثائق أو الجولة السريعة لمعرفة المزيد!