يحتوي هذا المستودع على الكود والنتائج الموسعة للمقالة "صيد Magikarp: الكشف تلقائيًا عن الرموز المميزة غير المدربة في نماذج اللغات الكبيرة"
ربما يكون الشيء الأكثر إثارة للاهتمام في هذا المستودع هو التقارير التفصيلية والجدول الموجز الموجود في النتائج/. يوجد لكل نموذج تقرير "كامل" و"مصغر". يمكن دائمًا فتح الإصدار "المصغر" على github، ولكن قد يتطلب الإصدار الكامل التنزيل والعرض محليًا بسبب قيود حجم الملف.
في هذه التقارير:
▁
مسافة (ولكن ليس _
)¿entry?
يمثل الرموز المميزة مع entry
المفردات التي لم يتم ترميزها كما هو متوقع. poetry shell # make/activate your virtual environment
poetry install # only the first time or on updates
بالنسبة لبعض الطرز الأحدث، قد تحتاج إلى تثبيت إصدار أحدث من المحولات باستخدام pip install git+https://github.com/huggingface/transformers.git
راجع run_verification.sh
للحصول على بعض الأمثلة لأوامر تشغيل النماذج الجديدة. يعد البرنامج النصي نفسه مرجعًا أساسيًا لإمكانية التكرار ولا يوصى بتشغيله.
بالنسبة للنماذج ذات التضمينات المرتبطة، أو للحصول على تصورات ونتائج أفضل، ستحتاج إلى ترميز بعض معرفات الرموز المميزة غير المستخدمة في magikarp/unused_tokens.py
.
[0]
، أو استخدم مفردات الرمز المميز لاختيار بعضها.magikarp/fishing.py
وقم بإيقافه عندما يبدأ التحقق.results/verifications/yourmodel.jsonl
الذي يسمح لك بالاطلاع على المفردات وتحديث الرموز المميزة المناسبة.generate_results.py
: يُنشئ مخططات وتقارير تخفيض السعر. يحدث هذا تلقائيًا بعد التحقق، ولكن لإعادة الإنشاء، يمكنك python generate_results.py [your_model_id]
ثم البحث في results
. إذا كنت تريد المساهمة بنتائج لنماذج إضافية، فيرجى تضمين ما يلي:
UNUSED_TOKENS
pytest
) للنموذج الجديد، الذي يستخدم هذه المصفوفة كسجل نموذجي.run_verification.sh
results
التي ليست .gitignore
'd إذا كنت تعرف نموذجًا قد يكون من المثير للاهتمام تحليله، ولكن ليس لديك الموارد اللازمة لتشغيله بنفسك، فلا تتردد في فتح مشكلة. يرجى إضافة معرف Hugging Face، وبعض المعلومات حول مدى أهميته فيما يتعلق بالترميز، وتذكر أنه كلما كان النموذج أكبر، قل احتمال منحه الأولوية.