هذا هو مستودع الورقة:
الثقة المفرطة في مواجهة الغموض مع البيانات العدائية. مارغريت لي* وجوليان مايكل ،* وقائع ورشة العمل الأولى حول جمع البيانات العددية الديناميكية (DADC) في NAACL 2022.
(الاختصار السخيف هو من اسم العمل الأصلي ، "تقييم غامض لتقييم العدواني")
في هذا المستودع:
aeae/
: رمز المصدر للبيانات ، المقاييس ، إلخ.scripts/
: نقاط الدخول لتشغيل التنبؤات ، وتقييم ، وإنتاج المؤامرات لتحليلنا. في الورقة ، ننسى أن نذكر أن بيانات الحمى NLI كانت تستخدم مع SNLI و MNLI لتدريب النموذج classical
. هذا يعني أن classical
مدربة على جميع البيانات غير المتجمعية التي تم تدريب نماذج البذور الخاصة بـ ANLI.
يتطلب هذا المشروع Python 3 ويتم كتابته باستخدام Allennlp و Pytorch.
إعداد محطة العمل:
python scripts/download.py
من الدليل الأساسي لتنزيل مجموعات البيانات.pip install -r requirements.txt
.python scripts/build_data.py
.للتدريب على النموذج
MODE=tiny allennlp train config/basic.jsonnet --include-package aeae -o '{"trainer.cuda_device": -1}' -s save/tiny
سيؤدي ذلك إلى تدريب نموذج على مجموعة فرعية صغيرة من MNLI باستخدام وحدة المعالجة المركزية. يستخدم تغيير الوضع وفقًا لذلك مصادر بيانات مختلفة (انظر basic.jsonnet) يحدد جهاز CUDA أي وحدة معالجة الرسومات المستخدمة.
يتم تجميع حالات NLI مسبقًا في التنسيق التالي:
{
"uid": String,
"premise": String,
"hypothesis": String,
"label": "e" | "c" | "n"
}
بقية الوثائق هي تودو.