مرحبًا بكم في مستودع GitHub لورقة EACL 2024 الخاصة بنا ، "WSC+: تعزيز تحدي مخطط Winograd باستخدام Tree-Oxperts". يستكشف هذا المشروع إمكانيات نماذج اللغة الكبيرة (LLMS) في إنشاء أسئلة لتحدي مخطط Winograd (WSC) ، وهو معيار لتقييم فهم الماكينة. نقدم طريقة مطالبة جديدة ، وأجهزة الخبراء (TOE) ، ومجموعة بيانات جديدة ، WSC+، لتوفير رؤى أعمق في الثقة المفرطة في النموذج والتحيز.
يعد تحدي مخطط Winograd (WSC) بمثابة معيار بارز لتقييم فهم الماكينة. في حين أن نماذج اللغة الكبيرة (LLMS) تتفوق في الإجابة على أسئلة WSC ، فإن قدرتها على إنشاء مثل هذه الأسئلة تظل أقل استكشافًا. في هذا العمل ، نقترح Tree-Oxperts (TOE) ، وهي طريقة مطالبة جديدة تعزز توليد مثيلات WSC (20 ٪ من الحالات الصالحة مقابل 10 ٪ في الأساليب الحديثة). باستخدام هذا النهج ، نقدم WSC+، مجموعة بيانات جديدة تضم 3،026 جملًا تم إنشاؤها بواسطة LLM. والجدير بالذكر أن نقوم بتوسيع إطار WSC من خلال دمج فئات "غامضة" و "هجومية" جديدة ، مما يوفر نظرة أعمق على الثقة المفرطة في النموذج والتحيز. يكشف تحليلنا عن الفروق الدقيقة في تناسق التقييم ، مما يشير إلى أن LLMs قد لا تتفوق دائمًا على الأداء في تقييم الأسئلة التي تم إنشاؤها الخاصة بها عند مقارنتها بتلك التي صاغتها النماذج الأخرى. على WSC+، يحقق GPT-4 ، LLM أعلى أداء ، دقة 68.7 ٪ ، أقل بكثير من المعيار البشري البالغ 95.1 ٪.
مساهماتنا الرئيسية في هذا العمل هي ثلاثة أضعاف:
مجموعة البيانات WSC+ : نقوم بالكشف عن WSC+ ، والتي تضم 3،026 مثيلات تم إنشاؤها بواسطة LLM. تعمل مجموعة البيانات هذه على زيادة WSC الأصلية مع فئات مثل "الغموض" و "الهجوم". ومن المثير للاهتمام ، أن GPT-4 (Openai ، 2023) ، على الرغم من كونه رعايًا أماميًا ، سجل 68.7 ٪ فقط على WSC+، أقل بكثير من المعيار البشري البالغ 95.1 ٪.
Tree-Of-Oxperts (Toe) : نقدم تجربة شجرة ، وهي طريقة مبتكرة نطبقها على توليد مثيل WSC+. تعمل إصبع القدم على تحسين توليد جمل WSC+ صالحة بنسبة 40 ٪ تقريبًا مقارنة بالطرق الحديثة مثل سلسلة الفكرة (Wei et al. ، 2022).
تناسق التوليد : نستكشف المفهوم الجديد لتناسق التوليد في LLMS ، وكشف أن النماذج ، مثل GPT-3.5 ، غالبًا ما تكون ذات الأداء الضعيف في الحالات التي يولدونها ، مما يشير إلى تباينات التفكير الأعمق.
لأي أسئلة أو استفسارات ، لا تتردد في الوصول إلينا في Pardis.zahraei01 [في] شريف [DOT] EDU