Bienvenue dans le référentiel GitHub pour notre article EACL 2024, "WSC +: Amélioration du défi du schéma Winograd à l'aide d'arbre des experts". Ce projet explore les capacités des modèles de grande langue (LLMS) dans la génération de questions pour le Winograd Schema Challenge (WSC), une référence pour évaluer la compréhension des machines. Nous introduisons une nouvelle méthode d'incitation, l'arbre des experts (TOE) et un nouvel ensemble de données, WSC +, pour fournir des informations plus approfondies sur la confiance et le biais du modèle.
Le Winograd Schema Challenge (WSC) sert de référence proéminente pour évaluer la compréhension des machines. Alors que les grands modèles de langue (LLM) excellent à répondre aux questions WSC, leur capacité à générer de telles questions reste moins explorée. Dans ce travail, nous proposons l'arbre des experts (TOE), une nouvelle méthode d'incitation qui améliore la génération d'instances WSC (50% de cas valides contre 10% dans les méthodes récentes). En utilisant cette approche, nous introduisons WSC +, un nouvel ensemble de données comprenant 3 026 phrases générées par LLM. Notamment, nous étendons le cadre WSC en incorporant de nouvelles catégories «ambiguës» et «offensives», fournissant un aperçu plus approfondi de la confiance et du biais du modèle. Notre analyse révèle des nuances dans la cohérence de la génération-évaluation, ce qui suggère que les LLM peuvent ne pas toujours surpasser dans l'évaluation de leurs propres questions générées par rapport à celles conçues par d'autres modèles. Sur WSC +, GPT-4, le LLM le plus performant, atteint une précision de 68,7%, significativement inférieure à la référence humaine de 95,1%.
Nos contributions clés dans ce travail sont triple:
Ensemble de données WSC + : nous dévoilons WSC +, avec 3 026 instances générées par LLM. Cet ensemble de données augmente le WSC d'origine avec des catégories comme «ambigu» et «offensive». Curieusement, le GPT-4 (Openai, 2023), bien qu'il soit un favori, n'a marqué que 68,7% sur WSC +, bien en dessous de la référence humaine de 95,1%.
Arbre des experts (orteil) : nous présentons l'arbre des experts, une méthode innovante que nous appliquons à la génération d'instance WSC +. L'orteil améliore la génération de phrases WSC + valides de près de 40% par rapport aux méthodes récentes telles que la chaîne de pensées (Wei et al., 2022).
Cohérence de la génération-évaluation : nous explorons le nouveau concept de cohérence de la génération-évaluation dans les LLM, révélant que les modèles, tels que GPT-3.5, sous-performent souvent dans les cas qu'ils génèrent eux-mêmes, suggérant des disparités de raisonnement plus profondes.
Pour toute question ou demande, n'hésitez pas à nous contacter sur PARDIS.zahraei01 [at] Sharif [dot] edu