Willkommen im Github-Repository für unser EACL 2024-Artikel "WSC+: Verbesserung der Winograd Schema-Herausforderung mithilfe von Expertenbäumen". Dieses Projekt untersucht die Funktionen von Großsprachemodellen (LLMs), um Fragen für die Winograd Schema Challenge (WSC) zu generieren, einem Maßstab für die Bewertung des Maschinenverständnisses. Wir stellen eine neuartige Aufforderungmethode, den Tree-of-Experten (TOE) und einen neuen Datensatz WSC+ein, um tiefere Einblicke in das Modellüberschuss und die Verzerrung zu geben.
Die Winograd Schema Challenge (WSC) dient als herausragende Benchmark für die Bewertung des Maschinenverständnisses. Während große Sprachmodelle (LLMs) sich bei der Beantwortung von WSC -Fragen auszeichnen, bleibt ihre Fähigkeit, solche Fragen zu generieren, weniger untersucht. In dieser Arbeit schlagen wir den Expertenbaum (TOE) vor, eine neuartige Anlaufmethode, die die Erzeugung von WSC-Instanzen verbessert (50% gültige Fälle gegenüber 10% in den jüngsten Methoden). Mit diesem Ansatz stellen wir WSC+vor, einen neuartigen Datensatz mit 3.026 LLM-generierten Sätzen. Bemerkenswerterweise erweitern wir das WSC -Framework, indem wir neue "mehrdeutige" und "offensive" Kategorien einbeziehen und einen tieferen Einblick in das Modell -Überbewusstsein und die Verzerrung bieten. Unsere Analyse zeigt Nuancen bei der Konsistenz der Generation-Evaluierung, was darauf hindeutet, dass LLMs im Vergleich zu denen, die von anderen Modellen hergestellt wurden, möglicherweise nicht immer bei der Bewertung ihrer eigenen erzeugten Fragen übertreffen. Auf WSC+, GPT-4, dem Top-Live-LLM, erreicht eine Genauigkeit von 68,7%, signifikant unter dem menschlichen Maßstab von 95,1%.
Unsere wichtigsten Beiträge in dieser Arbeit sind dreifach:
WSC+ Datensatz : Wir enthüllen WSC+ mit 3.026 LLM-generierten Instanzen. Dieser Datensatz erweitert das ursprüngliche WSC mit Kategorien wie "mehrdeutig" und "Offensiv". Interessanterweise erzielte GPT-4 (Openai, 2023), obwohl er ein Front-Leiter war, nur 68,7% für WSC+, weit unter dem menschlichen Maßstab von 95,1%.
Expertenbaum (TOE) : Wir präsentieren den Expertenbaum, eine innovative Methode, die wir für die WSC+ -Instanzgenerierung anwenden. Toe verbessert die Erzeugung gültiger WSC+ -Sätze um fast 40% im Vergleich zu jüngsten Methoden wie dem Gedanke (Wei et al., 2022).
Konsistenz der Generation-Evaluation : Wir untersuchen das neuartige Konzept der Konsistenz der Generation-Evaluierung in LLMs und zeigen, dass Modelle wie GPT-3,5 häufig die Fälle, die sie selbst erzeugen, unterdurchschnittlich unterdurchschnittlich sind, was auf tiefere Argumentationsunterschiede hinweist.
Bei Fragen oder Anfragen wenden Sie sich bitte an uns unter pardis.zahraei01 [bei] Sharif [dot] edu.