Добро пожаловать в репозиторий GitHub для нашей статьи EACL 2024 «WSC+: Улучшение задачи схемы снограда с использованием экспертов дерева». Этот проект исследует возможности моделей крупных языков (LLMS) в создании вопросов для Challenge Winograd Schema (WSC), эталона для оценки понимания машины. Мы вводим новый метод подсказки, дерево-эксперты (TOE) и новый набор данных WSC+, чтобы обеспечить более глубокое понимание самоуверенности модели и предвзятости.
Challenge Winograd Schema (WSC) служит выдающимся эталоном для оценки понимания машины. В то время как крупные языковые модели (LLMS) преуспевают при ответе на вопросы WSC, их способность генерировать такие вопросы остается менее изученной. В этой работе мы предлагаем дерево-эксперты (TOE), новый метод подсказки, который усиливает генерацию экземпляров WSC (50% достоверных случаев против 10% в последних методах). Используя этот подход, мы вводим WSC+, новый набор данных, включающий 3 026 предложений, сгенерированных LLM. Примечательно, что мы расширяем структуру WSC, включив новые «неоднозначные» и «оскорбительные» категории, обеспечивая более глубокое понимание самоуверенности модели и предвзятости. Наш анализ показывает нюансы в согласованности по оценке поколений, что позволяет предположить, что LLMS не всегда может оценить в оценке своих собственных сгенерированных вопросов по сравнению с теми, которые созданы другими моделями. На WSC+, GPT-4, высшем уровне LLM, достигает точности 68,7%, что значительно ниже эталона человека в 95,1%.
Наш ключевой вклад в эту работу в три раза:
Набор данных WSC+ : мы представим WSC+, включающий 3 026 экземпляров, сгенерированных LLM. Этот набор данных дополняет оригинал WSC с помощью категорий, таких как «двусмысленные» и «оскорбительные». Интересно, что GPT-4 (Openai, 2023), несмотря на то, что он был лидером, набрал только 68,7% на WSC+, что значительно ниже уровня человека в 95,1%.
Дерево-эксперты (TOE) : мы представляем Experts, инновационный метод, который мы применяем к генерации экземпляров WSC+. TOE улучшает генерацию достоверных предложений WSC+ почти на 40% по сравнению с недавними методами, такими как цепочка мыслей (Wei et al., 2022).
Согласованность оценки поколений : мы исследуем новую концепцию согласованности по оценке поколений в LLMS, показывая, что модели, такие как GPT-3.5, часто недооценивают случаи, которые они сами генерируют, что предлагает более глубокие рассуждения.
По любым вопросам или запросам, пожалуйста, не стесняйтесь обратиться к нам по адресу pardis.zahraei01 [at] sharif [dot] edu