歡迎使用我們的EACL 2024紙“ WSC+:使用Experts增強Winograd模式挑戰”的GitHub存儲庫。該項目探討了大語言模型(LLMS)為Winograd模式挑戰(WSC)生成問題的功能,這是評估機器理解的基準。我們介紹了一種新穎的提示方法,專家樹(腳趾)和一個新的數據集WSC+,以提供對模型過度自信和偏見的更深入的見解。
Winograd模式挑戰(WSC)是評估機器理解的重要基準。儘管大型語言模型(LLMS)在回答WSC問題方面表現出色,但它們產生此類問題的能力仍然不那麼探索。在這項工作中,我們提出了專家樹(TOE),這是一種新穎的提示方法,可增強WSC實例的產生(50%有效案例,而在最近的方法中為10%)。使用這種方法,我們介紹了WSC+,這是一個包含3,026個LLM生成句子的新型數據集。值得注意的是,我們通過結合新的“模棱兩可”和“進攻”類別來擴展WSC框架,從而更深入地了解模型過度自信和偏見。我們的分析揭示了生成評估一致性的細微差別,這表明LLM與其他模型相比,在評估自己的生成問題方面可能並不總是勝過。在WSC+,GPT-4(表現最好的LLM)上,其準確度為68.7%,明顯低於人類基準95.1%。
我們在這項工作中的主要貢獻是三重的:
WSC+數據集:我們揭幕了WSC+,具有3,026個LLM生成的實例。該數據集以“模棱兩可”和“進攻”之類的類別增強了原始WSC。有趣的是,儘管GPT-4(OpenAI,2023年),儘管是領先者,但在WSC+上僅得分68.7%,遠低於95.1%的人類基準。
專家樹(腳趾) :我們提出了專家樹,這是一種適用於WSC+實例生成的創新方法。與最近的思想鏈(Wei等,2022)相比,腳趾將有效的WSC+句子的產生提高了近40%。
生成評估的一致性:我們探討了LLMS中發電評估一致性的新穎概念,揭示了諸如GPT-3.5之類的模型在其本身會產生的情況下通常表現不佳,暗示了更深的推理差異。
如有任何疑問或查詢,請隨時在pardis.zahraei01 [at] sharif [dot] edu與我們聯繫