ยินดีต้อนรับสู่พื้นที่เก็บข้อมูล GitHub สำหรับกระดาษ EACL 2024 ของเรา "WSC+: เพิ่มความท้าทาย Winograd Schema Challenge โดยใช้ Tree-of-Experts" โครงการนี้สำรวจความสามารถของแบบจำลองภาษาขนาดใหญ่ (LLMS) ในการสร้างคำถามสำหรับ Winograd Schema Challenge (WSC) ซึ่งเป็นมาตรฐานสำหรับการประเมินความเข้าใจของเครื่อง เราแนะนำวิธีการแจ้งเตือนใหม่ต้นไม้ของ Experts (TOE) และชุดข้อมูลใหม่ WSC+เพื่อให้ข้อมูลเชิงลึกที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับแบบจำลองความมั่นใจและอคติ
Winograd Schema Challenge (WSC) ทำหน้าที่เป็นเกณฑ์มาตรฐานที่โดดเด่นสำหรับการประเมินความเข้าใจของเครื่อง ในขณะที่โมเดลภาษาขนาดใหญ่ (LLMS) เก่งในการตอบคำถาม WSC ความสามารถในการสร้างคำถามดังกล่าวยังคงมีการสำรวจน้อยลง ในงานนี้เราเสนอต้นไม้ของ experts (TOE) ซึ่งเป็นวิธีการแจ้งเตือนใหม่ซึ่งช่วยเพิ่มการสร้างอินสแตนซ์ WSC (กรณีที่ถูกต้อง 50% เทียบกับ 10% ในวิธีการล่าสุด) ด้วยวิธีการนี้เราแนะนำ WSC+ชุดข้อมูลใหม่ประกอบด้วยประโยคที่สร้างขึ้น 3,026 ประโยค LLM โดยเฉพาะอย่างยิ่งเราขยายเฟรมเวิร์ก WSC โดยการรวมหมวดหมู่ 'ที่คลุมเครือ' และ 'น่ารังเกียจ' ใหม่ซึ่งให้ข้อมูลเชิงลึกที่ลึกซึ้งยิ่งขึ้นในแบบจำลองที่มีความมั่นใจและอคติ การวิเคราะห์ของเราแสดงให้เห็นถึงความแตกต่างในการประเมินความสอดคล้องของการประเมินโดยบอกว่า LLMs อาจไม่ดีกว่าเสมอในการประเมินคำถามที่สร้างขึ้นของตนเองเมื่อเปรียบเทียบกับที่สร้างขึ้นโดยแบบจำลองอื่น ๆ บน WSC+, GPT-4, LLM ที่มีประสิทธิภาพสูงสุดได้รับความแม่นยำ 68.7%ซึ่งต่ำกว่าเกณฑ์มาตรฐานของมนุษย์อย่างมีนัยสำคัญที่ 95.1%
ผลงานสำคัญของเราในงานนี้คือสามเท่า:
ชุดข้อมูล WSC+ : เราเปิดตัว WSC+ ซึ่งมีอินสแตนซ์ 3,026 LLM ที่สร้างขึ้น ชุดข้อมูลนี้เพิ่ม WSC ดั้งเดิมด้วยหมวดหมู่เช่น 'คลุมเครือ' และ 'รุก' น่าประหลาดใจที่ GPT-4 (Openai, 2023) แม้จะเป็นนักวิ่งหน้าทำคะแนนเพียง 68.7% สำหรับ WSC+ต่ำกว่าเกณฑ์มาตรฐานของมนุษย์ที่ 95.1%
Tree-of-Experts (TOE) : เรานำเสนอ Tree-of-Experts ซึ่งเป็นวิธีการที่เป็นนวัตกรรมซึ่งเราใช้กับการสร้างอินสแตนซ์ WSC+ TOE ปรับปรุงการสร้างประโยค WSC+ ที่ถูกต้องเกือบ 40% เมื่อเทียบกับวิธีการล่าสุดเช่นห่วงโซ่ความคิด (Wei et al., 2022)
ความสอดคล้องของการประเมินผล : เราสำรวจแนวคิดนวนิยายของการประเมินความสอดคล้องในการสร้างใน LLMS เผยให้เห็นว่าแบบจำลองเช่น GPT-3.5 มักจะมีประสิทธิภาพต่ำกว่าในกรณีที่พวกเขาสร้างเอง
สำหรับคำถามหรือข้อสงสัยใด ๆ โปรดอย่าลังเลที่จะติดต่อเราที่ pardis.zahraei01 [ที่] Sharif [dot] edu