EACL 2024 용지의 Github 저장소에 오신 것을 환영합니다. 이 프로젝트는 기계 이해를 평가하기위한 벤치 마크인 Winograd Schema Challenge (WSC)에 대한 질문을 생성 할 때 LLMS (Large Language Models)의 기능을 탐구합니다. 우리는 새로운 프롬프트 방법 인 Tree-of-Experts (Tree-of-Experts) 및 새로운 데이터 세트 인 WSC+를 소개하여 모델 과잉 및 편견에 대한 더 깊은 통찰력을 제공합니다.
WSC (Winograd Schema Challenge)는 기계 이해를 평가하기위한 두드러진 벤치 마크 역할을합니다. LLMS (Large Language Models)는 WSC 질문에 응답하는 데 탁월하지만 그러한 질문을 생성하는 능력은 여전히 탐구되지 않습니다. 이 작업에서 우리는 WSC 인스턴스의 생성을 향상시키는 새로운 프롬프트 방법 인 Tree-of-Experts (Toe)를 제안합니다 (50% 유효 사례 vs. 최근 방법). 이 접근법을 사용하여 3,026 LL 생성 문장을 포함하는 새로운 데이터 세트 인 WSC+를 소개합니다. 특히, 우리는 새로운 '모호한'및 '공격적인'범주를 통합하여 WSC 프레임 워크를 확장하여 모델 과잉 및 편견에 대한 더 깊은 통찰력을 제공합니다. 우리의 분석은 생성 평가 일관성의 뉘앙스를 보여줍니다. 이는 LLM이 다른 모델에 의해 제작 된 문제와 비교할 때 자신의 생성 된 질문을 평가하는 데 항상 성능이 뛰어날 수 있음을 시사합니다. WSC+, GPT-4에서 최고 성능 LLM은 인간 벤치 마크보다 95.1%보다 크게 68.7%의 정확도를 달성합니다.
이 작업의 주요 기여는 세 가지입니다.
WSC+ DataSet : 3,026 개의 LLM 생성 인스턴스를 특징으로하는 WSC+를 공개합니다. 이 데이터 세트는 '모호한'및 '공격'과 같은 범주로 원래 WSC를 보강합니다. 흥미롭게도 GPT-4 (OpenAi, 2023)는 선두 주자 임에도 불구하고 WSC+에서 68.7%, 95.1%의 인간 벤치 마크보다 훨씬 낮았습니다.
Experts (발가락) : 우리는 WSC+ 인스턴스 생성에 적용되는 혁신적인 방법 인 Tree-of-Experts를 제시합니다. 발가락은 유효한 WSC+ 문장의 생성을 거의 40%만큼 향상시킨다 (Wei et al., 2022).
생성 평가 일관성 : 우리는 LLM의 생성 평가 일관성의 새로운 개념을 탐구하여 GPT-3.5와 같은 모델이 종종 자체가 생성하는 사례에 대해 성능이 저조하여 더 깊은 추론 불균형을 시사합니다.
질문이나 문의 사항이 있으시면 Pardis.zahraei01 [at] Sharif [Dot] Edu에서 문의하십시오.