작성자: 알리 보르지(Ali Borji), 메흐다드 모하마디안(Mehrdad Mohammadian)
ResearchGate: 링크
현대 LLM에 대한 비공식 평가는 소셜 미디어, 블로그, 뉴스 매체에서 찾아볼 수 있지만 아직 공식적이고 포괄적인 비교가 이루어지지 않았습니다. 이러한 격차에 대응하여 우리는 LLM 및 대화형 봇에 대한 광범위한 벤치마크 평가를 수행했습니다. 우리의 평가에는 "Wordsmiths 데이터 세트"라고 하는 27개 범주를 포함하는 1002개의 질문 모음이 포함되었습니다. 이러한 범주에는 추론, 논리, 사실, 코딩, 편견, 언어, 유머 등이 포함됩니다. 데이터세트의 각 질문에는 정확하고 검증된 답변이 함께 제공됩니다. 우리는 이 데이터 세트를 사용하여 ChatGPT, GPT-4, Bard 및 Claude의 4가지 주요 챗봇을 꼼꼼하게 평가했습니다. 평가 결과 다음과 같은 주요 결과가 나타났습니다. a) GPT-4는 모든 범주에서 84.1%의 성공률을 달성하여 가장 성능이 뛰어난 챗봇으로 나타났습니다. 반면 바드는 도전에 직면해 62.4%의 성공률을 달성했다. b) 평가된 4개 모델 중 하나가 약 93%의 시간 동안 정확하게 응답했습니다. 그러나 모든 모델은 약 44%만 정확했습니다. c) Bard는 다른 모델과의 상관관계가 낮은 반면 ChatGPT와 GPT-4는 응답 측면에서 높은 상관관계가 있습니다. d) 챗봇은 언어 이해, 사실 및 자기 인식에 능숙함을 보여주었습니다. 하지만 수학, 코딩, IQ, 추론 등의 영역에서는 어려움을 겪었습니다. e) 편견, 차별, 윤리 범주 측면에서 모델은 일반적으로 잘 수행되어 상대적으로 활용하기에 안전함을 시사합니다. 데이터 세트에 대한 향후 모델 평가를 더 쉽게 하기 위해 객관식 버전(Wordsmiths-MCQ라고 함)도 제공합니다. 현대 챗봇의 기능과 한계에 대한 이해와 평가는 엄청난 사회적 영향을 미칩니다. 이 분야에 대한 추가 연구를 촉진하기 위한 노력의 일환으로 우리는 Wordsmiths에서 찾을 수 있는 데이터 세트를 대중이 액세스할 수 있도록 만들었습니다.
발표될
전체적으로 우리 데이터 세트에는 1002개의 질문-답변 쌍이 포함되어 있습니다. 대규모 언어 모델의 주요 능력과 중요한 능력을 평가하는 데 사용할 수 있는 27개 범주가 있습니다. 아래 그림은 카테고리별 질문 개수를 보여줍니다.
데이터세트에 액세스하려면 데이터 폴더를 확인하거나 릴리스 섹션에서 데이터세트를 다운로드하세요. 모든 카테고리에 json
및 csv
형식이 모두 제공되므로 필요에 따라 사용할 수 있습니다. 답변이 필요하지 않은 카테고리/질문의 경우 답변으로 "NONE"이 대체됩니다.
제안된 데이터세트 확장에 기여하고 싶다면 이슈를 열거나 이메일을 보내주세요. 모든 카테고리와 언어에 질문-답변 쌍을 추가하는 것이 좋습니다.
SSRN 사전 인쇄:
@misc{BorjiMohammadianWordsmiths,
author = {Borji, Ali and Mohammadian, Mehrdad},
year = {2023},
month = {06},
pages = {},
title = { Battle of the Wordsmiths : Comparing ChatGPT, GPT-4, Claude, and Bard},
journal = {SSRN Electronic Journal},
doi = {10.2139/ssrn.4476855}
}
GNU 일반 공중 라이선스 v3.0