โดย อาลี บอร์จิ, เมห์รดาด โมฮัมมาเดียน
ResearchGate: ลิงค์
แม้ว่าการประเมินอย่างไม่เป็นทางการของ LLM สมัยใหม่สามารถพบได้บนโซเชียลมีเดีย บล็อก และสำนักข่าว แต่ยังไม่มีการเปรียบเทียบอย่างเป็นทางการและครอบคลุมระหว่างกัน เพื่อตอบสนองต่อช่องว่างนี้ เราได้ดำเนินการประเมินเกณฑ์มาตรฐานที่ครอบคลุมของ LLM และบอทสนทนา การประเมินของเราเกี่ยวข้องกับการรวบรวมคำถาม 1,002 ข้อ ครอบคลุม 27 หมวดหมู่ ซึ่งเราเรียกว่า "ชุดข้อมูล Wordsmiths" หมวดหมู่เหล่านี้รวมถึงการให้เหตุผล ตรรกะ ข้อเท็จจริง การเขียนโค้ด อคติ ภาษา อารมณ์ขัน และอื่นๆ คำถามแต่ละข้อในชุดข้อมูลจะมาพร้อมกับคำตอบที่ถูกต้องและตรวจสอบได้ เราประเมินแชทบอทชั้นนำสี่ตัวอย่างพิถีพิถัน ได้แก่ ChatGPT, GPT-4, Bard และ Claude โดยใช้ชุดข้อมูลนี้ ผลการประเมินของเราเผยให้เห็นการค้นพบที่สำคัญดังต่อไปนี้: ก) GPT-4 กลายเป็นแชทบอทที่มีประสิทธิภาพสูงสุดในทุกหมวดหมู่ โดยบรรลุอัตราความสำเร็จที่ 84.1% ในทางกลับกัน Bard เผชิญกับความท้าทายและมีอัตราความสำเร็จอยู่ที่ 62.4% b) ในบรรดาแบบจำลองทั้งสี่ที่ได้รับการประเมิน หนึ่งในนั้นตอบสนองถูกต้องประมาณ 93% ของเวลาทั้งหมด อย่างไรก็ตาม ทุกรุ่นมีความถูกต้องเพียงประมาณ 44% เท่านั้น c) Bard มีความสัมพันธ์น้อยกว่ากับรุ่นอื่น ๆ ในขณะที่ ChatGPT และ GPT-4 มีความสัมพันธ์กันอย่างมากในแง่ของการตอบสนอง ง) Chatbots แสดงให้เห็นถึงความสามารถในการเข้าใจภาษา ข้อเท็จจริง และการตระหนักรู้ในตนเอง อย่างไรก็ตาม พวกเขาพบกับความยากลำบากในด้านต่างๆ เช่น คณิตศาสตร์ การเขียนโค้ด ไอคิว และการใช้เหตุผล จ) ในแง่ของอคติ การเลือกปฏิบัติ และจริยธรรม โมเดลโดยทั่วไปทำงานได้ดี โดยแนะนำว่าค่อนข้างปลอดภัยในการใช้งาน เพื่อให้การประเมินโมเดลในอนาคตบนชุดข้อมูลของเราง่ายขึ้น เราจึงจัดเตรียมเวอร์ชันแบบปรนัยไว้ด้วย (เรียกว่า Wordsmiths-MCQ) ความเข้าใจและการประเมินความสามารถและข้อจำกัดของแชทบอทยุคใหม่ส่งผลกระทบทางสังคมอย่างมาก ด้วยความพยายามที่จะสนับสนุนการวิจัยเพิ่มเติมในสาขานี้ เราได้จัดทำชุดข้อมูลของเราให้สาธารณชนเข้าถึงได้ ซึ่งสามารถพบได้ที่ Wordsmiths
ที่จะประกาศ
โดยรวมแล้ว ชุดข้อมูลของเราประกอบด้วย คู่คำถาม-คำตอบ 1,002 คู่ มี 27 หมวดหมู่ ที่สามารถใช้เพื่อประเมินความสามารถหลักและสำคัญของโมเดลภาษาขนาดใหญ่ รูปด้านล่างแสดงจำนวนคำถามต่อหมวดหมู่
หากต้องการเข้าถึงชุดข้อมูล โปรดดูโฟลเดอร์ข้อมูลหรือดาวน์โหลดชุดข้อมูลจากส่วนที่เผยแพร่ มีทั้งรูปแบบ json
และ csv
สำหรับทุกหมวดหมู่ คุณสามารถใช้รูปแบบเหล่านี้ได้ตามความต้องการ สำหรับหมวดหมู่/คำถามที่ไม่ต้องการคำตอบ จะมีการเปลี่ยน "NONE" เป็นคำตอบ
หากคุณสนใจที่จะมีส่วนร่วมในการขยายชุดข้อมูลที่เสนอ โปรดเปิดปัญหาหรือเพียงแค่ส่งอีเมล เราขอแนะนำให้คุณเพิ่มคู่คำถาม-คำตอบในหมวดหมู่และภาษาใดก็ได้
SSRN พิมพ์ล่วงหน้า:
@misc{BorjiMohammadianWordsmiths,
author = {Borji, Ali and Mohammadian, Mehrdad},
year = {2023},
month = {06},
pages = {},
title = { Battle of the Wordsmiths : Comparing ChatGPT, GPT-4, Claude, and Bard},
journal = {SSRN Electronic Journal},
doi = {10.2139/ssrn.4476855}
}
ใบอนุญาตสาธารณะทั่วไปของ GNU v3.0