Battle of the Wordsmiths تحميل - Battle of the Wordsmiths تنزيل كود المصدر

Battle of the Wordsmiths

كود الذكاء الاصطناعي

1.0.0

تنزيل

Battle of the Wordsmiths : مقارنة ChatGPT، وGPT-4، وكلود، وبارد (مجموعة البيانات)

بواسطة علي برجي، مهرداد محمديان

بوابة الأبحاث: الرابط

خلاصة

على الرغم من أنه يمكن العثور على تقييمات غير رسمية لماجستير القانون الحديث على وسائل التواصل الاجتماعي والمدونات والمنافذ الإخبارية، إلا أنه لم يتم إجراء مقارنة رسمية وشاملة فيما بينها بعد. واستجابة لهذه الفجوة، قمنا بإجراء تقييم مرجعي واسع النطاق لبرامج LLM وروبوتات المحادثة. تضمن تقييمنا مجموعة من 1002 سؤال تشمل 27 فئة، والتي نشير إليها باسم "مجموعة بيانات صانعي الكلمات". تتضمن هذه الفئات الاستدلال والمنطق والحقائق والترميز والتحيز واللغة والفكاهة والمزيد. يكون كل سؤال في مجموعة البيانات مصحوبًا بإجابة دقيقة ومؤكدة. قمنا بتقييم دقيق لأربعة من روبوتات الدردشة الرائدة: ChatGPT، وGPT-4، وBard، وClaude، باستخدام مجموعة البيانات هذه. كشفت نتائج تقييمنا عن النتائج الرئيسية التالية: أ) برز GPT-4 كروبوت الدردشة الأفضل أداءً في جميع الفئات، محققًا معدل نجاح قدره 84.1%. في المقابل، واجه بارد تحديات وحقق نسبة نجاح بلغت 62.4%. ب) من بين النماذج الأربعة التي تم تقييمها، أجاب أحدهم بشكل صحيح بنسبة 93٪ تقريبًا من الوقت. ومع ذلك، كانت جميع النماذج صحيحة بنسبة 44% فقط. ج) Bard أقل ارتباطًا بالنماذج الأخرى بينما يرتبط ChatGPT وGPT-4 بشكل كبير من حيث استجاباتهم. د) أظهرت Chatbots الكفاءة في فهم اللغة والحقائق والوعي الذاتي. ومع ذلك، فقد واجهوا صعوبات في مجالات مثل الرياضيات والبرمجة ومعدل الذكاء والاستدلال. هـ) فيما يتعلق بالتحيز والتمييز والفئات الأخلاقية، كان أداء النماذج جيدًا بشكل عام، مما يشير إلى أنها آمنة نسبيًا للاستخدام. لتسهيل تقييمات النماذج المستقبلية على مجموعة البيانات الخاصة بنا، نقدم أيضًا نسخة متعددة الاختيارات منها (تسمى Wordsmiths-MCQ). إن فهم وتقييم قدرات وحدود برامج الدردشة الحديثة يحمل آثارًا مجتمعية هائلة. وفي محاولة لتعزيز المزيد من الأبحاث في هذا المجال، جعلنا مجموعة البيانات الخاصة بنا متاحة للوصول العام، والتي يمكن العثور عليها في Wordsmiths.

نتائج

ليتم الإعلان عنها

حول مجموعة البيانات

في المجمل، تحتوي مجموعة البيانات لدينا على 1002 زوجًا من الأسئلة والأجوبة . هناك 27 فئة يمكن استخدامها لتقييم القدرات الرئيسية والمهمة لنماذج اللغة الكبيرة. والشكل أدناه يوضح عدد الأسئلة لكل فئة.

تحميل

للوصول إلى مجموعة البيانات، راجع مجلد البيانات أو قم بتنزيل مجموعة البيانات من قسم الإصدار. يتم توفير كل من تنسيقات json و csv لجميع الفئات، ويمكنك استخدامها بناءً على حاجتك. بالنسبة لتلك الفئات/الأسئلة التي لا تتطلب إجابة، يتم استبدال "NONE" كإجابة.

صانعو الكلمات
Wordsmiths-MCQ (أسئلة الاختيار من متعدد)
تجميع الأسئلة حسب الصعوبة

مساهمة

إذا كنت مهتمًا بالمساهمة في توسيع مجموعة البيانات المقترحة، فيرجى فتح مشكلة أو إرسال بريد إلكتروني فقط. نحن نشجعك على إضافة أزواج الأسئلة والأجوبة الخاصة بك في أي فئة ولغة.

الاقتباس

طبعة SSRN المسبقة:

Battle of the Wordsmiths: Comparing ChatGPT, GPT-4, Claude, and Bard}, journal = {SSRN Electronic Journal}, doi = {10.2139/ssrn.4476855} }">

 @misc{BorjiMohammadianWordsmiths,
author = {Borji, Ali and Mohammadian, Mehrdad},
year = {2023},
month = {06},
pages = {},
title = { Battle of the Wordsmiths : Comparing ChatGPT, GPT-4, Claude, and Bard},
journal = {SSRN Electronic Journal},
doi = {10.2139/ssrn.4476855}
}