بواسطة علي برجي، مهرداد محمديان
بوابة الأبحاث: الرابط
على الرغم من أنه يمكن العثور على تقييمات غير رسمية لماجستير القانون الحديث على وسائل التواصل الاجتماعي والمدونات والمنافذ الإخبارية، إلا أنه لم يتم إجراء مقارنة رسمية وشاملة فيما بينها بعد. واستجابة لهذه الفجوة، قمنا بإجراء تقييم مرجعي واسع النطاق لبرامج LLM وروبوتات المحادثة. تضمن تقييمنا مجموعة من 1002 سؤال تشمل 27 فئة، والتي نشير إليها باسم "مجموعة بيانات صانعي الكلمات". تتضمن هذه الفئات الاستدلال والمنطق والحقائق والترميز والتحيز واللغة والفكاهة والمزيد. يكون كل سؤال في مجموعة البيانات مصحوبًا بإجابة دقيقة ومؤكدة. قمنا بتقييم دقيق لأربعة من روبوتات الدردشة الرائدة: ChatGPT، وGPT-4، وBard، وClaude، باستخدام مجموعة البيانات هذه. كشفت نتائج تقييمنا عن النتائج الرئيسية التالية: أ) برز GPT-4 كروبوت الدردشة الأفضل أداءً في جميع الفئات، محققًا معدل نجاح قدره 84.1%. في المقابل، واجه بارد تحديات وحقق نسبة نجاح بلغت 62.4%. ب) من بين النماذج الأربعة التي تم تقييمها، أجاب أحدهم بشكل صحيح بنسبة 93٪ تقريبًا من الوقت. ومع ذلك، كانت جميع النماذج صحيحة بنسبة 44% فقط. ج) Bard أقل ارتباطًا بالنماذج الأخرى بينما يرتبط ChatGPT وGPT-4 بشكل كبير من حيث استجاباتهم. د) أظهرت Chatbots الكفاءة في فهم اللغة والحقائق والوعي الذاتي. ومع ذلك، فقد واجهوا صعوبات في مجالات مثل الرياضيات والبرمجة ومعدل الذكاء والاستدلال. هـ) فيما يتعلق بالتحيز والتمييز والفئات الأخلاقية، كان أداء النماذج جيدًا بشكل عام، مما يشير إلى أنها آمنة نسبيًا للاستخدام. لتسهيل تقييمات النماذج المستقبلية على مجموعة البيانات الخاصة بنا، نقدم أيضًا نسخة متعددة الاختيارات منها (تسمى Wordsmiths-MCQ). إن فهم وتقييم قدرات وحدود برامج الدردشة الحديثة يحمل آثارًا مجتمعية هائلة. وفي محاولة لتعزيز المزيد من الأبحاث في هذا المجال، جعلنا مجموعة البيانات الخاصة بنا متاحة للوصول العام، والتي يمكن العثور عليها في Wordsmiths.
ليتم الإعلان عنها
في المجمل، تحتوي مجموعة البيانات لدينا على 1002 زوجًا من الأسئلة والأجوبة . هناك 27 فئة يمكن استخدامها لتقييم القدرات الرئيسية والمهمة لنماذج اللغة الكبيرة. والشكل أدناه يوضح عدد الأسئلة لكل فئة.
للوصول إلى مجموعة البيانات، راجع مجلد البيانات أو قم بتنزيل مجموعة البيانات من قسم الإصدار. يتم توفير كل من تنسيقات json
و csv
لجميع الفئات، ويمكنك استخدامها بناءً على حاجتك. بالنسبة لتلك الفئات/الأسئلة التي لا تتطلب إجابة، يتم استبدال "NONE" كإجابة.
إذا كنت مهتمًا بالمساهمة في توسيع مجموعة البيانات المقترحة، فيرجى فتح مشكلة أو إرسال بريد إلكتروني فقط. نحن نشجعك على إضافة أزواج الأسئلة والأجوبة الخاصة بك في أي فئة ولغة.
طبعة SSRN المسبقة:
@misc{BorjiMohammadianWordsmiths,
author = {Borji, Ali and Mohammadian, Mehrdad},
year = {2023},
month = {06},
pages = {},
title = { Battle of the Wordsmiths : Comparing ChatGPT, GPT-4, Claude, and Bard},
journal = {SSRN Electronic Journal},
doi = {10.2139/ssrn.4476855}
}
رخصة جنو العامة v3.0