z bench تحميل - z bench تحميل كود المصدر

z bench

كود الذكاء الاصطناعي

1.0.0

تنزيل

Z-Bench 1.0 من ZhenFund

مجموعة اختبار صينية لنموذج اللغة الكبيرة من Muggle

مجموعة البيانات

نسخة وثيقة تينسنت

https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX

نسخة CSV

القدرات الأساسية : common.samples.csv
الإمكانيات المتقدمة : Emerent.samples.csv
القدرات العمودية : Special.samples.csv

مقدمة

منذ إصدار ChatGPT، غالبًا ما نصرخ عند استخدامه: "آه، يمكنه بالفعل الإجابة على هذا!" وفي الوقت نفسه، يسعدنا أيضًا أن نرى ظهور المزيد والمزيد من فرق النماذج والمنتجات الكبيرة.

باعتبارنا مستثمرين مبكرين، غالبًا ما نحتاج إلى تجربة وتقييم منتجات الذكاء الاصطناعي للمحادثة التي تم إصدارها حديثًا، والطريقة الأكثر شيوعًا هي مقارنتها بشكل حدسي بنتائج ChatGPT الشهيرة من خلال بعض المطالبات. في هذه العملية، قمنا تدريجيًا بتسجيل بعض المشكلات التي لا تستطيع النماذج اللغوية الكبيرة التعامل معها حاليًا بشكل جيد، بالإضافة إلى العديد من المطالبات المثيرة للاهتمام.

إذن، ما هي المطالبات التي نستخدمها للاختبار؟ وقد أظهرت OpenAI 48 إمكانات أساسية لـ ChatGPT على موقعها الرسمي على الإنترنت. وفي مجال البرمجة اللغوية العصبية، فقد استخدمت أيضًا مجموعات اختبار مستخدمة على نطاق واسع مثل SuperGLUE، وMMLU، وGoogle BIG-bench. وفي الوقت نفسه، وبالنظر إلى ظهور قدرات جديدة في نماذج كبيرة مع زيادة المعلمات وحجم البيانات، فإن مجموعات الاختبار المتعلقة بهذه القدرات الجديدة آخذة في الازدياد أيضًا.

ومع ذلك، من خلال الممارسة، وجدنا أن مجموعة اختبار مهمة البرمجة اللغوية العصبية الحالية بها المشكلات التالية:

قد لا تكون بعض المهام مناسبة لأنظمة المحادثة، وقد لا تحتوي بعض المهام بالضرورة على نسخة صينية جيدة؛
نظرًا لأن مجموعات الاختبار هذه أصبحت معايير صناعية، فقد يحدث التحسين الموجه والتجهيز الزائد؛
غالبًا ما تتطلب مجموعات الاختبار هذه نشر اختبارات تلقائية وليست مناسبة لغير المتخصصين لاستخدامها في الأسئلة والأجوبة اليومية.

لذلك، العديد منا، VC Muggles، كمستخدمين كثيفين للذكاء الاصطناعي للمحادثة، بناءً على احتياجاتنا الخاصة، قمنا بتلخيص وإطلاق "Z-Bench" - وهي أداة للموظفين غير التقنيين لاختبار نوعي لمنتجات المحادثة كبيرة الحجم (منتجات شبيهة بـ ChatGPT) مجموعة اختبار).

يوفر "Z-Bench v1.0" إجمالي 300 مطالبة من ثلاث وجهات نظر: القدرات الأساسية، والقدرات المتقدمة، والقدرات الرأسية. نقطة البداية لدينا هي تغطية أكبر عدد ممكن من أنواع مهام البرمجة اللغوية العصبية. هدفنا ليس توفير مجموعة اختبارات صارمة وكاملة أكاديميًا، ولكن الجمع بين مجموعات الاختبارات الأكاديمية الحالية، وبعض الحالات المثيرة للاهتمام التي يتم جمعها يوميًا، وإمكانيات الظهور والإظهار التي اكتشفها المجتمع الأكاديمي بعد ظهور نماذج كبيرة، توفر مجموعة كبيرة من الاختبارات مجموعة اختبار الكفاءة النموذجية مناسبة للاستخدام من قبل المتخصصين غير التقنيين. ومع ذلك، سنفتقد حتماً بعض المشاهد، أو سيكون هناك الكثير من محتوى الهواة من منظور احترافي، وفي المستقبل، سنستمر في استكماله وتحسينه بناءً على التعليقات التي نجمعها، وننشره في الوقت المناسب.