مجموعة اختبار صينية لنموذج اللغة الكبيرة من Muggle
https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX
منذ إصدار ChatGPT، غالبًا ما نصرخ عند استخدامه: "آه، يمكنه بالفعل الإجابة على هذا!" وفي الوقت نفسه، يسعدنا أيضًا أن نرى ظهور المزيد والمزيد من فرق النماذج والمنتجات الكبيرة.
باعتبارنا مستثمرين مبكرين، غالبًا ما نحتاج إلى تجربة وتقييم منتجات الذكاء الاصطناعي للمحادثة التي تم إصدارها حديثًا، والطريقة الأكثر شيوعًا هي مقارنتها بشكل حدسي بنتائج ChatGPT الشهيرة من خلال بعض المطالبات. في هذه العملية، قمنا تدريجيًا بتسجيل بعض المشكلات التي لا تستطيع النماذج اللغوية الكبيرة التعامل معها حاليًا بشكل جيد، بالإضافة إلى العديد من المطالبات المثيرة للاهتمام.
إذن، ما هي المطالبات التي نستخدمها للاختبار؟ وقد أظهرت OpenAI 48 إمكانات أساسية لـ ChatGPT على موقعها الرسمي على الإنترنت. وفي مجال البرمجة اللغوية العصبية، فقد استخدمت أيضًا مجموعات اختبار مستخدمة على نطاق واسع مثل SuperGLUE، وMMLU، وGoogle BIG-bench. وفي الوقت نفسه، وبالنظر إلى ظهور قدرات جديدة في نماذج كبيرة مع زيادة المعلمات وحجم البيانات، فإن مجموعات الاختبار المتعلقة بهذه القدرات الجديدة آخذة في الازدياد أيضًا.
ومع ذلك، من خلال الممارسة، وجدنا أن مجموعة اختبار مهمة البرمجة اللغوية العصبية الحالية بها المشكلات التالية:
لذلك، العديد منا، VC Muggles، كمستخدمين كثيفين للذكاء الاصطناعي للمحادثة، بناءً على احتياجاتنا الخاصة، قمنا بتلخيص وإطلاق "Z-Bench" - وهي أداة للموظفين غير التقنيين لاختبار نوعي لمنتجات المحادثة كبيرة الحجم (منتجات شبيهة بـ ChatGPT) مجموعة اختبار).
يوفر "Z-Bench v1.0" إجمالي 300 مطالبة من ثلاث وجهات نظر: القدرات الأساسية، والقدرات المتقدمة، والقدرات الرأسية. نقطة البداية لدينا هي تغطية أكبر عدد ممكن من أنواع مهام البرمجة اللغوية العصبية. هدفنا ليس توفير مجموعة اختبارات صارمة وكاملة أكاديميًا، ولكن الجمع بين مجموعات الاختبارات الأكاديمية الحالية، وبعض الحالات المثيرة للاهتمام التي يتم جمعها يوميًا، وإمكانيات الظهور والإظهار التي اكتشفها المجتمع الأكاديمي بعد ظهور نماذج كبيرة، توفر مجموعة كبيرة من الاختبارات مجموعة اختبار الكفاءة النموذجية مناسبة للاستخدام من قبل المتخصصين غير التقنيين. ومع ذلك، سنفتقد حتماً بعض المشاهد، أو سيكون هناك الكثير من محتوى الهواة من منظور احترافي، وفي المستقبل، سنستمر في استكماله وتحسينه بناءً على التعليقات التي نجمعها، وننشره في الوقت المناسب.
© 2023 صندوق زين