خضعت منصة تقييم النماذج الكبيرة CompassArena التي أطلقها فريق OpenCompass التابع لمختبر شنغهاي للذكاء الاصطناعي Sinan ومنصة ModelScope مؤخرًا لترقية كبيرة. تهدف هذه الترقية إلى تحسين تجربة المستخدم وتوفير المزيد من التقييم العلمي والشامل للنموذج. من خلال جمع كمية كبيرة من بيانات المستخدم وتحسينها باستمرار، أضافت CompassArena وظيفة القاضي مساعد الطيار، وحسّنت خوارزمية التصنيف، وأدمجت أكثر من 20 نموذجًا جديدًا، تغطي نماذج الأعمال المحلية والأجنبية ونماذج مفتوحة المصدر، لتزويد المستخدمين بمعلومات أكثر ثراءً خيارات وتصنيف نموذجي أفضل.
تستخدم وظيفة القاضي مساعد الطيار نموذج التقييم القوي Compass-Judger-1-32B-Instruct لتزويد المستخدمين بالقدرة على مقارنة وتحليل أداء نماذج الحوار بشكل شامل، بدءًا من التقييم متعدد الأبعاد والمقارنة في الوقت الفعلي وحتى اتخاذ القرار الذكي. المساعدة لتحسين كفاءة التقييم ودقته. وفي الوقت نفسه، تعمل خوارزمية التصنيف المحسنة على تقليل تأثير العوامل المربكة بشكل فعال من خلال تحسين خوارزمية برادلي-تيري الإحصائية وإدخال متغيرات التحكم، مما يجعل تصنيف النموذج أكثر علمية ودقة. تقوم المنصة أيضًا بجمع تعليقات المستخدمين بشكل نشط من أجل التحسين المستمر للقدرات الشاملة وتأثيرات المواءمة لنموذج القاضي.
تعلق CompassArena أهمية كبيرة على أداء نموذج القاضي في التطبيقات العملية وتجمع تعليقات المستخدمين بنشاط لزيادة تحسين القدرات الشاملة وتأثيرات المواءمة لنموذج القاضي. يمكن للمستخدمين التعبير عن تقييمهم لنموذج القاضي من خلال النقر على الزرين "أعجبني" و"لم يعجبني". من خلال تركيب نموذج برادلي-تيري الإحصائي الذي يتضمن متغيرات التحكم، يمكن لـ CompassArena تقدير تأثير العديد من العوامل الخارجية ويمكن التعبير عن التأثير المحدد في شكل نسب الأرجحية.
مع هذه الترقية، ترحب CompassArena بنماذج الأعمال المحلية بما في ذلك 360gpt2-pro، وdeep-seek-v2.5-chat، وdoubao-pro-32k-240828، بالإضافة إلى claude-3.5-sonnet-20241022، وgemini-exp-1121، وما إلى ذلك. إضافة نماذج الأعمال الأجنبية وسلسلة من النماذج مفتوحة المصدر. تنتمي النماذج الجديدة إلى مؤسسات بما في ذلك 360 وDeepSeek وDoubao وما إلى ذلك، مما يوفر للمستخدمين خيارات معركة أكثر ثراءً.
عنوان التجربة: https://www.modelscope.cn/studios/opencompass/CompassArena
لا تعمل ترقية CompassArena هذه على تحسين الجانب العلمي والدقة في تقييم النماذج فحسب، بل توفر أيضًا للمستخدمين خيارات أكثر ثراءً للنماذج وتجربة أكثر ملاءمة، مما يمثل مرحلة جديدة لمنصة تقييم النماذج الكبيرة. مرحبًا بكم في زيارة عنوان التجربة والمشاركة في تقييم النموذج والترويج المشترك لتطوير تكنولوجيا النماذج الكبيرة.