أطلق معهد بكين تشي يوان لأبحاث الذكاء الاصطناعي (BAAI) ساحة نموذج FlagEval الكبيرة في 4 سبتمبر 2024. وهذه هي أول خدمة لتقييم المعارك النموذجية في العالم تتضمن مقاطع فيديو لفينسنت. الخدمة مفتوحة للجمهور وتغطي حوالي 40 نموذجًا كبيرًا في الداخل والخارج، وهي تدعم التقييم المخصص عبر الإنترنت أو دون الاتصال بالإنترنت لأربع مهام رئيسية: سؤال وجواب اللغة، وفهم الصور والنصوص متعدد الوسائط، والصور المستندة إلى النص، والنص. مقاطع فيديو قائمة على أساس مبتكر، وتقدم بشكل مبتكر تفضيلات ذاتية لنظام تسجيل السلم وتسعى جاهدة لتقييم أداء النموذج بشكل أكثر دقة. لا يوفر FlagEval تقييمًا لمجموعة متنوعة من الأسئلة المحددة مسبقًا مثل الفهم البسيط وتطبيق المعرفة والقدرة على الترميز والقدرة على التفكير وما إلى ذلك، ولكنه يستخدم أيضًا آلية مجهولة لضمان عدالة وموضوعية عملية التقييم. يمكن للمستخدمين المشاركة في التقييم من خلال شبكة الإنترنت أو محطة الهاتف المحمول، وعرض نتائج التسجيل وتصنيفات الساحة في الوقت الحقيقي.
في 4 سبتمبر 2024، أعلن معهد بكين تشييوان لأبحاث الذكاء الاصطناعي (BAAI) عن إطلاق أول خدمة نموذجية لتقييم المعارك في العالم بما في ذلك ساحة نموذج الفيديو الكبير FlagEval الخاصة بفينسنت.
هذه الخدمة مفتوحة للمستخدمين، وتغطي حوالي 40 نموذجًا كبيرًا في الداخل والخارج، وتدعم التقييم المخصص عبر الإنترنت أو دون الاتصال بالإنترنت لأربع مهام رئيسية، بما في ذلك الأسئلة اللغوية والأجوبة، وفهم الصور والنصوص متعددة الوسائط، والصور الفينسنتية، ومقاطع الفيديو الفنسنتية. إن إطلاق ساحة النموذج الكبير FlagEval لا يوفر فقط تقييمًا لمجموعة متنوعة من الأسئلة المحددة مسبقًا مثل الفهم البسيط، وتطبيق المعرفة، والقدرة على البرمجة، والقدرة على التفكير، وما إلى ذلك، ولكنه يقدم أيضًا نظام تسجيل سلم الاتجاه الشخصي لأول مرة لمزيد من المعلومات. تكشف بدقة عن اختلافات أداء النموذج.
تعتمد الخدمة آلية مجهولة للتقييم لضمان عدالة عملية التقييم. يمكن للمستخدمين المشاركة في التقييم من خلال صفحة الويب أو أول بوابة محلية للوصول عبر الهاتف المحمول وتجربة تقييم فعال للمعركة النموذجية. سيتم الإعلان عن نتائج التسجيل لساحة النماذج واسعة النطاق من FlagEval على الفور لتشكيل قائمة ساحة توضح القدرات القتالية لكل نموذج.
صرح معهد Zhiyuan للأبحاث أنه سيفتح المصدر لبيانات الارتباط الكامل لتقييم المعركة النموذجية لتعزيز تطوير بيئة تقييم النماذج الكبيرة. يؤدي إطلاق ساحة نموذج FlagEval واسعة النطاق إلى توسيع التخطيط الفني لشركة Zhiyuan والبحث وتطوير الأدوات والأساليب في مجال تقييم النماذج، ويوفر أدوات اختبار وتقييم جديدة للبحث والتطبيق في مجال الذكاء الاصطناعي.
عنوان التجربة: https://flageval.baai.ac.cn/#/home
تهدف بيانات ساحة النماذج الكبيرة FlagEval مفتوحة المصدر التابعة لمعهد Zhiyuan للأبحاث إلى تعزيز التنمية الصحية للنظام البيئي لتقييم النماذج الكبيرة وتوفير دعم قوي للتقدم المستمر في مجال الذكاء الاصطناعي. مرحبًا بكم في زيارة عنوان التجربة والمشاركة في التقييم والترويج المشترك لتطوير تكنولوجيا الذكاء الاصطناعي!