Пекинский научно-исследовательский институт искусственного интеллекта Чжиюань (BAAI) 4 сентября 2024 года запустил большую модельную арену FlagEval. Это первая в мире служба оценки боевых моделей, включающая видео Винсента. Услуга открыта для публики и охватывает около 40 крупных моделей в стране и за рубежом. Она поддерживает индивидуальную онлайн- или офлайн-оценку четырех основных задач: языковые вопросы и ответы, мультимодальное понимание изображений и текста, текстовые изображения и текст. на основе видео и инновационно вводит субъективные оценки. Предпочитает лестничную систему оценок и стремится более точно оценить эффективность модели. FlagEval не только обеспечивает оценку множества заранее заданных вопросов, таких как простое понимание, применение знаний, способность кодировать, способность рассуждать и т. д., но также использует анонимный механизм для обеспечения справедливости и объективности процесса оценки. Пользователи могут участвовать в оценке через веб-интерфейс или мобильный терминал, а также просматривать результаты подсчета очков и рейтинги арен в режиме реального времени.
4 сентября 2024 года Пекинский научно-исследовательский институт искусственного интеллекта Чжиюань (BAAI) объявил о запуске первой в мире службы оценки боевых моделей, включая большую модельную арену Винсента Video-FlagEval.
Эта услуга открыта для пользователей, охватывает около 40 крупных моделей в стране и за рубежом и поддерживает индивидуальную онлайн- или офлайн-оценку четырех основных задач, включая языковые вопросы и ответы, мультимодальное понимание изображений и текста, винсентийские изображения и винсентийские видео. Запуск большой модельной арены FlagEval не только обеспечивает оценку множества заранее заданных вопросов, таких как простое понимание, применение знаний, способность кодировать, способность рассуждать и т. д., но также впервые вводит систему оценки субъективных тенденций для более точно выявить различия в производительности моделей.
Служба использует анонимный механизм оценки, чтобы обеспечить справедливость процесса оценки. Пользователи могут участвовать в оценке через веб-страницу или первый отечественный портал мобильного доступа и испытать эффективную оценку битвы за модель. Результаты подсчета очков на крупномасштабной модели арены FlagEval будут объявлены немедленно, чтобы сформировать список арен, показывающий боевые возможности каждой модели.
Научно-исследовательский институт Чжиюань заявил, что он откроет исходные данные полной ссылки на оценку боевых моделей, чтобы способствовать развитию экологии оценки больших моделей. Запуск крупномасштабной модельной арены FlagEval еще больше расширяет техническую структуру Zhiyuan, а также исследования и разработки инструментов и методов в области оценки моделей, а также предоставляет новые инструменты тестирования и оценки для исследований и приложений в области искусственного интеллекта.
Адрес опыта: https://flageval.baai.ac.cn/#/home
Данные большой модели FlagEval с открытым исходным кодом Исследовательского института Чжиюань призваны способствовать здоровому развитию экосистемы оценки больших моделей и оказывать мощную поддержку дальнейшему прогрессу в области искусственного интеллекта. Приглашаем посетить адрес опыта, принять участие в оценке и совместно способствовать развитию технологий искусственного интеллекта!