Скачать awesome foundation model leaderboards - awesome foundation model leaderboards Скачать исходный код

Потрясающая таблица лидеров модели Foundation

Таблица лидеров Awesome Foundation Model — это тщательно подобранный список таблиц лидеров потрясающих моделей Foundation (что такое таблица лидеров, пожалуйста, обратитесь к этому руководству), а также различные инструменты разработки и организации, занимающиеся оценкой, согласно нашему опросу:

О рабочих процессах и особенностях операций с таблицами лидеров (LBOps):
Предварительное исследование таблиц лидеров модели Foundation

Чимин (Джимми) Чжао, Абдул Али Бангаш, Филипе Розейру Кого, Брэм Адамс, Ахмед Э. Хассан

Лаборатория программного анализа и аналитики (SAIL)

Если вы найдете этот репозиторий полезным, поставьте нам звездочку и цитируйте:

 @article{zhao2024workflows,
  title={On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards},
  author={Zhao, Zhimin and Bangash, Abdul Ali and C{^o}go, Filipe Roseiro and Adams, Bram and Hassan, Ahmed E},
  journal={arXiv preprint arXiv:2407.04065},
  year={2024}
}

Кроме того, мы предоставляем набор инструментов поиска, который поможет вам быстро перемещаться по таблицам лидеров.

Если вы хотите внести свой вклад в этот список (пожалуйста, сделайте это), пожалуйста, предложите запрос на включение.

Если у вас есть какие-либо предложения, критические замечания или вопросы относительно этого списка, добро пожаловать, чтобы поднять проблему.

Кроме того, таблицу лидеров следует включать только в том случае, если:

Он активно поддерживается.
Это связано с моделями фундаментов.

Инструменты
Проблемы
Рейтинги
- Рейтинг моделей
  - Всесторонний
  - Текст
  - Изображение
  - Код
  - Видео
  - Математика
  - Агент
  - Аудио
  - 3D
  - Мультимодальный
- Рейтинг базы данных
- Рейтинг набора данных
- Метрический рейтинг
- Бумажный рейтинг
- Рейтинг лидеров

Инструменты

Имя	Описание
Демо-таблица лидеров	Демонстрационная таблица лидеров помогает пользователям легко развертывать свои таблицы лидеров с помощью стандартизированного шаблона.
Демо-версия таблицы лидеров	Серверная часть демо-таблицы лидеров помогает пользователям управлять таблицей лидеров и обрабатывать запросы на отправку. Подробности можно узнать здесь.
Создание соревнований Kaggle	Kaggle Competition Creation позволяет вам разрабатывать и запускать индивидуальные соревнования, используя ваши наборы данных для привлечения сообщества специалистов по обработке и анализу данных.
Обозреватель таблицы лидеров	Leaderboard Explorer помогает пользователям перемещаться по разнообразным таблицам лидеров, доступным на Hugging Face Spaces.
Открыть программу переименования таблицы лидеров LLM	open-llm-leaderboard-renamer помогает пользователям легко переименовывать свои модели в таблице лидеров Open LLM.
Открытие результатов таблицы лидеров LLM Открытие PR	Результаты Open LLM Leaderboard PR Opener помогает пользователям демонстрировать результаты Open LLM Leaderboard на карточках моделей.
Открыть парсер таблицы лидеров LLM	Open LLM Leaderboard Scraper помогает пользователям собирать и экспортировать данные из Open LLM Leaderboard.
Трекер прогресса	Это приложение визуализирует прогресс проприетарных программ LLM и программ LLM с открытым исходным кодом с течением времени по оценкам LMSYS Chatbot Arena.

Проблемы

Имя	Описание
AIcrowd	AIcrowd проводит соревнования и соревнования по машинному обучению в таких областях, как компьютерное зрение, НЛП и обучение с подкреплением, предназначенные как для исследователей, так и для практиков.
Центр искусственного интеллекта	AI Hub предлагает различные конкурсы, призванные поощрять решения реальных проблем с помощью ИИ, уделяя особое внимание инновациям и сотрудничеству.
ИИ-студия	AI Studio предлагает соревнования по искусственному интеллекту в основном по компьютерному зрению, НЛП и другим задачам, связанным с данными, что позволяет пользователям развивать и демонстрировать свои навыки искусственного интеллекта.
Алленский институт искусственного интеллекта	Институт Аллена по искусственному интеллекту предоставляет списки лидеров и тесты по задачам в области понимания естественного языка, здравого смысла и других областей исследований в области искусственного интеллекта.
Кодабенч	Codabench — это платформа с открытым исходным кодом для сравнительного анализа моделей ИИ, позволяющая решать настраиваемые задачи, определяемые пользователем, в различных областях ИИ.
Фонтан данных	DataFountain — это китайская платформа для соревнований по искусственному интеллекту, посвященная проблемам в области финансов, здравоохранения и умных городов, предлагающая решения отраслевых проблем.
Управляемые данные	DrivenData решает задачи машинного обучения, имеющие социальное значение, стремясь решить проблемы в таких областях, как общественное здравоохранение, помощь при стихийных бедствиях и устойчивое развитие.
Динабенч	Dynabench предлагает динамические тесты, в ходе которых модели оцениваются непрерывно, часто с участием человека, чтобы обеспечить надежность в развивающихся задачах ИИ.
Оценочный ИИ	EvalAI — это платформа для размещения и участия в задачах искусственного интеллекта, широко используемая исследователями для сравнительного анализа моделей в таких задачах, как классификация изображений, НЛП и обучение с подкреплением.
Гранд вызов	Grand Challenge предоставляет платформу для решения задач медицинской визуализации, поддерживая достижения в области медицинского искусственного интеллекта, особенно в таких областях, как радиология и патология.
Хилти	Hilti проводит мероприятия, направленные на развитие искусственного интеллекта и машинного обучения в строительной отрасли, уделяя особое внимание практическим, актуальным для отрасли приложениям.
InsightFace	InsightFace фокусируется на проблемах искусственного интеллекта, связанных с распознаванием, проверкой и анализом лиц, поддерживая достижения в области проверки личности и безопасности.
Каггл	Kaggle — одна из крупнейших платформ для соревнований по науке о данных и машинному обучению, охватывающая широкий спектр тем: от классификации изображений до НЛП и прогнозного моделирования.
nuScenes	nuScenes позволяет исследователям изучать сложные ситуации вождения в городских условиях, используя полный набор датчиков настоящего беспилотного автомобиля, что облегчает исследования в области автономного вождения.
Надежный конкурс по чтению	Надежное чтение относится к области исследований по интерпретации письменной коммуникации в неограниченных условиях, при этом соревнования сосредоточены на распознавании текста в реальных условиях.
Тяньчи	Tianchi, организованный Alibaba, предлагает ряд соревнований по искусственному интеллекту, особенно популярных в Азии, с упором на торговлю, здравоохранение и логистику.

Рейтинги

Рейтинг моделей

Всесторонний

Имя	Описание
Искусственный анализ	Искусственный анализ — это платформа, которая помогает пользователям принимать обоснованные решения по выбору модели ИИ и хостинг-провайдера.
КомпасРанг	CompassRank — это платформа, предлагающая комплексную, объективную и нейтральную оценку базовых программ для промышленности и исследований.
ФлагEval	FlagEval — это комплексная платформа для оценки моделей фундаментов.
Таблицы лидеров генеративного ИИ	Таблица лидеров генеративного ИИ оценивает самые эффективные модели генеративного ИИ на основе различных показателей.
Целостная оценка языковых моделей	Комплексная оценка языковых моделей (HELM) — это воспроизводимая и прозрачная структура для оценки базовых моделей.
Документы с кодом	Papers With Code предоставляет таблицы лидеров и тесты с открытым исходным кодом, связывая исследовательские работы в области ИИ с кодом, чтобы повысить прозрачность и воспроизводимость в машинном обучении.
СуперКЛЮ	SuperCLUE — это серия тестов для оценки китайских моделей фундаментов.
Таблица лидеров Vellum LLM	Таблица лидеров Vellum LLM показывает сравнение возможностей, цен и контекста ведущих коммерческих LLM и LLM с открытым исходным кодом.

Текст

Имя	Описание
АКЛЮЭ	ACLUE — это тест для оценки понимания древнего китайского языка.
Таблица лидеров оценки LLM по африканским языкам	Таблица лидеров оценки LLM по африканским языкам отслеживает прогресс и оценивает результаты LLM по африканским языкам.
Совет агентов	AgentBoard — это эталон для многоходовых агентов LLM, дополненный аналитической оценочной платой для детальной оценки модели, выходящей за рамки окончательных показателей успеха.
AGIEval	AGIEval — это ориентированный на человека тест для оценки общих способностей базовых моделей в задачах, связанных с человеческим познанием и решением проблем.
Таблица лидеров Айеры	Таблица лидеров Aiera оценивает эффективность LLM по задачам финансовой разведки, включая назначение докладчиков, идентификацию смены докладчиков, абстрактные обобщения, вопросы и ответы на основе расчетов и маркировку финансовых настроений.
АИР-Скамейка	AIR-Bench — это эталон для оценки возможностей языковых моделей по поиску разнородной информации.
Таблица лидеров по показателям энергии ИИ	Таблица лидеров AI Energy Score отслеживает и сравнивает различные модели энергоэффективности.
AI-тесты	ai-benchmarks содержит несколько результатов оценки задержки ответа популярных сервисов искусственного интеллекта.
AlignBench	AlignBench — это многомерный тест для оценки соответствия LLM на китайском языке.
АльпакаЭвал	AlpacaEval — это автоматический оценщик, разработанный для программ LLM, выполняющих инструкции.
АНГО	ANGO — это эталон оценки модели китайского языка, ориентированный на поколение.
Таблица лидеров арабских токенизаторов	Таблица лидеров токенизаторов арабского языка сравнивает эффективность LLM при анализе арабского языка в его различных диалектах и формах.
Арена-Хард-Авто	Arena-Hard-Auto — это эталон для LLM, настроенных на инструкции.
АвтоГонка	AutoRace фокусируется на прямой оценке цепочек рассуждений LLM с помощью метрики AutoRace (автоматическая оценка цепочки рассуждений).
Авто Арена	Auto Arena — это тест, в котором агенты различных языковых моделей участвуют в битвах между коллегами, чтобы оценить свою эффективность.
Авто-J	Auto-J хранит результаты оценки по задачам попарного сравнения ответов и генерации критических замечаний.
БАБИЛонг	BABILong — это тест для оценки производительности языковых моделей при обработке документов произвольной длины с распределенными фактами.
ББЛ	BBL (BIG-bench Lite) — это небольшая подгруппа из 24 разнообразных задач JSON из BIG-bench. Он предназначен для обеспечения канонического измерения производительности модели, но при этом его гораздо дешевле оценивать, чем полный набор из более чем 200 программных задач и задач JSON в BIG-bench.
Будьте честным	BeHonest — это эталон для оценки честности — осознания границ знаний (самопознание), избегания обмана (необманчивости) и последовательности в ответах (последовательность) — в LLM.
Бенбенч	BenBench — это эталон для оценки степени, в которой LLM проводят дословное обучение на обучающем наборе эталонного набора, а не на тестовом наборе для расширения возможностей.
БенЧешМарк	BenCzechMark (BCM) — это многозадачный и многометрический тест чешского языка для студентов LLM с уникальной системой оценок, использующей теорию статистической значимости.
BiGGen-Скамейка	BiGGen-Bench — это комплексный тест для оценки LLM при выполнении широкого спектра задач.
БотЧат	BotChat — это эталон для оценки возможностей LLM в многоразовом чате с помощью прокси-задачи.
Прецедентное правоQA	CaselawQA — это эталон, включающий задачи юридической классификации, полученные из юридических баз данных Верховного суда и Апелляционного суда Сонгера.
CFLUE	CFLUE является эталоном для оценки возможностей LLM в понимании и обработке информации в китайской финансовой сфере.
Ch3Ef	Ch3Ef — это эталон для оценки соответствия человеческим ожиданиям с использованием 1002 аннотированных человеком образцов в 12 областях и 46 задачах на основе принципа hhh.
Центр цепочки мыслей	Chain-of-Thought Hub — это эталон для оценки логических способностей студентов LLM.
Чат-бот Арена	Chatbot Arena представляет собой арену чат-ботов, где различные LLM соревнуются в зависимости от удовлетворенности пользователей.
ChemBench	ChemBench — это эталон для оценки химических знаний и умственных способностей студентов-магистров права.
Китайский SimpleQA	Chinese SimpleQA — это китайский тест для оценки фактологической способности языковых моделей отвечать на короткие вопросы.
Таблица лидеров CLEM	CLEM — это платформа, предназначенная для систематической оценки LLM, оптимизированных для чата, в качестве диалоговых агентов.
КЛЕВА	CLEVA — это тест для оценки LLM по 31 задаче с использованием 370 тысяч китайских запросов из 84 различных наборов данных и 9 показателей.
Таблица лидеров крупных моделей Китая	Таблица лидеров крупных моделей Китая — это платформа для оценки эффективности китайских LLM.
СМБ	CMB — это многоуровневый медицинский тест на китайском языке.
КММЛУ	CMMLU является эталоном для оценки эффективности LLM по различным предметам в китайском культурном контексте.
КМММУ	CMMMU — это эталон для оценки LMM при выполнении задач, требующих знаний предмета на уровне колледжа и продуманного рассуждения в китайском контексте.
CommonGen	CommonGen — это тест для оценки порождающего здравого смысла путем тестирования машин на их способность составлять связные предложения, используя заданный набор общих понятий.
КомпМикс	CompMix — это эталон для разнородных ответов на вопросы.
Таблица лидеров по степени сжатия	Таблица лидеров по степени сжатия предназначена для оценки производительности токенизатора на разных языках.
Таблица лидеров сжатия	Таблица лидеров сжатия — это платформа для оценки эффективности сжатия LLM.
Копибенч	CopyBench — это эталон для оценки поведения копирования и полезности языковых моделей, а также эффективности методов снижения рисков, связанных с авторским правом.
CoTaEval	CoTaEval — это эталон для оценки осуществимости и побочных эффектов методов удаления авторских прав для LLM.
КонвРе	ConvRe - это тест для оценки способности студентов LLM понимать обратные отношения.
CriticEval	CriticEval — это тест для оценки способности студентов LLM давать критические ответы.
CS-Скамья	CS-Bench — это двуязычный тест, предназначенный для оценки эффективности студентов LLM в 26 областях информатики с упором на знания и рассуждения.
МИЛЫЙ	CUTE — это тест для проверки орфографических знаний студентов LLM.
КиберМетрика	CyberMetric — это эталон для оценки знаний LLM в области кибербезопасности.
ЧешскийСкамейка	CzechBench — это эталон для оценки моделей чешского языка.
C-Eval	C-Eval — это китайский оценочный пакет для студентов LLM.
Таблица лидеров децентрализованной арены	На Decentralized Arena размещена децентрализованная и демократичная платформа для оценки LLM, которая автоматизирует и масштабирует оценки по различным, определяемым пользователем измерениям, включая математику, логику и естественные науки.
ДекодированиеДоверие	DecodingTrust — это платформа для оценки надежности LLM.
Таблица лидеров LLM в области доменов	Таблица лидеров LLM в области доменов — это платформа для оценки популярности LLM в конкретной области.
Таблица лидеров корпоративных сценариев	Таблица лидеров корпоративных сценариев отслеживает и оценивает эффективность LLM в реальных сценариях корпоративного использования.
EQ-Скамья	EQ-Bench — это тест для оценки аспектов эмоционального интеллекта у студентов LLM.
Европейская таблица лидеров LLM	Европейская таблица лидеров LLM отслеживает и сравнивает эффективность программ LLM на европейских языках.
EvalGPT.ai	На EvalGPT.ai есть площадка для чат-ботов, позволяющая сравнивать и оценивать эффективность LLM.
Эвал Арена	Eval Arena измеряет уровни шума, качество модели и качество тестов путем сравнения пар моделей в нескольких тестах оценки LLM с анализом на уровне примеров и парными сравнениями.
Таблица лидеров фактов	Таблица лидеров фактов сравнивает фактические возможности программ LLM.
FanOutQA	FanOutQA — это высококачественный многопрофильный и многодокументный тест для LLM, использующий английскую Википедию в качестве базы знаний.
FastEval	FastEval — это набор инструментов для быстрой оценки моделей выполнения инструкций и языков чата в различных тестах с быстрым выводом и подробным анализом производительности.
ФЕЛЬМ	FELM — это мета-тест для оценки фактов для программ LLM.
ФинЭвал	FinEval — это эталон для оценки знаний в финансовой области в рамках LLM.
Точная настройка таблицы лидеров	Таблица лидеров тонкой настройки — это платформа для ранжирования и демонстрации моделей, которые были доработаны с использованием наборов данных или платформ с открытым исходным кодом.
Пламя	Flames — это крайне враждебный китайский эталон для оценки соответствия ценностей LLM в отношении справедливости, безопасности, морали, законности и защиты данных.
FollowBench	FollowBench — это многоуровневый тест с мелкозернистыми ограничениями для оценки способности LLM следовать инструкциям.
Набор данных запрещенных вопросов	Набор данных запрещенных вопросов — это тест, содержащий 160 вопросов из 160 нарушенных категорий с соответствующими целями для оценки методов взлома.
ПредохранительОтзывы	FuseReviews стремится решать задачи по созданию обоснованных текстов, включая развернутые ответы на вопросы и обобщение.
ГАЙЯ	Целью GAIA является проверка фундаментальных способностей, которыми должен обладать ИИ-помощник.
ГЭВИ	GAVIE — это тест на основе GPT-4 для оценки галлюцинаций у LMM путем оценки точности и релевантности, не полагаясь на достоверную информацию, аннотированную человеком.
GPT-Fathom	GPT-Fathom — это пакет оценки LLM, позволяющий сравнивать более 10 ведущих LLM, а также устаревшие модели OpenAI с помощью более чем 20 тщательно отобранных тестов по 7 категориям возможностей, все с согласованными настройками.
GrailQA	Сильно обобщенные ответы на вопросы (GrailQA) — это крупномасштабный высококачественный тест для ответов на вопросы в базах знаний (KBQA) на Freebase с 64 331 вопросом, аннотированным как ответами, так и соответствующими логическими формами в различном синтаксисе (например, SPARQL, S-выражении). , и т. д.).
GTBench	GTBench — это эталон для оценки и ранжирования способностей LLM к рассуждению в конкурентной среде с помощью теоретико-игровых задач, например, настольных и карточных игр.
Таблица лидеров Guerra LLM AI	Таблица лидеров Guerra LLM AI сравнивает и ранжирует эффективность LLM по качеству, цене, производительности, контекстному окну и другим критериям.
Таблица лидеров галлюцинаций	Целью таблицы лидеров галлюцинаций является отслеживание, ранжирование и оценка галлюцинаций в рамках LLM.
ХаллуQA	HalluQA — это эталон для оценки явления галлюцинаций у китайских студентов LLM.
Таблица лидеров LLM на иврите	Таблица лидеров LLM по ивриту отслеживает и ранжирует языковые модели в зависимости от их успехов в выполнении различных задач по ивриту.
HellaSwag	HellaSwag — это эталон для оценки здравого смысла в программах LLM.
Таблица лидеров модели оценки галлюцинаций Хьюза	Таблица лидеров модели оценки галлюцинаций Хьюза — это платформа для оценки того, как часто языковая модель вызывает галлюцинации при резюмировании документа.
Таблица лидеров исландского LLM	Таблица лидеров исландского LLM отслеживает и сравнивает модели выполнения задач на исландском языке.
IFEval	IFEval — это эталон для оценки возможностей LLM следовать инструкциям с помощью проверяемых инструкций.
ИЛ-ТУР	IL-TUR — это эталон для оценки языковых моделей при выполнении одноязычных и многоязычных задач, ориентированных на понимание и обоснование индийских юридических документов.
Индийская таблица лидеров LLM	Indic LLM Leaderboard — это платформа для отслеживания и сравнения эффективности индийских LLM.
Таблица лидеров Indico LLM	Таблица лидеров Indico LLM оценивает и сравнивает точность различных языковых моделей разных поставщиков, наборов данных и таких возможностей, как классификация текста, извлечение ключевой информации и генеративное суммирование.
ИнструктЭвал	InstructEval — это пакет для оценки методов выбора инструкций в контексте LLM.
Итальянская таблица лидеров LLM	Итальянский LLM-Leaderboard отслеживает и сравнивает LLM по задачам на итальянском языке.
Побег из тюрьмыСкамейка	JailbreakBench — это тест для оценки уязвимостей LLM с помощью состязательных подсказок.
Японская арена чат-ботов	На японской арене чат-ботов находится арена чат-ботов, где различные студенты LLM соревнуются в зависимости от их навыков владения японским языком.
Ремень финансовой оценки модели японского языка	Система финансовой оценки японской языковой модели — это средство для оценки японской языковой модели в финансовой сфере.
Японский тест LLM по ролевым играм	Японский тест LLM Roleplay Benchmark — это тест для оценки эффективности японских LLM в ролевой игре персонажей.
JMED-LLM	JMED-LLM (Набор данных японской медицинской оценки для моделей большого языка) является эталоном для оценки LLM в медицинской области японского языка.
ДЖМММУ	JMMMU (японский MMMU) — это мультимодальный тест для оценки эффективности LMM на японском языке.
JustEval	JustEval — это мощный инструмент, предназначенный для детальной оценки LLM.
Кола	KoLA является эталоном для оценки мировых знаний в области LLM.
ЛаМП	LaMP (Персонализация языковых моделей) — это эталон для оценки возможностей персонализации языковых моделей.
Совет языковой модели	Language Model Council (LMC) — это эталон для оценки задач, которые весьма субъективны и часто не имеют согласия большинства людей.
LawBench	LawBench — это эталон для оценки юридических возможностей LLM.
Таблица лидеров	La Leaderboard оценивает и отслеживает запоминание, мышление и лингвистические способности LLM в Испании, странах Латинской Америки и Карибского бассейна.
ЛогикКор	LogicKor — это эталон для оценки возможностей междисциплинарного мышления корейских студентов LLM.
Таблица лидеров LongICL	LongICL Leaderboard — это платформа для оценки длительных контекстных оценок обучения для студентов LLM.
ЛооГЛЕ	LooGLE — это эталон для оценки способности студентов LLM понимать длительный контекст.
ЛАиВ	LAiW — это эталон для оценки понимания и рассуждения на китайском юридическом языке.
LLM Бенчмаркерский пакет	LLM Benchmarker Suite — это эталон для оценки комплексных возможностей LLM.
Оценка большой языковой модели в английском контексте	Оценка большой языковой модели в английском контексте - это платформа для оценки LLM в английском контексте.
Оценка большой языковой модели в китайском контексте	Оценка большой языковой модели в китайском контексте - это платформа для оценки LLM в китайском контексте.
ВЕСЫ	LIBRA — это эталон для оценки возможностей LLM в понимании и обработке длинного русского текста.
Таблица лидеров LibrAI-Eval GenAI	LibrAI-Eval GenAI Leaderboard фокусируется на балансе между возможностями LLM и безопасностью на английском языке.
LiveBench	LiveBench — это эталон для LLM, позволяющий свести к минимуму загрязнение наборов тестов и обеспечить объективную автоматическую оценку разнообразных, регулярно обновляемых задач.
LLMEval	LLMEval — это эталон для оценки качества общения в открытом домене с LLM.
Ллмевал-Гаокао2024-Математика	Llmeval-Gaokao2024-Math — это эталон для оценки программ LLM по математическим задачам уровня Гаокао 2024 года на китайском языке.
Таблица лидеров LLMГаллюцинация	Таблица лидеров галлюцинаций оценивает LLM на основе ряда критериев, связанных с галлюцинациями.
LLMPerf	LLMPerf — это инструмент для оценки производительности LLM с использованием как нагрузочных тестов, так и тестов правильности.
Таблица лидеров прогнозирования риска заболеваний для студентов LLM	Таблица лидеров прогнозирования риска заболеваний LLM — это платформа для оценки LLM по прогнозированию риска заболеваний.
Таблица лидеров LLM	Таблица лидеров LLM отслеживает и оценивает поставщиков LLM, позволяя выбрать оптимальный API и модель для нужд пользователя.
Таблица лидеров LLM для CRM	CRM LLM Leaderboard — это платформа для оценки эффективности LLM для бизнес-приложений.
LLM Обсерватория	LLM Observatory — это эталон, который оценивает и ранжирует LLM на основе их эффективности в предотвращении социальных предубеждений по таким категориям, как ориентация ЛГБТИК+, возраст, пол, политика, раса, религия и ксенофобия.
Таблица лидеров цен LLM	Таблица лидеров цен LLM отслеживает и сравнивает затраты LLM на основе одного миллиона токенов.
Рейтинги LLM	LLM Rankings предлагает сравнение языковых моделей в режиме реального времени на основе нормализованного использования токенов для подсказок и дополнений, которое часто обновляется.
Таблица лидеров LLM по ролевым играм	Таблица лидеров LLM Roleplay оценивает производительность человека и искусственного интеллекта в социальной игре-оборотне для разработки NPC.
Таблица лидеров LLM по безопасности	Целью LLM Safety Leaderboard является предоставление единой оценки безопасности языковой модели.
Таблица лидеров вариантов использования LLM	Таблица лидеров вариантов использования LLM отслеживает и оценивает LLM в сценариях использования в бизнесе.
LLM-AggreFact	LLM-AggreFact — это тест для проверки фактов, который объединяет самые современные общедоступные наборы данных на основе обоснованной оценки фактов.
LLM-таблица лидеров	LLM-Leaderboard — это совместная работа сообщества по созданию единой центральной таблицы лидеров для LLM.
Таблица лидеров LLM-Perf	Целью LLM-Perf Leaderboard является сравнение производительности LLM с различным оборудованием, серверными модулями и оптимизациями.
LMExamQA	LMExamQA — это система сравнительного анализа, в которой языковая модель выступает в качестве экзаменатора, генерируя вопросы и оценивая ответы автоматизированным способом без ссылок для всесторонней и справедливой оценки.
Лонгбенч	LongBench — это эталон для оценки возможностей LLM по пониманию длительного контекста.
Лунг	Loong — это долгосрочный эталон для оценки возможностей LLM по обеспечению качества при работе с несколькими документами в финансовых, юридических и академических сценариях.
Таблица лидеров Low-bit Quantized Open LLM	Таблица лидеров Low-bit Quantized Open LLM отслеживает и сравнивает LLM квантования с различными алгоритмами квантования.
LV-Оценка	LV-Eval — это долгосрочный тест с пятью уровнями длины и передовыми методами для точной оценки LLM в одно- и многошаговых задачах контроля качества в двуязычных наборах данных.
ЛюсиЭвал	LucyEval предлагает тщательную оценку эффективности LLM в различных контекстах Китая.
L-Оценка	L-Eval — это тест оценки языковой модели длинного контекста (LCLM), предназначенный для оценки производительности обработки обширного контекста.
М3КЕ	M3KE — это масштабный многоуровневый эталон оценки знаний по нескольким предметам, предназначенный для измерения знаний, полученных китайскими студентами LLM.
МетаКритика	MetaCritique — это судья, который может оценивать критику, написанную человеком или созданную LLM, путем создания критики.
МЯТА	MINT — это эталон для оценки способности LLM решать задачи с многоходовым взаимодействием с использованием инструментов и обратной связи на естественном языке.
Мираж	Mirage — это эталон в области расширенного поиска медицинской информации, включающий 7663 вопроса из пяти наборов медицинских данных по обеспечению качества и протестированный на 41 конфигурации с использованием набора инструментов MedRag.
МедБенч	MedBench — это эталон для оценки владения знаниями и способностей к рассуждению в медицинских программах LLM.
MedS-Bench	MedS-Bench — это медицинский тест, который оценивает LLM по 11 категориям задач с использованием 39 различных наборов данных.
Таблица лидеров Meta Open LLM	Таблица лидеров Meta Open LLM служит центральным узлом для консолидации данных из различных открытых таблиц лидеров LLM на единой, удобной для пользователя странице визуализации.
Таблица лидеров принятия клинических решений MIMIC	Таблица лидеров принятия клинических решений MIMIC отслеживает и оценивает степень магистра права в области реалистичного принятия клинических решений при патологиях брюшной полости.
МиксЭвал	MixEval — это тест для оценки LLM путем стратегического сочетания готовых тестов.
Таблица лидеров ML.ENERGY	Таблица лидеров ML.ENERGY оценивает энергопотребление LLM.
MMedBench	MMedBench — это медицинский тест для оценки степени понимания многоязычных программ LLM.
ММЛУ	MMLU — это эталон для оценки эффективности программ LLM в широком спектре задач по распознаванию естественного языка.
Таблица лидеров MMLU по задачам	Таблица лидеров MMLU по задачам предоставляет платформу для оценки и сравнения различных моделей машинного обучения для различных задач понимания языка.
ММЛУ-Про	MMLU-Pro — это более сложная версия MMLU для оценки логических способностей LLM.
Таблица лидеров ModelScope LLM	ModelScope LLM Leaderboard — это платформа для объективной и всесторонней оценки LLM.
Таблица лидеров оценки модели	Таблица лидеров оценки моделей отслеживает и оценивает модели генерации текста на основе их производительности в различных тестах с использованием платформы Mosaic Eval Gauntlet.
Таблица лидеров MSNP	Таблица лидеров MSNP отслеживает и оценивает производительность квантованных моделей GGUF на различных комбинациях графических процессоров и процессоров с использованием одноузловых настроек через Ollama.
МСТЭБ	MSTEB — это эталон для измерения производительности моделей встраивания текста на испанском языке.
МТЕБ	MTEB — это масштабный тест для измерения производительности моделей внедрения текста при выполнении различных задач внедрения на 112 языках.
МТБ Арена	MTEB Arena содержит модельную арену для динамической, реальной оценки внедрения моделей посредством пользовательских запросов и сравнений результатов.
МТ-Скамья-101	MT-Bench-101 — это детальный тест для оценки LLM в многоходовых диалогах.
Таблица лидеров MY Malay LLM	Целью таблицы лидеров MY Malay LLM является отслеживание, ранжирование и оценка открытых LLM по малайским задачам.
НоЧа	NoCha — это тест для оценки того, насколько хорошо языковые модели с длинным контекстом могут проверять утверждения, написанные о художественных книгах.
NPHardEval	NPHardEval — это тест для оценки логических способностей студентов LLM через призму классов вычислительной сложности.
Таблица лидеров Occiglot Euro LLM	Таблица лидеров Occiglot Euro LLM сравнивает LLM на четырех основных языках из тестов Okapi и Belebele (французский, итальянский, немецкий, испанский и голландский).
ОлимпиадаСкамейка	OlympiadBench — это двуязычный мультимодальный научный тест, включающий 8476 задач по математике и физике олимпиадного уровня с пошаговыми аннотациями для рассуждений экспертного уровня.
Олимпийская Арена	OlympicArena — это эталон для оценки передовых возможностей LLM в широком спектре задач олимпийского уровня.
убабуга	Oobabooga — это эталон для проведения повторяемых тестов производительности LLM с помощью веб-интерфейса oobabooga.
ОпенЭвал	OpenEval — это платформа для оценки китайских LLM.
Таблица лидеров OpenLLM в Турции	Таблица лидеров OpenLLM на турецком языке отслеживает прогресс и оценивает результаты LLM на турецком языке.
Таблица лидеров открытости	Таблица лидеров открытости отслеживает и оценивает прозрачность моделей с точки зрения открытого доступа к весам, данным и лицензиям, выявляя модели, которые не соответствуют стандартам открытости.
Таблица лидеров открытости	Таблица лидеров открытости — это инструмент, который отслеживает открытость LLM, настроенных на инструкции, оценивая их прозрачность, данные и доступность моделей.
Открытый исследователь	OpenResearcher содержит результаты сравнительного тестирования различных систем, связанных с RAG, в виде таблицы лидеров.
Открытая таблица лидеров LLM по арабскому языку	Таблица лидеров LLM на арабском языке отслеживает прогресс и оценивает эффективность программ LLM на арабском языке.
Открытая таблица лидеров LLM Китая	Таблица лидеров Open Chinese LLM направлена на отслеживание, ранжирование и оценку открытых китайских LLM.
Таблица лидеров Open CoT	Таблица лидеров Open CoT отслеживает способности LLM генерировать эффективные цепочки рассуждений.
Таблица лидеров оценки Open Dutch LLM	Таблица лидеров оценки Open Dutch LLM отслеживает прогресс и оценивает эффективность программ LLM на голландском языке.
Таблица лидеров Open Financial LLM	Целью Open Financial LLM Leaderboard является оценка и сравнение эффективности финансовых программ LLM.
Открытая таблица лидеров ITA LLM	Таблица лидеров Open ITA LLM отслеживает прогресс и оценивает эффективность программ LLM на итальянском языке.
Открытая таблица лидеров Ko-LLM	Таблица лидеров Open Ko-LLM отслеживает прогресс и оценивает результаты LLM на корейском языке.
Открыть таблицу лидеров LLM	Таблица лидеров Open LLM отслеживает прогресс и оценивает эффективность программ LLM на английском языке.
Открытая таблица лидеров Medical-LLM	Таблица лидеров Open Medical-LLM направлена на отслеживание, ранжирование и оценку открытых программ LLM в медицинской сфере.
Открыть таблицу лидеров MLLM	Целью Open MLLM Leaderboard является отслеживание, ранжирование и оценка LLM и чат-ботов.
Открытая таблица лидеров MOE LLM	Таблица лидеров OPEN MOE LLM оценивает производительность и эффективность различных программ LLM Mixture of Experts (MoE).
Открытая таблица лидеров многоязычной оценки LLM	Таблица лидеров открытой многоязычной оценки LLM отслеживает прогресс и оценивает эффективность программ LLM на нескольких языках.
Открытая таблица лидеров PL LLM	Open PL LLM Leaderboard — это платформа для оценки эффективности различных программ LLM на польском языке.
Открытая таблица лидеров LLM в Португалии	Целью таблицы лидеров Open PT LLM является оценка и сравнение LLM в задачах на португальском языке.
Открытая таблица лидеров LLM Тайваня	Таблица лидеров LLM Open Taiwan демонстрирует эффективность LLM при выполнении различных задач по пониманию тайваньского мандаринского языка.
Таблица лидеров Open-LLM	Open-LLM-Leaderboard оценивает LLM в понимании языка и рассуждении путем перехода от вопросов с несколькими вариантами ответов (MCQ) к вопросам открытого типа.
Панель приборов ОПУС-МТ	OPUS-MT Dashboard — это платформа для отслеживания и сравнения моделей машинного перевода по нескольким языковым парам и показателям.
OR-Скамья	OR-Bench — это эталон для оценки чрезмерного отказа от повышения безопасности в программах LLM.
ПарсБенч	ParsBench предоставляет наборы инструментов для сравнительного анализа программ LLM на основе персидского языка.
Таблица лидеров LLM в Персии	Таблица лидеров LLM на персидском языке обеспечивает надежную оценку программ LLM на персидском языке.
Таблица лидеров Пиноккио ITA	Таблица лидеров Pinocchio ITA отслеживает и оценивает степень магистра права на итальянском языке.
ПЛ-МТЕБ	PL-MTEB (Polish Massive Text Embedding Benchmark) — это тест для оценки встраивания текста на польском языке в 28 задачах НЛП.
Польская медицинская таблица лидеров	Polish Medical Leaderboard оценивает языковые модели на сертификационных экзаменах польской комиссии.
Таблица лидеров LLM на базе Intel	Таблица лидеров LLM на базе Intel оценивает, оценивает и ранжирует LLM, которые прошли предварительное обучение или были настроены на оборудовании Intel.
ПабМедQA	PubMedQA — это эталон для оценки ответов на вопросы биомедицинских исследований.
ПодсказкаСкамейка	PromptBench — это тест для оценки устойчивости LLM к состязательным подсказкам.
QAConv	QAConv — это эталон для ответов на вопросы, использующий сложные, специфичные для предметной области и асинхронные разговоры в качестве источника знаний.
Качество	КАЧЕСТВО — это эталон для оценки ответов на вопросы с несколькими вариантами ответов в длинном контексте.
КРОЛИКИ	RABBITS — это эталон для оценки надежности LLM путем оценки их обращения с синонимами, в частности с торговыми названиями и названиями непатентованных лекарств.
Ракуда	Rakuda — это эталон для оценки LLM на основе того, насколько хорошо они отвечают на ряд открытых вопросов по японским темам.
РедТим Арена	RedTeam Arena — это платформа для Red Team для студентов LLM.
Красный эталон сопротивления команды	Red Teaming Consectance Benchmark - это ориентир для оценки надежности LLM против Red Teaming подсказок.
REST-MCT*	REST-MCTS*-это подкрепленный метод самостоятельного подготовки, который использует вывод по поиску деревьев и процесса для сбора высококачественных следов рассуждений для политики обучения и моделей вознаграждения без ручных шага-аннотаций.
Рецензент Арена	Рецензент Arena размещает рецензентную арену, где различные LLMS конкурируют на основе их успеваемости в критике академических работ.
Ролеваль	Roleeval - это двуязычный эталон для оценки возможностей запоминания, использования и рассуждений знаний ролевых знаний о LLMS.
Собственная таблица лидеров RPBench	RPBench-Auto-это автоматический трубопровод для оценки LLMS с использованием 80 человек для характера и 80 сцен для ролевой игры на основе сцены.
Русская чат -бот -арена	Chatbot Arena размещает арену чатбота, где различные LLMS конкурируют на русском языке на основе удовлетворенности пользователей.
Русская суперклей	Russian Superglue - это ориентир для моделей русского языка, сосредоточенная на логике, здравом смысле и рассуждениях.
R-сустава	R-Judge является ориентиром для оценки знания LLMS в оценке и выявлении рисков безопасности, полученных с учетом записей о взаимодействии агента.
Подсказки безопасности	Подсказка для безопасности является ориентиром для оценки безопасности китайских LLMS.
Безопасность	SafetyBench - это ориентир для оценки безопасности LLMS.
Салат	Salad-Bench является ориентиром для оценки безопасности и безопасности LLMS.
Скандал	Scandeval - это ориентир для оценки LLM по задачам на скандинавских языках, а также на немецком, голландском и английском языке.
Таблица лидеров науки	Таблица лидеров науки - это платформа для оценки возможностей LLMS для решения научных проблем.
Sciglm	SCIGLM-это набор моделей научных языков, которые используют саморефлексивную структуру аннотации обучения для улучшения научных рассуждений путем генерации и пересмотра пошаговых решений для некашиных вопросов.
Sciknoweval	Sciknoweval - это ориентир для оценки LLMS, основанных на их мастерстве в широком изучении, усердно расследовать, глубоко размышляя, четко проницательно и усердно практиковать.
Свитки	Scrolls - это ориентир для оценки возможностей рассуждений LLMS по длинным текстам.
SEAEXAM	SeaExam является ориентиром для оценки LLMS для языков Юго -Восточной Азии (морской).
SEAL LLM -списки лидеров	SEAL LLM Leaderwards-это экспертная частная платформа оценки для LLMS.
Сиэваль	Seaval - это ориентир для оценки производительности многоязычных LLM в понимании и рассуждениях с помощью естественного языка, а также понимания культурных практик, нюансов и ценностей.
Морской шлем	Sea Helm-это ориентир для оценки производительности LLMS в задачах английской и юго-восточной азии, сосредоточенного на чате, сведении к обучению и лингвистическим возможностям.
Секавина	Seceval - это ориентир для оценки знаний о кибербезопасности моделей фундамента.
Самосовершенство, таблица лидеров	Самопроизводительное таблицу лидеров (SIL)-это динамическая платформа, которая непрерывно обновляет наборы тестирования и рейтинги, чтобы обеспечить представление о производительности в реальном времени для LLM и чат-ботов с открытым исходным кодом.
Спецификация	Spec-Bench является эталоном для оценки спекулятивных методов декодирования в разных сценариях.
Structeval	Structeval является ориентиром для оценки LLM за счет проведения структурированных оценок на нескольких когнитивных уровнях и критических концепциях.
Subquadratic LLM	Subquadratic LLM-таблица лидеров оценивает LLM с субвадратическими/без внимания архитектур (то есть RWKV & Mamba).
Супербанг	Superbench - это всеобъемлющая система задач и аспектов для оценки общих возможностей LLMS.
Суперклей	SuperGlue - это эталон для оценки эффективности LLMS на множестве сложных языковых задач.
Суперлим	Superlim - это ориентир для оценки возможностей понимания языка LLMS на шведском языке.
Swahili LLM-Leaderboard	Swahili LLM-Leaderboard-это совместное сообщество, чтобы создать одну центральную таблицу лидеров для LLMS.
S-Eval	S-Eval-это всеобъемлющий многомерный контроль безопасности с 220 000 подсказок, предназначенных для оценки безопасности LLM в различных измерениях риска.
TableQaeval	TableQaeval-это ориентир для оценки производительности LLM в моделировании длинных таблиц и возможностей понимания, таких как числовые и мульти-хоп.
Tat-DQA	TAT-DQA является ориентиром для оценки LLMS по дискретным рассуждениям по поводу документов, которые объединяют как структурированную, так и неструктурированную информацию.
Тат-ка	TAT-QA является эталоном для оценки LLMS по дискретным рассуждениям по документам, которые объединяют как табличный, так и текстовый контент.
Таблица лидеров Thai LLM	Таблица лидеров Thai LLM направлена на то, чтобы отслеживать и оценить LLM в тайском языке.
Куча	Своение является ориентиром для оценки мировых знаний и способности к рассуждениям LLMS.
Тофу	Tofu - это ориентир для оценки отключения производительности LLM в реалистичных сценариях.
Таблица лидеров Toloka LLM	Toloka LLM Soade Soade - это ориентир для оценки LLMS на основе подлинных подлинных пользовательских подсказок и экспертной оценки человека.
Инструмент	Toolbench - это платформа для обучения, обслуживания и оценки LLMS специально для обучения инструментам.
Таблица лидеров токсичности	Таблица лидеров токсичности оценивает токсичность LLM.
Таблицы лидеров Trustbit LLM	Таблицы лидеров Trustbit LLM - это платформа, которая предоставляет ориентиры для строительства и доставки продуктов с LLMS.
Trustllm	Trustllm - это ориентир для оценки достоверности LLMS.
Тьюрингедвице	TuringAdvice-это ориентир для оценки способности языковых моделей генерировать полезные советы для реальных, открытых ситуаций.
Тьюреваль	TutoReval-это критерия, отвечающего вопросом, который оценивает, насколько хорошо преподаватель LLM может помочь пользователю понять главу из учебника по науке.
T-Eval	T-Eval является эталоном для оценки возможности использования инструментов LLMS.
Таблица лидеров UGI	Согласно таблице лидеров UGI и сравнивает нецензуровку и противоречивую информацию, известную LLMS.
Ультраэвально	Ultraeval-это рамка с открытым исходным кодом для прозрачного и воспроизводимого сравнения LLMS в различных измерениях производительности.
Vals ai	Vals AI-это платформа, оценивающая генеративную точность ИИ и эффективность в реальных юридических задачах.
Вещание	Визуальное обоснование здравого смысла (VCR) является ориентиром для визуального понимания на уровне познания, требующих моделей для ответа на визуальные вопросы и предоставить обоснование для их ответов.
Видор	Vidore - это ориентир для оценки моделей поиска в их способности соответствовать запросам с соответствующими документами на уровне страницы.
Собственность лидеров VLLMS	Собственность лидеров VLLMS направлена на то, чтобы отслеживать, ранжировать и оценивать открытые LLMS и чат -боты.
VMLU	VMLU является ориентиром для оценки общих возможностей моделей фундамента на вьетнамцев.
Уайлдбенч	Wildbench является эталоном для оценки языковых моделей по сложным задачам, которые очень похожи на реальные приложения.
Xiezhi	Xiezhi является ориентиром для целостной оценки знаний доменов LLMS.
Янолджа Арена	Yanolja Arena организует модельную арену для оценки возможностей LLMS при суммировании и переводе текста.
Еще одна таблица лидеров LLM	Еще одна таблица лидеров LLM - это платформа для отслеживания, ранжирования и оценки открытых LLM и чат -ботов.
Зебралог	Zebralogic - это эталонный оценивающий логический рассуждение LLMS с использованием логических загадков сетки, типа проблемы удовлетворенности ограничения (CSP).
Нулевой	Zerosumeval - это конкурентная структура оценки для LLMS с использованием многопользовательских симуляций с четкими условиями победы.

Изображение

Имя	Описание
Абстрактное изображение	Abstract Image - это ориентир для оценки мультимодальных LLMS (MLLM) в понимании и визуально рассуждениях об абстрактных изображениях, таких как карты, диаграммы и макеты.
Эсбенч	Aesbench - это ориентир для оценки MLLMS по восприятию эстетики изображения.
Мигание	Blink - это ориентир для оценки основных способностей визуального восприятия MLLMS.
Blinkcode	BlinkCode-это ориентир для оценки MLLMS по 15 моделям на языке зрения (VLMS) и 9 задач, измерение точности и производительности реконструкции изображений.
Заботы	Cares-это ориентир для оценки достоверности Med-LVLMS по доверчивости, справедливости, безопасности, конфиденциальности и устойчивости, используя 41 тыс. Пары вопросов-ответов из 16 методов медицинского изображения и 27 анатомических регионов.
Chartmimic	ChartMimic-это ориентир для оценки возможностей генерации визуальных кодов крупных мультимодальных моделей с использованием диаграмм и текстовых инструкций.
Charxiv	Charxiv - это ориентир для оценки возможностей понимания графиков MLLMS.
Контекстуальный	Контекстуал-это ориентир для оценки MLLM по контексту-чувствительным текстовым задачам визуальных рассуждений.
Ядро-мм	Core-MM является эталоном для оценки открытых возможностей для визуальных вопросов (VQA) MLLM.
Dreambench ++	Dreambench ++-это ориентированный на человека эталон, автоматизированный мультимодальными моделями для персонализированного генерации изображений.
Эгоплан-пластин	Egoplan-Bench является ориентиром для оценки способностей планирования MLLM в реальных эгоцентрических сценариях.
Глюкбенч	Glitchbench - это ориентир для оценки возможностей рассуждений MLLM в контексте обнаружения сбоев видеоигр.
HallusionBench	HallusionBench-это ориентир для оценки возможностей рассуждения контекста изображения MLLMS.
Infimm-eval	Infimm-eval является ориентиром для оценки открытых возможностей VQA MLLMS.
LRVSF Sobde Leaders	Soade Ledersf Ledersf - это платформа для оценки LLMS относительно поиска сходства изображений в моде.
Таблица лидеров LVLM	Таблица лидеров LVLM - это платформа для оценки возможностей визуальных рассуждений MLLMS.
M3cot	M3COT-это ориентир для многодоменной многоэтапной многомодальной цепочки с мышлениями MLLMS.
Сумасшедшие	Mementos является эталоном для оценки возможностей рассуждений MLLMS по последовательностям изображений.
MJ-Bench	MJ-Bench-это ориентир для оценки мультимодальных судей в предоставлении обратной связи для моделей генерации изображений в четырех ключевых перспективах: выравнивание, безопасность, качество изображения и предвзятость.
Mllm-as-a-gudge	MLLM-AS-A-Judge-это эталон с человеческими аннотациями для оценки возможностей судейства MLLMS в оценке, сравнении пар и пакетных задачах ранжирования в мультимодальных доменах.
Mllm-bench	MLLM-Bench-это ориентир для оценки возможностей визуальных рассуждений MLVMS.
Таблица лидеров MMBench	Таблица лидеров MMBench - это платформа для оценки возможностей визуальных рассуждений MLLMS.
Май	MME является эталоном для оценки возможностей визуальных рассуждений MLLMS.
MME-Realworld	MME-Realworld-это крупномасштабный контрольный показатель с высоким разрешением с 29 429, аннотируемыми человеком пар QA в 43 задачах.
MMIU	MMIU (Ultimodal Multi-Image Inflection) является эталоном для оценки MLLMS по 7 отношениям с несколькими изображениями, 52 задачами, 77K изображениями и 11к-образованным вопросами с несколькими вариантами выбора.
МММУ	MMMU является ориентиром для оценки эффективности мультимодальных моделей по задачам, которые требуют знаний на уровне колледжа и рассуждениях на уровне экспертов в различных дисциплинах.
ММР	MMR является эталоном для оценки надежности MLLM в визуальном понимании, оценивая их способность решать ведущие вопросы, а не просто точность в ответе.
Mmsearch	Mmsearch - это ориентир для оценки мультимодального поиска LMMS.
MMStar	MMSTAR-это ориентир для оценки мультимодальных возможностей MLLMS.
MMT-Bench	MMT-Bench-это ориентир для оценки MLLM в широком спектре мультимодальных задач, которые требуют экспертных знаний, а также преднамеренного визуального распознавания, локализации, рассуждений и планирования.
MM-Niah	MM-Niah (иглы в мультимодальном сеновом стоге) является эталоном для оценки способности MLLMS понимать длинные мультимодальные документы с помощью поиска, подсчета и рассуждения, включающих данные как текста, так и изображения.
MTVQA	MTVQA является многоязычным эталоном понимания визуального текста для оценки MLLMS.
Таблица лидеров мультимодальной галлюцинации	Таблица лидеров мультимодальной галлюцинации сравнивает MLLMS на основе уровней галлюцинации в различных задачах.
Многополосная марка	Multi-Benchmark-это ориентир для оценки MLLM по пониманию сложных таблиц и изображений, а также рассуждения с длинным контекстом.
Многопользо	Multrust - это ориентир для оценки достоверности MLLM в пяти основных аспектах: правдивости, безопасность, надежность, справедливость и конфиденциальность.
Nphardeval4v	NPHARDEVAL4V - это ориентир для оценки способностей рассуждений MLLM через призму классов вычислительной сложности.
Таблица лидеров поставщика	LLM Providers Providers Sobder - это платформа для сравнения производительности поставщика API для более высоких конечных точек LLM в разных показателях производительности.
Ocrbench	Ocrbench является ориентиром для оценки возможностей OCR мультимодальных моделей.
PCA-Bench	PCA-Bench-это ориентир для оценки воплощенных возможностей для принятия решений мультимодальными моделями.
Q-Bench	Q-Bench-это ориентир для оценки возможностей визуальных рассуждений MLLMS.
Rewardbench	Rewardbench - это ориентир для оценки возможностей и безопасности моделей вознаграждений.
Scienceqa	Scienceqa-это эталон, используемый для оценки способности и интерпретируемости рассуждений с несколькими ходами в контексте вопросов ответа на науку.
Scigraphqa	Scigraphqa-это ориентир для оценки MLLM в научном графике-ответе.
Семя-пластин	Seed-Bench-это ориентир для оценки текста и генерации мультимодальных моделей.
Мочеиспускание	Учеб-это ориентир для оценки способности языковых моделей для выравнивания без введения факторов тонкой настройки (скорость обучения, данные и т. Д.), Которые трудно контролировать справедливое сравнение.
Обновление лидеров	Tud Leader Soade - это платформа для оценки надежности MLLMS в неразрешимом обнаружении проблем.
Vibe-Eval	Vibe-Eval является ориентиром для оценки MLLM для сложных случаев.
Videohallucer	Videohallucer - это ориентир для обнаружения галлюцинаций в MLLMS.
Посетите-банд	Visit-Bench-это ориентир для оценки возможностей, связанных с инструкциями MLLM для реального использования.
Waymo Open DataSet Проблемы	В Waymo Open DataSet Challenges содержит различные наборы данных для самостоятельного вождения для оценки моделей ML.
Упс!	Упс! является ориентиром для оценки способностей здравого смысла MLLMS.
Wildvision-Bench	Wildvision-Bench-это ориентир для оценки VLM в дикой природе с помощью человеческих предпочтений.
Wildvision Arena	Wildvision Arena размещает Arena Chatbot, где различные MLLM конкурируют на основе их производительности в визуальном понимании.

Код

Имя	Описание
Параметры лидеров Aider LLM	Таблицы лидеров Aider LLM оценивают способность LLM следовать системным подсказкам для редактирования кода.
Appworld	AppWorld-это среда выполнения с высокой точностью от 9 повседневных приложений, работающих через 457 API, населенную цифровой деятельностью ~ 100 человек, живущих в смоделированном мире.
Berkeley Function Calling Soble	В таблице лидеров, получающих функции Беркли, оценивает способность LLMS вызовать функции (также известные как инструменты) точно.
BigCodebench	BigCodebench - это ориентир для генерации кода с практическими и сложными задачами по программированию.
Таблица лидеров моделей большого кода	Big Code Models Sobde Sobde-это платформа для отслеживания и оценки производительности LLMS по задачам, связанным с кодом.
ПТИЦА	Bird-это ориентир для оценки производительности систем анализа текста до SQL.
Booksql	BooksQL-это ориентир для оценки систем текста до SQL в области финансов и бухгалтерского учета в различных отраслях с набором данных в 1 миллион транзакций из 27 предприятий.
Таблица лидеров Canaicode	Таблица лидеров Canaicode - это платформа для оценки возможностей генерации кода LLMS.
Классевал	Classeval является эталоном для оценки LLMS по генерации кода на уровне класса.
Codeapex	CodeApex является эталоном для оценки понимания программирования LLMS с помощью вопросов с множественным выбором и генерации кода с задачами алгоритма C ++.
Кодекс	CodeScope - это ориентир для оценки возможностей кодирования LLM на 43 языках и 8 задачах, учитывая сложность, эффективность и длину.
Кодетрасоц	CodeTransocean-это ориентир для оценки перевода кода на широком спектре языков программирования, включая популярную, нишевую и LLM-транслируемую код.
Код Lingua	Code Lingua - это эталон для сравнения способности моделей кода понимать, что внедряет код в языках исходных источников, и перевести ту же семантику на целевых языках.
Кодирование LLMS Sobde	Кодирование LLMS Soade Soade - это платформа для оценки и ранжирования LLMS по различным задачам по программированию.
Commit-0	Commit-0-это задача от AI-скретков для восстановления 54 основных библиотек Python, гарантируя, что они проходят модульные тесты со значительным тестовым покрытием, проверкой Lint/Type и облачной распределенной разработкой.
Cruxeval	CRUXEVAL - это ориентир для оценки рассуждений, понимания и выполнения кода LLMS.
CSPIDER	CSPIDER-это ориентир для оценки способности Systems генерировать запросы SQL из китайского естественного языка в различных, сложных и междоменных базах данных.
Киберсевальный	Cyberseval - это ориентир для оценки кибербезопасности LLM в качестве помощников по кодированию.
DevOps Ai Assistant Open Soarde Leaders	DevOps AIS Assistant Open Socture Tracks, ранжирует и оценивает помощников по ИИ DevOps по областям знаний.
Devops-eval	Devops-eval-это ориентир для оценки кодовых моделей в поле DevOps/AIOPS.
Domaineval	Domaineval-это автоматический эталон для генерации многодоменного кода.
Dr.spider	Dr.spider-это ориентир для оценки надежности моделей Text-Sql с использованием различных наборов тестов на возмущение.
Эффер	Effibench - это ориентир для оценки эффективности LLMS в генерации кода.
Evalplus	Evalplus - это ориентир для оценки производительности генерации кода LLMS.
Evocodebench	Evocodebench-это эволюционный эталон генерации кода, выровненный с реальными репозиториями кода.
Эвоэвол	Evoeval - это ориентир для оценки способностей кодирования LLM, созданных путем развития существующих тестов в различные целевые домены.
Infibench	Infibench-это ориентир для оценки моделей кода для ответа на вопросы Freeform Real-World, связанные с кодом.
Межуд	Intercode - это эталон для стандартизации и оценки интерактивного кодирования с обратной связью.
Собственная таблица лидеров Julia LLM	Soarde Droder Soade Julia LLM - это платформа для сравнения способностей кодовых моделей с созданием синтаксически правильного кода Юлии, включающего структурированные тесты и автоматические оценки для легкого и совместного сравнительного анализа.
Livecodebench	LiveCodeBench-это ориентир для оценки моделей кода по сценариям, связанным с кодом с течением времени.
Длинная кодовая арена	Long Code Arena-это набор тестов для задач, связанных с кодом, с большими контекстами, вплоть до целого кода.
McEval	MCEVAL - это массовый многоязычный эталон оценки кода, охватывающий 40 языков (16 тыс. Образцов в 44), охватывающая многоязычную генерацию кода, многоязычное объяснение кода и задачи выполнения многоязычного кода.
Запоминание или генерация лидеров моделей крупного кода	Запоминание или генерация моделей крупных кодов отслеживает отслеживание и сравнивает производительность моделей генерации кодов.
Мульти-свето	Multi-SWE-Bench-это многоязычный выпуск GitHub, разрешающий контрольный показатель для кодовых агентов.
NaturalCodebench	NaturalCodebench - это ориентир, чтобы отразить сложность и разнообразие сценариев в реальных задачах кодирования.
Nexus функция вызова лидеров	Функция NEXUS Calling Sobder - это платформа для оценки моделей кода при выполнении вызова функций и использования API.
NL2SQL360	NL2SQL360 - это комплексная структура оценки для сравнения и оптимизации методов NL2SQL в различных сценариях применения.
PECC	PECC-это эталон, который оценивает генерацию кода, требуя моделей для понимания и извлечения требований задач из описаний, основанных на повествовании для создания синтаксически точных решений.
Процессы ProLLM	ProLLM Benchmarks-это практическое и надежное тесное LLM, предназначенное для реальных вариантов использования бизнеса в разных отраслях и языках программирования.
Пибенч	Pybench-это контрольная оценка LLM по реальным задачам кодирования, включая анализ диаграмм, анализ текста, редактирование изображений/ аудио, сложную математику и разработку программного обеспечения/ веб-сайта.
РАСА	Раса-это ориентир для оценки способности LLMS генерировать правильный код и соответствовать требованиям реальных сценариев разработки.
Репока	Repoqa-это эталон для оценки давно контекстовой код способности LLMS.
Scicode	Scicode - это эталон, предназначенный для оценки языковых моделей при создании кода для решения реалистичных задач научных исследований.
SolidityBench	SolidityBench - это ориентир для оценки и ранжирования способности LLMS в создании и аудировании интеллектуальных контрактов.
Паук	Spider-это ориентир для оценки производительности интерфейсов естественного языка для баз данных междомена.
Stabletoolbench	StableToolBench-это ориентир для оценки обучения инструментам, который направлен на обеспечение хорошо сбалансированной комбинации стабильности и реальности.
Swe-Bench	SWE-Bench является эталоном для оценки LLMS по реальным вопросам программного обеспечения, собранных в GitHub.
Webapp1k	WebApp1k является эталоном для оценки LLMS по их способностям разработки реальных веб-приложений.
WebDev Arena	WebDev Arena размещает арену чатбота, где различные LLMS конкурируют на основе разработки веб -сайтов.
Дикий	Wilds-это ориентир в рамках распределения, охватывающих различные методы и приложения данных, от идентификации опухоли до мониторинга дикой природы до картирования бедности.

Видео

Имя	Описание
Хрономагический рост	Chronomagic-Bench является ориентиром для оценки способности видео-моделей генерировать видеоролики с высокой метаморфической амплитудой и временной когерентностью в области физики, биологии и химических доменов с использованием контроля текста бесплатной формы.
Мечта-1K	Dream-1K-это ориентир для оценки представления видео с описанием видео на 1000 разнообразных видеоклипов с использованием богатых событий, действий и движений из фильмов, анимации, видео, видео, YouTube и коротких видеороликов в стиле Tiktok.
Longvideobench	LongvideObench-это ориентир для оценки возможностей видео моделей при ответе на указанные вопросы, которые зависят от длинных входов и не могут быть хорошо обработаны одним кадром или несколькими редкими кадрами.
Lvbench	Lvbench - это ориентир для оценки мультимодальных моделей по длинным задачам понимания видео, требующих расширенных возможностей памяти и понимания.
MLVU	MLVU-это эталон для оценки видео моделей в многозадачном понимании длинного видео.
MMTOM-QA	MMTOM-QA-это мультимодальный эталон для оценки теории разума машин (TOM), способности понимать разум людей.
MVBench	MVBench - это ориентир для оценки возможностей временного понимания видео моделей в динамических видео задачах.
OpenVLM Video Leadersoble	OpenVLM Video Leader Soade - это платформа, демонстрирующая результаты оценки 30 различных VLMS на тестах понимания видео с использованием фреймворка VLMevalkit.
TempCompass	TempCompass - это ориентир для оценки временного восприятия видео LLMS с использованием 410 видео и 7540 инструкций задач по 11 временным аспектам и 4 типам задач.
Венч	Vbench является эталоном для оценки возможностей генерации видео моделей видео.
Видеония	Videoniah-это ориентир для оценки мелкозернистого понимания и возможностей для пространственно-временного моделирования видео-моделей.
Видеофия	Videophy-это ориентир для оценки сгенерированных видео для приверженности физическому здравому средству во время реальных материалов.
VideoScore	VideoScore-это ориентир для оценки генеративных моделей текста к Video на пять ключевых измерений.
Видеовиста	Videovista - это эталон с 25 000 вопросов из 3400 видео по 14 категориям, охватывающих 19 понимания и 8 задач.
Видео-пластин	Video-Bench-это ориентир для оценки эксклюзивного понимания, предварительного включения знаний и способностей к видео на основе видеомоделей.
Видео-мам	Video-MME-это ориентир для оценки возможностей видео-анализа видео моделей.

Математика

Имя	Описание
Авель	Абель - это платформа для оценки математических возможностей LLMS.
Матбенч	Mathbench-это многоуровневый эталон оценки математики для LLMS.
Матеваль	Матеваль является эталоном для оценки математических возможностей LLMS.
Матусереваль	Mathusereval-это эталон с вопросами университетского экзамена и вопросов, связанных с математикой, полученными из моделируемых разговоров с опытными аннотаторами.
Матверс	Mathverse-это ориентир для оценки моделей языка зрения при интерпретации и рассуждениях с визуальной информацией в математических задачах.
Mathvista	Mathvista - это ориентир для оценки математических рассуждений в визуальном контексте.
Математика	Математическое визионо (Math-V) представляет собой ориентир из 3 040 визуально контекстуализированных математических задач из соревнований, охватывающих 16 дисциплин и 5 уровней сложности для оценки математических рассуждений LMMS.
Открытая многоязычная таблица лидеров рассуждений	Открытые многоязычные планы лидеров рассуждений следят и оценивают аргументацию LLMS на многоязычных математических показателях.
Пунамбенч	Putnambench - это ориентир для оценки формальных возможностей математических рассуждений LLMS на конкурсе Putnam.
Scibench	Scibench является ориентиром для оценки возможностей рассуждений LLM для решения сложных научных проблем.
TabMWP	TabMWP - это ориентир для оценки LLMS в задачах математических рассуждений, которые включают как текстовые, так и табличные данные.
Мы-мат	We-Math-это ориентир для оценки человеческих математических способностей LLMS с принципами решения проблем за пределами сквозной производительности.

Агент

Имя	Описание
Агент	Agentbench-это ориентир для оценки языковой модели как агента по разнообразным спектру разных сред.
Агент Студио	Agentstudio-это интегрированное решение, включающее углубленные эталонные наборы, реалистичные среды и всеобъемлющие наборы инструментов.
Характер	Характер-это ориентир для оценки ролевых разговорных агентов (RPCA) с использованием многократных диалогов и профилей символов, с показателями, охватывающими четыре измерения.
ГТА	GTA является эталоном для оценки возможностей использования инструментов агентов на основе LLM в реальных сценариях.
LeetCode-Hard Gym	LeetCode-Hard Gym-это интерфейс среды RL для сервера отправки LeetCode для оценки агентов CodeGen.
LLM Colosseum Soble	LLM Colosseum Soarde Sobde - это платформа для оценки LLMS путем боя в Street Fighter 3.
Магия	Магия-это ориентир для измерения способностей познания, адаптивности, рациональности и сотрудничества LLM в многогранных ситомниках.
Олас предсказал эталон	OLAS Predict Benchmark - это ориентир для оценки агентов по историческому и будущему прогнозированию событий.
TravelPlanner	TravelPlanner - это ориентир для оценки агентов LLM в использовании инструментов и сложное планирование в рамках множества ограничений.
Ван	VisualagentBench (VAB) - это ориентир для оценки и разработки LMM в качестве агентов Visual Foundation, который содержит 5 различных среда для 3 типов репрезентативных задач зрительного агента.
VisualWebarena	VisualWebarena - это ориентир для оценки производительности мультимодальных веб -агентов на реалистичных визуально обоснованных задачах.
Таблица лидеров Webagent	Следует и оценивает LLMS, VLMS и агентов в соответствии с задачами веб -навигации и оценивает LLMS, VLMS и агентов.
Webarena	Webarena-это автономная самодовольная веб-среда для оценки автономных агентов.
γ-пластин	γ-Bench-это структура для оценки игровых способностей LLMS в мультиагентных средах с использованием восемь классических сценариев теории игр и динамичной схемы оценки.
τ-пластин	τ-Bench-это эталон, который эмулирует динамические разговоры между пользователем, содержащим модель, и языковым агентом, оснащенным инструментами API и политическими инструментами, специфичными для домена.

Аудио

Имя	Описание
Воздушная	Air-Bench-это ориентир для оценки способности аудио-моделей понимать различные типы аудиосигналов (включая человеческие речи, естественные звуки и музыку) и, кроме того, взаимодействовать с людьми в текстовом формате.
Аудиобанка	Audiobench является ориентиром для общих аудиомоделей, связанных с инструкциями.
Открыть таблицу лидеров ASR	Open ASR Leader Soarde предоставляет платформу для отслеживания, ранжирования и оценки моделей автоматического распознавания речи (ASR).
Польская таблица лидеров ASR	Польская таблица лидеров ASR направлена на то, чтобы обеспечить всесторонний обзор производительности систем ASR/STT для польской.
Лосось	Лосось - это набор оценки, который сравнивает модели речевого языка по консистенции, фоновому шуму, эмоциям, идентичности динамиков и реакции импульсивного импульса в помещении.
TTS Arena	TTS-Arena размещает арену текста в речи (TTS), где различные модели TTS конкурируют на основе их эффективности в создании речи.
В таблице лидеров шепота	Shepper Leader Soarde - это отслеживание платформы и сравнение производительности распознавания речи аудио на различных наборах данных.

3D

Имя	Описание
3D арена	3D Arena размещает арену 3D -поколения, где различные 3D -генеративные модели конкурируют на основе их производительности в создании 3D -моделей.
3D-папа	3D-POPE-это ориентир для оценки галлюцинации объектов в 3D-генеративных моделях.
3dgen Arena	3dgen Arena размещает арену 3D -поколения, где различные 3D -генеративные модели конкурируют на основе их производительности в создании 3D -моделей.
ПБ	BOP является эталоном для оценки 6D позы жесткого объекта из одного входного изображения RGB-D.
Gpteval3d	GPTEVAL3D является эталоном для оценки возможностей MLLMS с помощью трехмерного контента с помощью многопрофильных изображений в качестве входных данных.

Мультимодальный

Имя	Описание
Genai Arena	Genai Arena размещает арену Visual Generation, где различные модели зрения конкурируют на основе их производительности в генерации изображений, издании изображений и генерации видео.
Лейблбоксы лидеров	Лейбонные таблицы лидеров оценивают производительность генеративных моделей искусственного интеллекта с использованием своей фабрики данных: платформа, научного процесса и опытных людей.
Мега-планка	Mega-Bench-это ориентир для мультимодальной оценки с различными задачами по 8 типам приложений, 7 входных форматами, 6 выходными форматами и 10 мультимодальными навыками, охватывающими одноядные, мульти-изображения и видео задачи.

Рейтинг базы данных

Имя	Описание
Vectordbbench	VectordBbench-это ориентир для оценки производительности, экономической эффективности и масштабируемости различных векторных баз данных и облачных сервисов векторных баз данных.

Рейтинг набора данных

Имя	Описание
DataComp	DataComp - это эталон для оценки производительности различных наборов данных с помощью фиксированной архитектуры модели.

Метрический рейтинг

Имя	Описание
Alignscore	Alignscore оценивает эффективность различных метрик при оценке фактической согласованности.

Бумажный рейтинг

Имя	Описание
Таблица лидеров документов	Таблица лидеров документов - это платформа для оценки популярности документов машинного обучения.

Рейтинг таблицы лидеров

Имя	Описание
В таблице лидеров открытых лидеров	В таблице лидеров лидеров открытых лидеров-это мета-лидерство, которое использует человеческие предпочтения для сравнения лидеров машинного обучения.

Расширять