АКЛЮЭ | ACLUE — это тест для оценки понимания древнего китайского языка. |
Таблица лидеров оценки LLM по африканским языкам | Таблица лидеров оценки LLM по африканским языкам отслеживает прогресс и оценивает результаты LLM по африканским языкам. |
Совет агентов | AgentBoard — это эталон для многоходовых агентов LLM, дополненный аналитической оценочной платой для детальной оценки модели, выходящей за рамки окончательных показателей успеха. |
AGIEval | AGIEval — это ориентированный на человека тест для оценки общих способностей базовых моделей в задачах, связанных с человеческим познанием и решением проблем. |
Таблица лидеров Айеры | Таблица лидеров Aiera оценивает эффективность LLM по задачам финансовой разведки, включая назначение докладчиков, идентификацию смены докладчиков, абстрактные обобщения, вопросы и ответы на основе расчетов и маркировку финансовых настроений. |
АИР-Скамейка | AIR-Bench — это эталон для оценки возможностей языковых моделей по поиску разнородной информации. |
Таблица лидеров по показателям энергии ИИ | Таблица лидеров AI Energy Score отслеживает и сравнивает различные модели энергоэффективности. |
AI-тесты | ai-benchmarks содержит несколько результатов оценки задержки ответа популярных сервисов искусственного интеллекта. |
AlignBench | AlignBench — это многомерный тест для оценки соответствия LLM на китайском языке. |
АльпакаЭвал | AlpacaEval — это автоматический оценщик, разработанный для программ LLM, выполняющих инструкции. |
АНГО | ANGO — это эталон оценки модели китайского языка, ориентированный на поколение. |
Таблица лидеров арабских токенизаторов | Таблица лидеров токенизаторов арабского языка сравнивает эффективность LLM при анализе арабского языка в его различных диалектах и формах. |
Арена-Хард-Авто | Arena-Hard-Auto — это эталон для LLM, настроенных на инструкции. |
АвтоГонка | AutoRace фокусируется на прямой оценке цепочек рассуждений LLM с помощью метрики AutoRace (автоматическая оценка цепочки рассуждений). |
Авто Арена | Auto Arena — это тест, в котором агенты различных языковых моделей участвуют в битвах между коллегами, чтобы оценить свою эффективность. |
Авто-J | Auto-J хранит результаты оценки по задачам попарного сравнения ответов и генерации критических замечаний. |
БАБИЛонг | BABILong — это тест для оценки производительности языковых моделей при обработке документов произвольной длины с распределенными фактами. |
ББЛ | BBL (BIG-bench Lite) — это небольшая подгруппа из 24 разнообразных задач JSON из BIG-bench. Он предназначен для обеспечения канонического измерения производительности модели, но при этом его гораздо дешевле оценивать, чем полный набор из более чем 200 программных задач и задач JSON в BIG-bench. |
Будьте честным | BeHonest — это эталон для оценки честности — осознания границ знаний (самопознание), избегания обмана (необманчивости) и последовательности в ответах (последовательность) — в LLM. |
Бенбенч | BenBench — это эталон для оценки степени, в которой LLM проводят дословное обучение на обучающем наборе эталонного набора, а не на тестовом наборе для расширения возможностей. |
БенЧешМарк | BenCzechMark (BCM) — это многозадачный и многометрический тест чешского языка для студентов LLM с уникальной системой оценок, использующей теорию статистической значимости. |
BiGGen-Скамейка | BiGGen-Bench — это комплексный тест для оценки LLM при выполнении широкого спектра задач. |
БотЧат | BotChat — это эталон для оценки возможностей LLM в многоразовом чате с помощью прокси-задачи. |
Прецедентное правоQA | CaselawQA — это эталон, включающий задачи юридической классификации, полученные из юридических баз данных Верховного суда и Апелляционного суда Сонгера. |
CFLUE | CFLUE является эталоном для оценки возможностей LLM в понимании и обработке информации в китайской финансовой сфере. |
Ch3Ef | Ch3Ef — это эталон для оценки соответствия человеческим ожиданиям с использованием 1002 аннотированных человеком образцов в 12 областях и 46 задачах на основе принципа hhh. |
Центр цепочки мыслей | Chain-of-Thought Hub — это эталон для оценки логических способностей студентов LLM. |
Чат-бот Арена | Chatbot Arena представляет собой арену чат-ботов, где различные LLM соревнуются в зависимости от удовлетворенности пользователей. |
ChemBench | ChemBench — это эталон для оценки химических знаний и умственных способностей студентов-магистров права. |
Китайский SimpleQA | Chinese SimpleQA — это китайский тест для оценки фактологической способности языковых моделей отвечать на короткие вопросы. |
Таблица лидеров CLEM | CLEM — это платформа, предназначенная для систематической оценки LLM, оптимизированных для чата, в качестве диалоговых агентов. |
КЛЕВА | CLEVA — это тест для оценки LLM по 31 задаче с использованием 370 тысяч китайских запросов из 84 различных наборов данных и 9 показателей. |
Таблица лидеров крупных моделей Китая | Таблица лидеров крупных моделей Китая — это платформа для оценки эффективности китайских LLM. |
СМБ | CMB — это многоуровневый медицинский тест на китайском языке. |
КММЛУ | CMMLU является эталоном для оценки эффективности LLM по различным предметам в китайском культурном контексте. |
КМММУ | CMMMU — это эталон для оценки LMM при выполнении задач, требующих знаний предмета на уровне колледжа и продуманного рассуждения в китайском контексте. |
CommonGen | CommonGen — это тест для оценки порождающего здравого смысла путем тестирования машин на их способность составлять связные предложения, используя заданный набор общих понятий. |
КомпМикс | CompMix — это эталон для разнородных ответов на вопросы. |
Таблица лидеров по степени сжатия | Таблица лидеров по степени сжатия предназначена для оценки производительности токенизатора на разных языках. |
Таблица лидеров сжатия | Таблица лидеров сжатия — это платформа для оценки эффективности сжатия LLM. |
Копибенч | CopyBench — это эталон для оценки поведения копирования и полезности языковых моделей, а также эффективности методов снижения рисков, связанных с авторским правом. |
CoTaEval | CoTaEval — это эталон для оценки осуществимости и побочных эффектов методов удаления авторских прав для LLM. |
КонвРе | ConvRe - это тест для оценки способности студентов LLM понимать обратные отношения. |
CriticEval | CriticEval — это тест для оценки способности студентов LLM давать критические ответы. |
CS-Скамья | CS-Bench — это двуязычный тест, предназначенный для оценки эффективности студентов LLM в 26 областях информатики с упором на знания и рассуждения. |
МИЛЫЙ | CUTE — это тест для проверки орфографических знаний студентов LLM. |
КиберМетрика | CyberMetric — это эталон для оценки знаний LLM в области кибербезопасности. |
ЧешскийСкамейка | CzechBench — это эталон для оценки моделей чешского языка. |
C-Eval | C-Eval — это китайский оценочный пакет для студентов LLM. |
Таблица лидеров децентрализованной арены | На Decentralized Arena размещена децентрализованная и демократичная платформа для оценки LLM, которая автоматизирует и масштабирует оценки по различным, определяемым пользователем измерениям, включая математику, логику и естественные науки. |
ДекодированиеДоверие | DecodingTrust — это платформа для оценки надежности LLM. |
Таблица лидеров LLM в области доменов | Таблица лидеров LLM в области доменов — это платформа для оценки популярности LLM в конкретной области. |
Таблица лидеров корпоративных сценариев | Таблица лидеров корпоративных сценариев отслеживает и оценивает эффективность LLM в реальных сценариях корпоративного использования. |
EQ-Скамья | EQ-Bench — это тест для оценки аспектов эмоционального интеллекта у студентов LLM. |
Европейская таблица лидеров LLM | Европейская таблица лидеров LLM отслеживает и сравнивает эффективность программ LLM на европейских языках. |
EvalGPT.ai | На EvalGPT.ai есть площадка для чат-ботов, позволяющая сравнивать и оценивать эффективность LLM. |
Эвал Арена | Eval Arena измеряет уровни шума, качество модели и качество тестов путем сравнения пар моделей в нескольких тестах оценки LLM с анализом на уровне примеров и парными сравнениями. |
Таблица лидеров фактов | Таблица лидеров фактов сравнивает фактические возможности программ LLM. |
FanOutQA | FanOutQA — это высококачественный многопрофильный и многодокументный тест для LLM, использующий английскую Википедию в качестве базы знаний. |
FastEval | FastEval — это набор инструментов для быстрой оценки моделей выполнения инструкций и языков чата в различных тестах с быстрым выводом и подробным анализом производительности. |
ФЕЛЬМ | FELM — это мета-тест для оценки фактов для программ LLM. |
ФинЭвал | FinEval — это эталон для оценки знаний в финансовой области в рамках LLM. |
Точная настройка таблицы лидеров | Таблица лидеров тонкой настройки — это платформа для ранжирования и демонстрации моделей, которые были доработаны с использованием наборов данных или платформ с открытым исходным кодом. |
Пламя | Flames — это крайне враждебный китайский эталон для оценки соответствия ценностей LLM в отношении справедливости, безопасности, морали, законности и защиты данных. |
FollowBench | FollowBench — это многоуровневый тест с мелкозернистыми ограничениями для оценки способности LLM следовать инструкциям. |
Набор данных запрещенных вопросов | Набор данных запрещенных вопросов — это тест, содержащий 160 вопросов из 160 нарушенных категорий с соответствующими целями для оценки методов взлома. |
ПредохранительОтзывы | FuseReviews стремится решать задачи по созданию обоснованных текстов, включая развернутые ответы на вопросы и обобщение. |
ГАЙЯ | Целью GAIA является проверка фундаментальных способностей, которыми должен обладать ИИ-помощник. |
ГЭВИ | GAVIE — это тест на основе GPT-4 для оценки галлюцинаций у LMM путем оценки точности и релевантности, не полагаясь на достоверную информацию, аннотированную человеком. |
GPT-Fathom | GPT-Fathom — это пакет оценки LLM, позволяющий сравнивать более 10 ведущих LLM, а также устаревшие модели OpenAI с помощью более чем 20 тщательно отобранных тестов по 7 категориям возможностей, все с согласованными настройками. |
GrailQA | Сильно обобщенные ответы на вопросы (GrailQA) — это крупномасштабный высококачественный тест для ответов на вопросы в базах знаний (KBQA) на Freebase с 64 331 вопросом, аннотированным как ответами, так и соответствующими логическими формами в различном синтаксисе (например, SPARQL, S-выражении). , и т. д.). |
GTBench | GTBench — это эталон для оценки и ранжирования способностей LLM к рассуждению в конкурентной среде с помощью теоретико-игровых задач, например, настольных и карточных игр. |
Таблица лидеров Guerra LLM AI | Таблица лидеров Guerra LLM AI сравнивает и ранжирует эффективность LLM по качеству, цене, производительности, контекстному окну и другим критериям. |
Таблица лидеров галлюцинаций | Целью таблицы лидеров галлюцинаций является отслеживание, ранжирование и оценка галлюцинаций в рамках LLM. |
ХаллуQA | HalluQA — это эталон для оценки явления галлюцинаций у китайских студентов LLM. |
Таблица лидеров LLM на иврите | Таблица лидеров LLM по ивриту отслеживает и ранжирует языковые модели в зависимости от их успехов в выполнении различных задач по ивриту. |
HellaSwag | HellaSwag — это эталон для оценки здравого смысла в программах LLM. |
Таблица лидеров модели оценки галлюцинаций Хьюза | Таблица лидеров модели оценки галлюцинаций Хьюза — это платформа для оценки того, как часто языковая модель вызывает галлюцинации при резюмировании документа. |
Таблица лидеров исландского LLM | Таблица лидеров исландского LLM отслеживает и сравнивает модели выполнения задач на исландском языке. |
IFEval | IFEval — это эталон для оценки возможностей LLM следовать инструкциям с помощью проверяемых инструкций. |
ИЛ-ТУР | IL-TUR — это эталон для оценки языковых моделей при выполнении одноязычных и многоязычных задач, ориентированных на понимание и обоснование индийских юридических документов. |
Индийская таблица лидеров LLM | Indic LLM Leaderboard — это платформа для отслеживания и сравнения эффективности индийских LLM. |
Таблица лидеров Indico LLM | Таблица лидеров Indico LLM оценивает и сравнивает точность различных языковых моделей разных поставщиков, наборов данных и таких возможностей, как классификация текста, извлечение ключевой информации и генеративное суммирование. |
ИнструктЭвал | InstructEval — это пакет для оценки методов выбора инструкций в контексте LLM. |
Итальянская таблица лидеров LLM | Итальянский LLM-Leaderboard отслеживает и сравнивает LLM по задачам на итальянском языке. |
Побег из тюрьмыСкамейка | JailbreakBench — это тест для оценки уязвимостей LLM с помощью состязательных подсказок. |
Японская арена чат-ботов | На японской арене чат-ботов находится арена чат-ботов, где различные студенты LLM соревнуются в зависимости от их навыков владения японским языком. |
Ремень финансовой оценки модели японского языка | Система финансовой оценки японской языковой модели — это средство для оценки японской языковой модели в финансовой сфере. |
Японский тест LLM по ролевым играм | Японский тест LLM Roleplay Benchmark — это тест для оценки эффективности японских LLM в ролевой игре персонажей. |
JMED-LLM | JMED-LLM (Набор данных японской медицинской оценки для моделей большого языка) является эталоном для оценки LLM в медицинской области японского языка. |
ДЖМММУ | JMMMU (японский MMMU) — это мультимодальный тест для оценки эффективности LMM на японском языке. |
JustEval | JustEval — это мощный инструмент, предназначенный для детальной оценки LLM. |
Кола | KoLA является эталоном для оценки мировых знаний в области LLM. |
ЛаМП | LaMP (Персонализация языковых моделей) — это эталон для оценки возможностей персонализации языковых моделей. |
Совет языковой модели | Language Model Council (LMC) — это эталон для оценки задач, которые весьма субъективны и часто не имеют согласия большинства людей. |
LawBench | LawBench — это эталон для оценки юридических возможностей LLM. |
Таблица лидеров | La Leaderboard оценивает и отслеживает запоминание, мышление и лингвистические способности LLM в Испании, странах Латинской Америки и Карибского бассейна. |
ЛогикКор | LogicKor — это эталон для оценки возможностей междисциплинарного мышления корейских студентов LLM. |
Таблица лидеров LongICL | LongICL Leaderboard — это платформа для оценки длительных контекстных оценок обучения для студентов LLM. |
ЛооГЛЕ | LooGLE — это эталон для оценки способности студентов LLM понимать длительный контекст. |
ЛАиВ | LAiW — это эталон для оценки понимания и рассуждения на китайском юридическом языке. |
LLM Бенчмаркерский пакет | LLM Benchmarker Suite — это эталон для оценки комплексных возможностей LLM. |
Оценка большой языковой модели в английском контексте | Оценка большой языковой модели в английском контексте - это платформа для оценки LLM в английском контексте. |
Оценка большой языковой модели в китайском контексте | Оценка большой языковой модели в китайском контексте - это платформа для оценки LLM в китайском контексте. |
ВЕСЫ | LIBRA — это эталон для оценки возможностей LLM в понимании и обработке длинного русского текста. |
Таблица лидеров LibrAI-Eval GenAI | LibrAI-Eval GenAI Leaderboard фокусируется на балансе между возможностями LLM и безопасностью на английском языке. |
LiveBench | LiveBench — это эталон для LLM, позволяющий свести к минимуму загрязнение наборов тестов и обеспечить объективную автоматическую оценку разнообразных, регулярно обновляемых задач. |
LLMEval | LLMEval — это эталон для оценки качества общения в открытом домене с LLM. |
Ллмевал-Гаокао2024-Математика | Llmeval-Gaokao2024-Math — это эталон для оценки программ LLM по математическим задачам уровня Гаокао 2024 года на китайском языке. |
Таблица лидеров LLMГаллюцинация | Таблица лидеров галлюцинаций оценивает LLM на основе ряда критериев, связанных с галлюцинациями. |
LLMPerf | LLMPerf — это инструмент для оценки производительности LLM с использованием как нагрузочных тестов, так и тестов правильности. |
Таблица лидеров прогнозирования риска заболеваний для студентов LLM | Таблица лидеров прогнозирования риска заболеваний LLM — это платформа для оценки LLM по прогнозированию риска заболеваний. |
Таблица лидеров LLM | Таблица лидеров LLM отслеживает и оценивает поставщиков LLM, позволяя выбрать оптимальный API и модель для нужд пользователя. |
Таблица лидеров LLM для CRM | CRM LLM Leaderboard — это платформа для оценки эффективности LLM для бизнес-приложений. |
LLM Обсерватория | LLM Observatory — это эталон, который оценивает и ранжирует LLM на основе их эффективности в предотвращении социальных предубеждений по таким категориям, как ориентация ЛГБТИК+, возраст, пол, политика, раса, религия и ксенофобия. |
Таблица лидеров цен LLM | Таблица лидеров цен LLM отслеживает и сравнивает затраты LLM на основе одного миллиона токенов. |
Рейтинги LLM | LLM Rankings предлагает сравнение языковых моделей в режиме реального времени на основе нормализованного использования токенов для подсказок и дополнений, которое часто обновляется. |
Таблица лидеров LLM по ролевым играм | Таблица лидеров LLM Roleplay оценивает производительность человека и искусственного интеллекта в социальной игре-оборотне для разработки NPC. |
Таблица лидеров LLM по безопасности | Целью LLM Safety Leaderboard является предоставление единой оценки безопасности языковой модели. |
Таблица лидеров вариантов использования LLM | Таблица лидеров вариантов использования LLM отслеживает и оценивает LLM в сценариях использования в бизнесе. |
LLM-AggreFact | LLM-AggreFact — это тест для проверки фактов, который объединяет самые современные общедоступные наборы данных на основе обоснованной оценки фактов. |
LLM-таблица лидеров | LLM-Leaderboard — это совместная работа сообщества по созданию единой центральной таблицы лидеров для LLM. |
Таблица лидеров LLM-Perf | Целью LLM-Perf Leaderboard является сравнение производительности LLM с различным оборудованием, серверными модулями и оптимизациями. |
LMExamQA | LMExamQA — это система сравнительного анализа, в которой языковая модель выступает в качестве экзаменатора, генерируя вопросы и оценивая ответы автоматизированным способом без ссылок для всесторонней и справедливой оценки. |
Лонгбенч | LongBench — это эталон для оценки возможностей LLM по пониманию длительного контекста. |
Лунг | Loong — это долгосрочный эталон для оценки возможностей LLM по обеспечению качества при работе с несколькими документами в финансовых, юридических и академических сценариях. |
Таблица лидеров Low-bit Quantized Open LLM | Таблица лидеров Low-bit Quantized Open LLM отслеживает и сравнивает LLM квантования с различными алгоритмами квантования. |
LV-Оценка | LV-Eval — это долгосрочный тест с пятью уровнями длины и передовыми методами для точной оценки LLM в одно- и многошаговых задачах контроля качества в двуязычных наборах данных. |
ЛюсиЭвал | LucyEval предлагает тщательную оценку эффективности LLM в различных контекстах Китая. |
L-Оценка | L-Eval — это тест оценки языковой модели длинного контекста (LCLM), предназначенный для оценки производительности обработки обширного контекста. |
М3КЕ | M3KE — это масштабный многоуровневый эталон оценки знаний по нескольким предметам, предназначенный для измерения знаний, полученных китайскими студентами LLM. |
МетаКритика | MetaCritique — это судья, который может оценивать критику, написанную человеком или созданную LLM, путем создания критики. |
МЯТА | MINT — это эталон для оценки способности LLM решать задачи с многоходовым взаимодействием с использованием инструментов и обратной связи на естественном языке. |
Мираж | Mirage — это эталон в области расширенного поиска медицинской информации, включающий 7663 вопроса из пяти наборов медицинских данных по обеспечению качества и протестированный на 41 конфигурации с использованием набора инструментов MedRag. |
МедБенч | MedBench — это эталон для оценки владения знаниями и способностей к рассуждению в медицинских программах LLM. |
MedS-Bench | MedS-Bench — это медицинский тест, который оценивает LLM по 11 категориям задач с использованием 39 различных наборов данных. |
Таблица лидеров Meta Open LLM | Таблица лидеров Meta Open LLM служит центральным узлом для консолидации данных из различных открытых таблиц лидеров LLM на единой, удобной для пользователя странице визуализации. |
Таблица лидеров принятия клинических решений MIMIC | Таблица лидеров принятия клинических решений MIMIC отслеживает и оценивает степень магистра права в области реалистичного принятия клинических решений при патологиях брюшной полости. |
МиксЭвал | MixEval — это тест для оценки LLM путем стратегического сочетания готовых тестов. |
Таблица лидеров ML.ENERGY | Таблица лидеров ML.ENERGY оценивает энергопотребление LLM. |
MMedBench | MMedBench — это медицинский тест для оценки степени понимания многоязычных программ LLM. |
ММЛУ | MMLU — это эталон для оценки эффективности программ LLM в широком спектре задач по распознаванию естественного языка. |
Таблица лидеров MMLU по задачам | Таблица лидеров MMLU по задачам предоставляет платформу для оценки и сравнения различных моделей машинного обучения для различных задач понимания языка. |
ММЛУ-Про | MMLU-Pro — это более сложная версия MMLU для оценки логических способностей LLM. |
Таблица лидеров ModelScope LLM | ModelScope LLM Leaderboard — это платформа для объективной и всесторонней оценки LLM. |
Таблица лидеров оценки модели | Таблица лидеров оценки моделей отслеживает и оценивает модели генерации текста на основе их производительности в различных тестах с использованием платформы Mosaic Eval Gauntlet. |
Таблица лидеров MSNP | Таблица лидеров MSNP отслеживает и оценивает производительность квантованных моделей GGUF на различных комбинациях графических процессоров и процессоров с использованием одноузловых настроек через Ollama. |
МСТЭБ | MSTEB — это эталон для измерения производительности моделей встраивания текста на испанском языке. |
МТЕБ | MTEB — это масштабный тест для измерения производительности моделей внедрения текста при выполнении различных задач внедрения на 112 языках. |
МТБ Арена | MTEB Arena содержит модельную арену для динамической, реальной оценки внедрения моделей посредством пользовательских запросов и сравнений результатов. |
МТ-Скамья-101 | MT-Bench-101 — это детальный тест для оценки LLM в многоходовых диалогах. |
Таблица лидеров MY Malay LLM | Целью таблицы лидеров MY Malay LLM является отслеживание, ранжирование и оценка открытых LLM по малайским задачам. |
НоЧа | NoCha — это тест для оценки того, насколько хорошо языковые модели с длинным контекстом могут проверять утверждения, написанные о художественных книгах. |
NPHardEval | NPHardEval — это тест для оценки логических способностей студентов LLM через призму классов вычислительной сложности. |
Таблица лидеров Occiglot Euro LLM | Таблица лидеров Occiglot Euro LLM сравнивает LLM на четырех основных языках из тестов Okapi и Belebele (французский, итальянский, немецкий, испанский и голландский). |
ОлимпиадаСкамейка | OlympiadBench — это двуязычный мультимодальный научный тест, включающий 8476 задач по математике и физике олимпиадного уровня с пошаговыми аннотациями для рассуждений экспертного уровня. |
Олимпийская Арена | OlympicArena — это эталон для оценки передовых возможностей LLM в широком спектре задач олимпийского уровня. |
убабуга | Oobabooga — это эталон для проведения повторяемых тестов производительности LLM с помощью веб-интерфейса oobabooga. |
ОпенЭвал | OpenEval — это платформа для оценки китайских LLM. |
Таблица лидеров OpenLLM в Турции | Таблица лидеров OpenLLM на турецком языке отслеживает прогресс и оценивает результаты LLM на турецком языке. |
Таблица лидеров открытости | Таблица лидеров открытости отслеживает и оценивает прозрачность моделей с точки зрения открытого доступа к весам, данным и лицензиям, выявляя модели, которые не соответствуют стандартам открытости. |
Таблица лидеров открытости | Таблица лидеров открытости — это инструмент, который отслеживает открытость LLM, настроенных на инструкции, оценивая их прозрачность, данные и доступность моделей. |
Открытый исследователь | OpenResearcher содержит результаты сравнительного тестирования различных систем, связанных с RAG, в виде таблицы лидеров. |
Открытая таблица лидеров LLM по арабскому языку | Таблица лидеров LLM на арабском языке отслеживает прогресс и оценивает эффективность программ LLM на арабском языке. |
Открытая таблица лидеров LLM Китая | Таблица лидеров Open Chinese LLM направлена на отслеживание, ранжирование и оценку открытых китайских LLM. |
Таблица лидеров Open CoT | Таблица лидеров Open CoT отслеживает способности LLM генерировать эффективные цепочки рассуждений. |
Таблица лидеров оценки Open Dutch LLM | Таблица лидеров оценки Open Dutch LLM отслеживает прогресс и оценивает эффективность программ LLM на голландском языке. |
Таблица лидеров Open Financial LLM | Целью Open Financial LLM Leaderboard является оценка и сравнение эффективности финансовых программ LLM. |
Открытая таблица лидеров ITA LLM | Таблица лидеров Open ITA LLM отслеживает прогресс и оценивает эффективность программ LLM на итальянском языке. |
Открытая таблица лидеров Ko-LLM | Таблица лидеров Open Ko-LLM отслеживает прогресс и оценивает результаты LLM на корейском языке. |
Открыть таблицу лидеров LLM | Таблица лидеров Open LLM отслеживает прогресс и оценивает эффективность программ LLM на английском языке. |
Открытая таблица лидеров Medical-LLM | Таблица лидеров Open Medical-LLM направлена на отслеживание, ранжирование и оценку открытых программ LLM в медицинской сфере. |
Открыть таблицу лидеров MLLM | Целью Open MLLM Leaderboard является отслеживание, ранжирование и оценка LLM и чат-ботов. |
Открытая таблица лидеров MOE LLM | Таблица лидеров OPEN MOE LLM оценивает производительность и эффективность различных программ LLM Mixture of Experts (MoE). |
Открытая таблица лидеров многоязычной оценки LLM | Таблица лидеров открытой многоязычной оценки LLM отслеживает прогресс и оценивает эффективность программ LLM на нескольких языках. |
Открытая таблица лидеров PL LLM | Open PL LLM Leaderboard — это платформа для оценки эффективности различных программ LLM на польском языке. |
Открытая таблица лидеров LLM в Португалии | Целью таблицы лидеров Open PT LLM является оценка и сравнение LLM в задачах на португальском языке. |
Открытая таблица лидеров LLM Тайваня | Таблица лидеров LLM Open Taiwan демонстрирует эффективность LLM при выполнении различных задач по пониманию тайваньского мандаринского языка. |
Таблица лидеров Open-LLM | Open-LLM-Leaderboard оценивает LLM в понимании языка и рассуждении путем перехода от вопросов с несколькими вариантами ответов (MCQ) к вопросам открытого типа. |
Панель приборов ОПУС-МТ | OPUS-MT Dashboard — это платформа для отслеживания и сравнения моделей машинного перевода по нескольким языковым парам и показателям. |
OR-Скамья | OR-Bench — это эталон для оценки чрезмерного отказа от повышения безопасности в программах LLM. |
ПарсБенч | ParsBench предоставляет наборы инструментов для сравнительного анализа программ LLM на основе персидского языка. |
Таблица лидеров LLM в Персии | Таблица лидеров LLM на персидском языке обеспечивает надежную оценку программ LLM на персидском языке. |
Таблица лидеров Пиноккио ITA | Таблица лидеров Pinocchio ITA отслеживает и оценивает степень магистра права на итальянском языке. |
ПЛ-МТЕБ | PL-MTEB (Polish Massive Text Embedding Benchmark) — это тест для оценки встраивания текста на польском языке в 28 задачах НЛП. |
Польская медицинская таблица лидеров | Polish Medical Leaderboard оценивает языковые модели на сертификационных экзаменах польской комиссии. |
Таблица лидеров LLM на базе Intel | Таблица лидеров LLM на базе Intel оценивает, оценивает и ранжирует LLM, которые прошли предварительное обучение или были настроены на оборудовании Intel. |
ПабМедQA | PubMedQA — это эталон для оценки ответов на вопросы биомедицинских исследований. |
ПодсказкаСкамейка | PromptBench — это тест для оценки устойчивости LLM к состязательным подсказкам. |
QAConv | QAConv — это эталон для ответов на вопросы, использующий сложные, специфичные для предметной области и асинхронные разговоры в качестве источника знаний. |
Качество | КАЧЕСТВО — это эталон для оценки ответов на вопросы с несколькими вариантами ответов в длинном контексте. |
КРОЛИКИ | RABBITS — это эталон для оценки надежности LLM путем оценки их обращения с синонимами, в частности с торговыми названиями и названиями непатентованных лекарств. |
Ракуда | Rakuda — это эталон для оценки LLM на основе того, насколько хорошо они отвечают на ряд открытых вопросов по японским темам. |
РедТим Арена | RedTeam Arena — это платформа для Red Team для студентов LLM. |
Красный эталон сопротивления команды | Red Teaming Consectance Benchmark - это ориентир для оценки надежности LLM против Red Teaming подсказок. |
REST-MCT* | REST-MCTS*-это подкрепленный метод самостоятельного подготовки, который использует вывод по поиску деревьев и процесса для сбора высококачественных следов рассуждений для политики обучения и моделей вознаграждения без ручных шага-аннотаций. |
Рецензент Арена | Рецензент Arena размещает рецензентную арену, где различные LLMS конкурируют на основе их успеваемости в критике академических работ. |
Ролеваль | Roleeval - это двуязычный эталон для оценки возможностей запоминания, использования и рассуждений знаний ролевых знаний о LLMS. |
Собственная таблица лидеров RPBench | RPBench-Auto-это автоматический трубопровод для оценки LLMS с использованием 80 человек для характера и 80 сцен для ролевой игры на основе сцены. |
Русская чат -бот -арена | Chatbot Arena размещает арену чатбота, где различные LLMS конкурируют на русском языке на основе удовлетворенности пользователей. |
Русская суперклей | Russian Superglue - это ориентир для моделей русского языка, сосредоточенная на логике, здравом смысле и рассуждениях. |
R-сустава | R-Judge является ориентиром для оценки знания LLMS в оценке и выявлении рисков безопасности, полученных с учетом записей о взаимодействии агента. |
Подсказки безопасности | Подсказка для безопасности является ориентиром для оценки безопасности китайских LLMS. |
Безопасность | SafetyBench - это ориентир для оценки безопасности LLMS. |
Салат | Salad-Bench является ориентиром для оценки безопасности и безопасности LLMS. |
Скандал | Scandeval - это ориентир для оценки LLM по задачам на скандинавских языках, а также на немецком, голландском и английском языке. |
Таблица лидеров науки | Таблица лидеров науки - это платформа для оценки возможностей LLMS для решения научных проблем. |
Sciglm | SCIGLM-это набор моделей научных языков, которые используют саморефлексивную структуру аннотации обучения для улучшения научных рассуждений путем генерации и пересмотра пошаговых решений для некашиных вопросов. |
Sciknoweval | Sciknoweval - это ориентир для оценки LLMS, основанных на их мастерстве в широком изучении, усердно расследовать, глубоко размышляя, четко проницательно и усердно практиковать. |
Свитки | Scrolls - это ориентир для оценки возможностей рассуждений LLMS по длинным текстам. |
SEAEXAM | SeaExam является ориентиром для оценки LLMS для языков Юго -Восточной Азии (морской). |
SEAL LLM -списки лидеров | SEAL LLM Leaderwards-это экспертная частная платформа оценки для LLMS. |
Сиэваль | Seaval - это ориентир для оценки производительности многоязычных LLM в понимании и рассуждениях с помощью естественного языка, а также понимания культурных практик, нюансов и ценностей. |
Морской шлем | Sea Helm-это ориентир для оценки производительности LLMS в задачах английской и юго-восточной азии, сосредоточенного на чате, сведении к обучению и лингвистическим возможностям. |
Секавина | Seceval - это ориентир для оценки знаний о кибербезопасности моделей фундамента. |
Самосовершенство, таблица лидеров | Самопроизводительное таблицу лидеров (SIL)-это динамическая платформа, которая непрерывно обновляет наборы тестирования и рейтинги, чтобы обеспечить представление о производительности в реальном времени для LLM и чат-ботов с открытым исходным кодом. |
Спецификация | Spec-Bench является эталоном для оценки спекулятивных методов декодирования в разных сценариях. |
Structeval | Structeval является ориентиром для оценки LLM за счет проведения структурированных оценок на нескольких когнитивных уровнях и критических концепциях. |
Subquadratic LLM | Subquadratic LLM-таблица лидеров оценивает LLM с субвадратическими/без внимания архитектур (то есть RWKV & Mamba). |
Супербанг | Superbench - это всеобъемлющая система задач и аспектов для оценки общих возможностей LLMS. |
Суперклей | SuperGlue - это эталон для оценки эффективности LLMS на множестве сложных языковых задач. |
Суперлим | Superlim - это ориентир для оценки возможностей понимания языка LLMS на шведском языке. |
Swahili LLM-Leaderboard | Swahili LLM-Leaderboard-это совместное сообщество, чтобы создать одну центральную таблицу лидеров для LLMS. |
S-Eval | S-Eval-это всеобъемлющий многомерный контроль безопасности с 220 000 подсказок, предназначенных для оценки безопасности LLM в различных измерениях риска. |
TableQaeval | TableQaeval-это ориентир для оценки производительности LLM в моделировании длинных таблиц и возможностей понимания, таких как числовые и мульти-хоп. |
Tat-DQA | TAT-DQA является ориентиром для оценки LLMS по дискретным рассуждениям по поводу документов, которые объединяют как структурированную, так и неструктурированную информацию. |
Тат-ка | TAT-QA является эталоном для оценки LLMS по дискретным рассуждениям по документам, которые объединяют как табличный, так и текстовый контент. |
Таблица лидеров Thai LLM | Таблица лидеров Thai LLM направлена на то, чтобы отслеживать и оценить LLM в тайском языке. |
Куча | Своение является ориентиром для оценки мировых знаний и способности к рассуждениям LLMS. |
Тофу | Tofu - это ориентир для оценки отключения производительности LLM в реалистичных сценариях. |
Таблица лидеров Toloka LLM | Toloka LLM Soade Soade - это ориентир для оценки LLMS на основе подлинных подлинных пользовательских подсказок и экспертной оценки человека. |
Инструмент | Toolbench - это платформа для обучения, обслуживания и оценки LLMS специально для обучения инструментам. |
Таблица лидеров токсичности | Таблица лидеров токсичности оценивает токсичность LLM. |
Таблицы лидеров Trustbit LLM | Таблицы лидеров Trustbit LLM - это платформа, которая предоставляет ориентиры для строительства и доставки продуктов с LLMS. |
Trustllm | Trustllm - это ориентир для оценки достоверности LLMS. |
Тьюрингедвице | TuringAdvice-это ориентир для оценки способности языковых моделей генерировать полезные советы для реальных, открытых ситуаций. |
Тьюреваль | TutoReval-это критерия, отвечающего вопросом, который оценивает, насколько хорошо преподаватель LLM может помочь пользователю понять главу из учебника по науке. |
T-Eval | T-Eval является эталоном для оценки возможности использования инструментов LLMS. |
Таблица лидеров UGI | Согласно таблице лидеров UGI и сравнивает нецензуровку и противоречивую информацию, известную LLMS. |
Ультраэвально | Ultraeval-это рамка с открытым исходным кодом для прозрачного и воспроизводимого сравнения LLMS в различных измерениях производительности. |
Vals ai | Vals AI-это платформа, оценивающая генеративную точность ИИ и эффективность в реальных юридических задачах. |
Вещание | Визуальное обоснование здравого смысла (VCR) является ориентиром для визуального понимания на уровне познания, требующих моделей для ответа на визуальные вопросы и предоставить обоснование для их ответов. |
Видор | Vidore - это ориентир для оценки моделей поиска в их способности соответствовать запросам с соответствующими документами на уровне страницы. |
Собственность лидеров VLLMS | Собственность лидеров VLLMS направлена на то, чтобы отслеживать, ранжировать и оценивать открытые LLMS и чат -боты. |
VMLU | VMLU является ориентиром для оценки общих возможностей моделей фундамента на вьетнамцев. |
Уайлдбенч | Wildbench является эталоном для оценки языковых моделей по сложным задачам, которые очень похожи на реальные приложения. |
Xiezhi | Xiezhi является ориентиром для целостной оценки знаний доменов LLMS. |
Янолджа Арена | Yanolja Arena организует модельную арену для оценки возможностей LLMS при суммировании и переводе текста. |
Еще одна таблица лидеров LLM | Еще одна таблица лидеров LLM - это платформа для отслеживания, ранжирования и оценки открытых LLM и чат -ботов. |
Зебралог | Zebralogic - это эталонный оценивающий логический рассуждение LLMS с использованием логических загадков сетки, типа проблемы удовлетворенности ограничения (CSP). |
Нулевой | Zerosumeval - это конкурентная структура оценки для LLMS с использованием многопользовательских симуляций с четкими условиями победы. |