아클루 | ACLUE는 고대 중국어 이해력을 평가하는 벤치마크입니다. |
아프리카 언어 LLM 평가 순위표 | 아프리카 언어 LLM 평가 리더보드는 아프리카 언어에 대한 LLM의 진행 상황을 추적하고 성과 순위를 매깁니다. |
에이전트보드 | AgentBoard는 최종 성공률 이상의 상세한 모델 평가를 위한 분석 평가 보드로 보완된 다중 회전 LLM 에이전트에 대한 벤치마크입니다. |
AGI평가 | AGIEval은 인간의 인지 및 문제 해결과 관련된 작업에서 기초 모델의 일반적인 능력을 평가하기 위한 인간 중심 벤치마크입니다. |
아이에라 리더보드 | Aiera Leaderboard는 발표자 할당, 발표자 변경 식별, 추상적 요약, 계산 기반 Q&A, 재무 감정 태깅 등 금융 정보 작업에 대한 LLM 성과를 평가합니다. |
에어벤치 | AIR-Bench는 언어 모델의 이종 정보 검색 기능을 평가하기 위한 벤치마크입니다. |
AI 에너지 점수 리더보드 | AI 에너지 스코어 리더보드는 에너지 효율의 다양한 모델을 추적하고 비교합니다. |
AI 벤치마크 | ai-benchmarks에는 인기 있는 AI 서비스의 응답 지연 시간에 대한 몇 가지 평가 결과가 포함되어 있습니다. |
AlignBench | AlignBench는 중국어로 LLM의 정렬을 평가하기 위한 다차원 벤치마크입니다. |
알파카평가 | AlpacaEval은 지침을 따르는 LLM을 위해 설계된 자동 평가기입니다. |
앙고 | ANGO는 세대 중심의 중국어 모델 평가 벤치마크입니다. |
아랍어 토크나이저 리더보드 | 아랍어 토크나이저 리더보드는 다양한 방언과 형식의 아랍어를 구문 분석하는 데 있어 LLM의 효율성을 비교합니다. |
아레나-하드-오토 | Arena-Hard-Auto는 교육 조정 LLM의 벤치마크입니다. |
자동 경주 | AutoRace는 메트릭 AutoRace(자동 추론 체인 평가)를 사용하여 LLM 추론 체인을 직접 평가하는 데 중점을 둡니다. |
오토아레나 | 오토아레나는 다양한 언어 모델 에이전트들이 피어 배틀을 벌여 자신의 성능을 평가하는 벤치마크다. |
자동-J | Auto-J는 쌍별 응답 비교 및 비평 생성 작업에 대한 평가 결과를 호스팅합니다. |
바비롱 | BABILong은 분산된 사실이 포함된 임의의 긴 문서를 처리할 때 언어 모델의 성능을 평가하기 위한 벤치마크입니다. |
BBL | BBL(BIG-bench Lite)은 BIG-bench의 24가지 다양한 JSON 작업의 작은 하위 집합입니다. 이는 BIG-bench의 200개 이상의 프로그래밍 방식 및 JSON 작업으로 구성된 전체 세트보다 평가 비용이 훨씬 저렴하면서 모델 성능에 대한 표준적인 측정값을 제공하도록 설계되었습니다. |
정직하다 | BeHonest는 LLM에서 지식 경계에 대한 인식(자기 지식), 사기 방지(비기만성), 응답의 일관성(일관성) 등 정직성을 평가하기 위한 벤치마크입니다. |
벤벤치 | BenBench는 LLM이 기능 향상을 위해 테스트 세트에 대해 벤치마크 훈련 세트에 대한 축어적 훈련을 수행하는 정도를 평가하는 벤치마크입니다. |
Ben체코마크Mark | BenCzechMark(BCM)는 통계적 유의성 이론을 활용하는 고유한 채점 시스템을 갖춘 LLM을 위한 멀티태스킹 및 멀티메트릭 체코어 벤치마크입니다. |
BiGGen-벤치 | BiGGen-Bench는 다양한 작업에서 LLM을 평가하기 위한 포괄적인 벤치마크입니다. |
봇챗 | BotChat은 프록시 작업을 통해 LLM의 다단계 채팅 기능을 평가하는 벤치마크입니다. |
CaselawQA | CaselawQA는 대법원 및 송어 항소법원 법률 데이터베이스에서 파생된 법률 분류 작업으로 구성된 벤치마크입니다. |
CFLUE | CFLUE는 중국 금융 영역에서 LLM의 이해 및 처리 능력을 평가하는 벤치마크입니다. |
Ch3Ef | Ch3Ef는 hhh 원칙을 기반으로 12개 도메인과 46개 작업에 걸쳐 사람이 주석을 단 1,002개의 샘플을 사용하여 사람의 기대치에 대한 일치성을 평가하는 벤치마크입니다. |
생각의 사슬 허브 | Chain-of-Thought Hub는 LLM의 추론 능력을 평가하는 벤치마크입니다. |
챗봇 아레나 | Chatbot Arena는 다양한 LLM이 사용자 만족도를 바탕으로 경쟁하는 챗봇 경기장을 개최합니다. |
켐벤치 | ChemBench는 LLM의 화학적 지식과 추론 능력을 평가하는 벤치마크입니다. |
중국어 SimpleQA | 중국어 SimpleQA는 짧은 질문에 답하는 언어 모델의 사실성 능력을 평가하는 중국어 벤치마크입니다. |
CLEM 리더보드 | CLEM은 대화 에이전트로서 채팅에 최적화된 LLM을 체계적으로 평가하기 위해 설계된 프레임워크입니다. |
클레바 | CLEVA는 84개의 다양한 데이터 세트와 9개의 지표에서 얻은 370,000개의 중국어 쿼리를 사용하여 31개 작업에 대한 LLM을 평가하는 벤치마크입니다. |
중국 대형 모델 리더보드 | Chinese Large Model Leaderboard는 중국 LLM의 성과를 평가하는 플랫폼입니다. |
CMB | CMB는 중국어로 된 다단계 의료 벤치마크입니다. |
CMMLU | CMMLU는 중국 문화 맥락 내에서 다양한 주제에 대한 LLM의 성과를 평가하는 벤치마크입니다. |
CMMMU | CMMMU는 대학 수준의 주제 지식과 중국어 맥락에서의 신중한 추론을 요구하는 작업에 대해 LMM을 평가하기 위한 벤치마크입니다. |
커먼젠 | CommonGen은 주어진 공통 개념 세트를 사용하여 일관된 문장을 구성하는 능력에 대해 기계를 테스트하여 생성적 상식 추론을 평가하는 벤치마크입니다. |
CompMix | CompMix는 이기종 질문 답변에 대한 벤치마크입니다. |
압축률 리더보드 | 압축률 리더보드는 다양한 언어의 토크나이저 성능을 평가하는 것을 목표로 합니다. |
압축 리더보드 | Compression Leaderboard는 LLM의 압축 성능을 평가하는 플랫폼입니다. |
카피벤치 | CopyBench는 복사 동작과 언어 모델의 유용성뿐 아니라 저작권 위험을 완화하는 방법의 효율성을 평가하는 벤치마크입니다. |
CoTaEval | CoTaEval은 LLM에 대한 저작권 게시 중단 방법의 타당성과 부작용을 평가하기 위한 벤치마크입니다. |
전환 | ConvRe는 LLM의 대화 관계 이해 능력을 평가하는 벤치마크입니다. |
비평가평가 | CriticEval은 LLM의 비판적 대응 능력을 평가하는 벤치마크입니다. |
CS-벤치 | CS-Bench는 지식과 추론에 중점을 두고 26개 컴퓨터 과학 하위 분야에서 LLM의 성과를 평가하도록 설계된 이중 언어 벤치마크입니다. |
귀여운 | CUTE는 LLM의 철자법 지식을 테스트하는 벤치마크입니다. |
사이버메트릭 | CyberMetric은 LLM의 사이버 보안 지식을 평가하는 벤치마크입니다. |
체코벤치 | CzechBench는 체코어 모델을 평가하는 벤치마크입니다. |
C-평가 | C-Eval은 LLM을 위한 중국어 평가 제품군입니다. |
분산형 아레나 리더보드 | Decentralized Arena는 LLM 평가를 위한 분산되고 민주적인 플랫폼을 호스팅하며, 수학, 논리, 과학을 포함한 다양한 사용자 정의 차원에 걸쳐 평가를 자동화하고 확장합니다. |
디코딩신뢰 | DecodingTrust는 LLM의 신뢰성을 평가하는 플랫폼입니다. |
도메인 LLM 리더보드 | 도메인 LLM 리더보드는 도메인별 LLM의 인기를 평가하는 플랫폼입니다. |
엔터프라이즈 시나리오 리더보드 | Enterprise Scenarios Leaderboard는 실제 기업 사용 사례에서 LLM의 성과를 추적하고 평가합니다. |
EQ-벤치 | EQ-Bench는 LLM의 감성 지능 측면을 평가하는 벤치마크입니다. |
유럽 LLM 리더보드 | 유럽 LLM 리더보드는 유럽 언어로 된 LLM의 성과를 추적하고 비교합니다. |
EvalGPT.ai | EvalGPT.ai는 LLM의 성능을 비교하고 순위를 매기는 챗봇 경기장을 호스팅합니다. |
평가 경기장 | Eval Arena는 예제 수준 분석 및 쌍별 비교를 통해 여러 LLM 평가 벤치마크에서 모델 쌍을 비교하여 노이즈 수준, 모델 품질 및 벤치마크 품질을 측정합니다. |
사실성 리더보드 | 사실성 리더보드(Factuality Leaderboard)는 LLM의 사실적 역량을 비교합니다. |
팬아웃QA | FanOutQA는 영어 Wikipedia를 지식 기반으로 사용하는 LLM을 위한 고품질, 다중 홉, 다중 문서 벤치마크입니다. |
빠른 평가 | FastEval은 빠른 추론과 상세한 성능 통찰력을 통해 다양한 벤치마크에서 지침 따르기 및 채팅 언어 모델을 신속하게 평가하기 위한 툴킷입니다. |
펠름 | FELM은 LLM에 대한 사실성 평가 벤치마크를 평가하기 위한 메타 벤치마크입니다. |
최종 평가 | FinEval은 LLM의 금융 도메인 지식을 평가하기 위한 벤치마크입니다. |
리더보드 미세 조정 | Fine-tuning Leaderboard는 오픈 소스 데이터 세트 또는 프레임워크를 사용하여 미세 조정된 모델의 순위를 매기고 전시하는 플랫폼입니다. |
화염 | Flames는 공정성, 안전, 도덕성, 합법성 및 데이터 보호 전반에 걸쳐 LLM의 가치 정렬을 평가하기 위한 매우 적대적인 중국 벤치마크입니다. |
팔로우벤치 | FollowBench는 LLM의 명령 따르기 기능을 평가하기 위한 벤치마크를 따르는 다단계의 세분화된 제약 조건입니다. |
금지된 질문 데이터세트 | Forbidden Question Dataset은 탈옥 방법을 평가하기 위한 해당 목표와 함께 위반된 160개 범주의 160개 질문을 포함하는 벤치마크입니다. |
퓨즈리뷰 | FuseReviews는 장문의 질문 답변 및 요약을 포함한 기반 텍스트 생성 작업을 발전시키는 것을 목표로 합니다. |
가이아 | GAIA는 AI 비서가 갖춰야 할 기본 능력을 테스트하는 것을 목표로 한다. |
가비 | GAVIE는 사람이 주석을 추가한 사실에 의존하지 않고 정확성과 관련성을 평가하여 LMM의 환각을 평가하기 위한 GPT-4 지원 벤치마크입니다. |
GPT-패덤 | GPT-Fathom은 모두 정렬된 설정에 따라 7개 기능 범주에 걸쳐 선별된 20개 이상의 벤치마크에서 10개 이상의 주요 LLM과 OpenAI의 레거시 모델을 벤치마킹하는 LLM 평가 제품군입니다. |
GrailQA | GrailQA(강력하게 일반화 가능한 질문 답변)는 Freebase의 지식 기반(KBQA)에 대한 질문 답변을 위한 대규모 고품질 벤치마크로, 답변과 다양한 구문(예: SPARQL, S-표현식)의 해당 논리 형식으로 주석이 달린 64,331개의 질문이 있습니다. , 등.). |
GTBench | GTBench는 보드 및 카드 게임과 같은 게임 이론 작업을 통해 경쟁 환경에서 LLM의 추론 능력을 평가하고 순위를 매기는 벤치마크입니다. |
Guerra LLM AI 리더보드 | Guerra LLM AI 리더보드는 품질, 가격, 성능, 컨텍스트 창 등에서 LLM의 성능을 비교하고 순위를 매깁니다. |
환각 리더보드 | 환각 리더보드는 LLM의 환각을 추적하고 순위를 매기고 평가하는 것을 목표로 합니다. |
할루QA | HalluQA는 중국 LLM의 환각 현상을 평가하는 벤치마크입니다. |
히브리어 LLM 리더보드 | 히브리어 LLM 리더보드는 히브리어의 다양한 작업 성공 여부에 따라 언어 모델을 추적하고 순위를 매깁니다. |
HellaSwag | HellaSwag는 LLM의 상식적 추론을 평가하는 벤치마크입니다. |
휴즈 환각 평가 모델 리더보드 | Hughes 환각 평가 모델 리더보드는 문서를 요약할 때 언어 모델이 환각을 도입하는 빈도를 평가하는 플랫폼입니다. |
아이슬란드어 LLM 리더보드 | 아이슬란드어 LLM 리더보드는 아이슬란드어 작업에 대한 모델을 추적하고 비교합니다. |
IFE평가 | IFEval은 검증 가능한 지침을 통해 LLM의 지침 준수 기능을 평가하는 벤치마크입니다. |
일투르 | IL-TUR은 인도 법률 문서에 대한 이해와 추론에 초점을 맞춘 단일 언어 및 다국어 작업에 대한 언어 모델을 평가하기 위한 벤치마크입니다. |
인도어 LLM 리더보드 | Indic LLM Leaderboard는 Indic LLM의 성과를 추적하고 비교하는 플랫폼입니다. |
인디코 LLM 리더보드 | Indico LLM Leaderboard는 제공자, 데이터 세트 및 텍스트 분류, 주요 정보 추출, 생성적 요약과 같은 기능 전반에 걸쳐 다양한 언어 모델의 정확성을 평가하고 비교합니다. |
지시평가 | InstructEval은 LLM의 맥락에서 명령어 선택 방법을 평가하는 제품군입니다. |
이탈리아어 LLM-리더보드 | 이탈리아어 LLM-Leaderboard는 이탈리아어 작업에서 LLM을 추적하고 비교합니다. |
탈옥벤치 | JailbreakBench는 적대적 프롬프트를 통해 LLM 취약성을 평가하기 위한 벤치마크입니다. |
일본 챗봇 아레나 | 일본어 Chatbot Arena는 다양한 LLM이 일본어 성과를 바탕으로 경쟁하는 chatbot 경기장을 주최합니다. |
일본어 모델 재무 평가 하네스 | 일본어 모델 재무 평가 하네스는 금융 영역의 일본어 모델 평가를 위한 하네스입니다. |
일본어 LLM 역할극 벤치마크 | 일본어 LLM 역할극 벤치마크는 캐릭터 역할극에서 일본어 LLM의 성과를 평가하기 위한 벤치마크입니다. |
JMED-LLM | JMED-LLM(대형 언어 모델에 대한 일본 의료 평가 데이터 세트)은 일본어 의료 분야의 LLM을 평가하기 위한 벤치마크입니다. |
JMMMU | JMMMU(일본어 MMMU)는 일본어로 LMM 성능을 평가하기 위한 다중 모드 벤치마크입니다. |
그냥 평가 | JustEval은 LLM을 세밀하게 평가하기 위해 설계된 강력한 도구입니다. |
코라 | KoLA는 LLM에 대한 세계적 지식을 평가하는 벤치마크입니다. |
램프 | LaMP(Language Models Personalization)는 언어 모델의 개인화 기능을 평가하는 벤치마크입니다. |
언어모델협의회 | LMC(Language Model Council)는 매우 주관적이고 종종 다수의 인간 동의가 부족한 작업을 평가하는 벤치마크입니다. |
로벤치 | LawBench는 LLM의 법적 능력을 평가하는 벤치마크입니다. |
라 리더보드 | La Leaderboard는 스페인, LATAM 및 카리브해 지역의 LLM 암기, 추론 및 언어 능력을 평가하고 추적합니다. |
로직코어 | LogicKor는 한국 LLM의 다학문적 사고 능력을 평가하는 벤치마크입니다. |
LongICL 리더보드 | LongICL 리더보드는 LLM에 대한 장기간의 맥락 내 학습 평가를 평가하는 플랫폼입니다. |
루글 | LooGLE은 LLM의 장기적인 맥락 이해 능력을 평가하기 위한 벤치마크입니다. |
LAiW | LAiW는 중국어 법률언어 이해 및 추론을 평가하는 벤치마크입니다. |
LLM 벤치마커 제품군 | LLM Benchmarker Suite는 LLM의 포괄적인 기능을 평가하기 위한 벤치마크입니다. |
영어 상황에서의 대규모 언어 모델 평가 | 영어 맥락의 대규모 언어 모델 평가는 영어 맥락에서 LLM을 평가하기 위한 플랫폼입니다. |
중국어 맥락의 대규모 언어 모델 평가 | 중국어 맥락의 대규모 언어 모델 평가는 중국어 맥락에서 LLM을 평가하기 위한 플랫폼입니다. |
천칭 | LIBRA는 긴 러시아어 텍스트를 이해하고 처리하는 LLM의 능력을 평가하기 위한 벤치마크입니다. |
LibrAI-Eval GenAI 리더보드 | LibrAI-Eval GenAI 리더보드는 영어로 LLM의 기능과 안전 간의 균형에 중점을 둡니다. |
라이브벤치 | LiveBench는 테스트 세트 오염을 최소화하고 정기적으로 업데이트되는 다양한 작업에 대해 객관적이고 자동화된 평가를 가능하게 하는 LLM용 벤치마크입니다. |
LLMEval | LLMEval은 LLM과의 오픈 도메인 대화의 품질을 평가하는 벤치마크입니다. |
Llmeval-Gaokao2024-수학 | Llmeval-Gaokao2024-Math는 중국어로 된 2024 Gaokao 수준 수학 문제에 대한 LLM을 평가하기 위한 벤치마크입니다. |
LLMH환각 리더보드 | 환각 리더보드(Hallucinations Leaderboard)는 다양한 환각 관련 벤치마크를 기반으로 LLM을 평가합니다. |
LLMPerf | LLMPerf는 로드 및 정확성 테스트를 모두 사용하여 LLM의 성능을 평가하는 도구입니다. |
LLM 질병 위험 예측 리더보드 | LLM 질병 위험 예측 리더보드는 질병 위험 예측에 대한 LLM을 평가하는 플랫폼입니다. |
LLM 리더보드 | LLM Leaderboard는 LLM 제공업체를 추적하고 평가하여 사용자 요구에 맞는 최적의 API 및 모델을 선택할 수 있도록 합니다. |
CRM용 LLM 리더보드 | CRM LLM Leaderboard는 비즈니스 애플리케이션에 대한 LLM의 효율성을 평가하는 플랫폼입니다. |
LLM 천문대 | LLM 관측소는 LGBTIQ+ 성향, 연령, 성별, 정치, 인종, 종교 및 외국인 혐오증과 같은 범주 전반에 걸쳐 사회적 편견을 피하는 성과를 기준으로 LLM을 평가하고 순위를 매기는 벤치마크입니다. |
LLM 가격 리더보드 | LLM Price Leaderboard는 백만 개의 토큰을 기준으로 LLM 비용을 추적하고 비교합니다. |
LLM 순위 | LLM 순위는 자주 업데이트되는 프롬프트 및 완성에 대한 정규화된 토큰 사용을 기반으로 언어 모델의 실시간 비교를 제공합니다. |
LLM 역할극 리더보드 | LLM 역할극 리더보드는 NPC 개발을 위한 소셜 늑대인간 게임에서 인간과 AI 성능을 평가합니다. |
LLM 안전 리더보드 | LLM Safety Leaderboard는 언어 모델 안전성에 대한 통합 평가를 제공하는 것을 목표로 합니다. |
LLM 사용 사례 리더보드 | LLM 사용 사례 리더보드는 비즈니스 사용 사례에서 LLM을 추적하고 평가합니다. |
LLM-AggreFact | LLM-AggreFact는 근거 있는 사실 평가를 바탕으로 공개적으로 사용 가능한 최신 데이터 세트를 집계하는 사실 확인 벤치마크입니다. |
LLM-리더보드 | LLM-Leaderboard는 LLM을 위한 하나의 중앙 리더보드를 만들기 위한 공동 커뮤니티 노력입니다. |
LLM-Perf 리더보드 | LLM-Perf Leaderboard는 다양한 하드웨어, 백엔드 및 최적화를 사용하여 LLM의 성능을 벤치마킹하는 것을 목표로 합니다. |
LMExamQA | LMExamQA는 포괄적이고 공평한 평가를 위해 언어 모델이 시험관 역할을 하여 질문을 생성하고 참조가 없는 자동화된 방식으로 응답을 평가하는 벤치마킹 프레임워크입니다. |
롱벤치 | LongBench는 LLM의 장기 상황 이해 기능을 평가하기 위한 벤치마크입니다. |
룽 | Loong은 재무, 법률 및 학술 시나리오 전반에 걸쳐 LLM의 다중 문서 QA 능력을 평가하기 위한 장기 컨텍스트 벤치마크입니다. |
낮은 비트 양자화 개방형 LLM 리더보드 | 낮은 비트 양자화 개방형 LLM 리더보드는 양자화 LLM을 다양한 양자화 알고리즘과 추적하고 비교합니다. |
LV-평가 | LV-Eval은 이중 언어 데이터 세트 전반에 걸쳐 단일 홉 및 다중 홉 QA 작업에 대한 LLM을 정확하게 평가하기 위한 5가지 길이 수준과 고급 기술을 갖춘 장기 컨텍스트 벤치마크입니다. |
루시평가 | LucyEval은 다양한 중국어 상황에서 LLM의 성과에 대한 철저한 평가를 제공합니다. |
L-평가 | L-Eval은 광범위한 컨텍스트 처리 성능을 평가하기 위한 LCLM(Long Context Language Model) 평가 벤치마크입니다. |
M3KE | M3KE는 중국어 LLM이 습득한 지식을 측정하기 위한 대규모 다단계 다중 주제 지식 평가 벤치마크입니다. |
메타크리틱 | MetaCritique는 비평을 생성하여 사람이 쓴 비평이나 LLM이 생성한 비평을 평가할 수 있는 심사위원입니다. |
박하 | MINT는 도구를 사용하고 자연어 피드백을 활용하여 다중 회전 상호 작용으로 작업을 해결하는 LLM의 능력을 평가하는 벤치마크입니다. |
신기루 | Mirage는 의료 정보 검색 증강 생성을 위한 벤치마크로, 5개의 의료 QA 데이터 세트에서 7,663개의 질문을 제공하고 MedRag 툴킷을 사용하여 41개의 구성으로 테스트되었습니다. |
메드벤치 | MedBench는 의료 LLM의 지식 숙달과 추론 능력을 평가하는 벤치마크입니다. |
MedS 벤치 | MedS-Bench는 39개의 다양한 데이터세트를 사용하여 11개 작업 범주에 걸쳐 LLM을 평가하는 의료 벤치마크입니다. |
Meta Open LLM 리더보드 | Meta Open LLM 리더보드는 다양한 개방형 LLM 리더보드의 데이터를 사용자 친화적인 단일 시각화 페이지로 통합하기 위한 중앙 허브 역할을 합니다. |
MIMIC 임상 의사결정 리더보드 | MIMIC 임상 의사결정 리더보드는 복부 병리학에 대한 현실적인 임상 의사결정에서 LLms를 추적하고 평가합니다. |
MixEval | MixEval은 기성 벤치마크를 전략적으로 혼합하여 LLM을 평가하는 벤치마크입니다. |
ML.ENERGY 리더보드 | ML.ENERGY 리더보드는 LLM의 에너지 소비를 평가합니다. |
MmedBench | MMedBench는 다국어 이해 분야에서 LLM을 평가하기 위한 의료 벤치마크입니다. |
MMLU | MMLU는 다양한 자연어 이해 작업에서 LLM의 성능을 평가하기 위한 벤치마크입니다. |
MMLU 작업별 리더보드 | MMLU-by-task Leaderboard는 다양한 언어 이해 작업 전반에 걸쳐 다양한 ML 모델을 평가하고 비교할 수 있는 플랫폼을 제공합니다. |
MMLU-프로 | MMLU-Pro는 LLM의 추론 기능을 평가하기 위한 더 어려운 MMLU 버전입니다. |
ModelScope LLM 리더보드 | ModelScope LLM Leaderboard는 LLM을 객관적이고 종합적으로 평가하기 위한 플랫폼입니다. |
모델 평가 리더보드 | 모델 평가 리더보드는 mosaic Eval Gauntlet 프레임워크를 사용하여 다양한 벤치마크의 성능을 기반으로 텍스트 생성 모델을 추적하고 평가합니다. |
MSNP 리더보드 | MSNP 리더보드는 Ollama를 통한 단일 노드 설정을 사용하여 다양한 GPU 및 CPU 조합에서 양자화된 GGUF 모델의 성능을 추적하고 평가합니다. |
MSTEB | MSTEB는 스페인어 텍스트 임베딩 모델의 성능을 측정하기 위한 벤치마크입니다. |
MTEB | MTEB는 112개 언어의 다양한 임베딩 작업에 대한 텍스트 임베딩 모델의 성능을 측정하기 위한 대규모 벤치마크입니다. |
MTEB 아레나 | MTEB Arena는 사용자 기반 쿼리 및 검색 비교를 통해 내장 모델에 대한 동적, 실제 평가를 위한 모델 경기장을 호스팅합니다. |
MT-벤치-101 | MT-Bench-101은 다중 턴 대화에서 LLM을 평가하기 위한 세분화된 벤치마크입니다. |
MY 말레이 LLM 리더보드 | MY 말레이어 LLM 리더보드는 말레이어 작업에 대한 공개 LLM을 추적, 순위 지정 및 평가하는 것을 목표로 합니다. |
노차 | NoCha는 긴 맥락 언어 모델이 허구의 책에 대해 작성된 주장을 얼마나 잘 확인할 수 있는지 평가하는 벤치마크입니다. |
NP하드평가 | NPHardEval은 계산 복잡성 클래스의 렌즈를 통해 LLM의 추론 능력을 평가하는 벤치마크입니다. |
Occiglot Euro LLM 리더보드 | Occiglot Euro LLM 리더보드는 Okapi 벤치마크와 Belebele(프랑스어, 이탈리아어, 독일어, 스페인어 및 네덜란드어)의 4개 주요 언어로 된 LLM을 비교합니다. |
올림피아드벤치 | OlympiadBench는 전문가 수준의 단계별 추론 주석과 함께 8,476개의 올림피아드 수준 수학 및 물리학 문제를 특징으로 하는 이중 언어 다중 모드 과학 벤치마크입니다. |
올림픽아레나 | OlympicArena는 광범위한 올림픽 수준 과제에 걸쳐 LLM의 고급 기능을 평가하는 벤치마크입니다. |
오바부가 | Oobabooga는 oobabooga 웹 UI를 사용하여 LLM의 반복 가능한 성능 테스트를 수행하는 벤치마크입니다. |
오픈 평가 | OpenEval은 중국어 LLM을 평가하는 플랫폼 평가입니다. |
OpenLLM 터키어 리더보드 | OpenLLM 터키어 리더보드는 진행 상황을 추적하고 터키어 LLM 성과의 순위를 매깁니다. |
개방성 리더보드 | 개방성 리더보드(Openness Leaderboard)는 중량, 데이터 및 라이센스에 대한 공개 액세스 측면에서 모델의 투명성을 추적 및 평가하여 개방성 표준에 미치지 못하는 모델을 노출합니다. |
개방성 리더보드 | 개방성 리더보드(Openness Leaderboard)는 교육 조정 LLM의 개방성을 추적하여 투명성, 데이터 및 모델 가용성을 평가하는 도구입니다. |
오픈리서처 | OpenResearcher에는 다양한 RAG 관련 시스템에 대한 벤치마킹 결과가 리더보드로 포함되어 있습니다. |
오픈 아랍어 LLM 리더보드 | 오픈 아랍어 LLM 리더보드는 진행 상황을 추적하고 아랍어 LLM 성과의 순위를 매깁니다. |
중국어 LLM 리더보드 열기 | 개방형 중국어 LLM 리더보드는 개방형 중국어 LLM을 추적, 순위 지정 및 평가하는 것을 목표로 합니다. |
CoT 리더보드 열기 | Open CoT Leaderboard는 LLM의 능력을 추적하여 효과적인 사고 연쇄 추론 추적을 생성합니다. |
Open Dutch LLM 평가 리더보드 | Open Dutch LLM Evaluation Leaderboard는 진행 상황을 추적하고 네덜란드어 LLM 성과의 순위를 매깁니다. |
오픈 파이낸셜 LLM 리더보드 | Open Financial LLM Leaderboard는 금융 LLM의 성과를 평가하고 비교하는 것을 목표로 합니다. |
ITA LLM 리더보드 열기 | Open ITA LLM 리더보드는 진행 상황을 추적하고 이탈리아어로 LLM의 성과 순위를 매깁니다. |
Ko-LLM 리더보드 열기 | Open Ko-LLM 리더보드는 진행 상황을 추적하고 한국어로 LLM의 성과 순위를 매깁니다. |
LLM 리더보드 열기 | Open LLM 리더보드는 진행 상황을 추적하고 영어로 LLM 성과의 순위를 매깁니다. |
의료-LLM 리더보드 열기 | Open Medical-LLM 리더보드는 의료 분야의 공개 LLM을 추적하고 순위를 매기고 평가하는 것을 목표로 합니다. |
MLLM 리더보드 열기 | Open MLLM 리더보드는 LLM과 챗봇을 추적하고 순위를 매기고 평가하는 것을 목표로 합니다. |
MOE LLM 리더보드 열기 | OPEN MOE LLM 리더보드는 다양한 MoE(Mixture of Experts) LLM의 성능과 효율성을 평가합니다. |
다국어 LLM 평가 리더보드 공개 | 개방형 다국어 LLM 평가 리더보드는 진행 상황을 추적하고 여러 언어에서 LLM의 성과 순위를 매깁니다. |
PL LLM 리더보드 열기 | Open PL LLM 리더보드는 폴란드어로 된 다양한 LLM의 성과를 평가하기 위한 플랫폼입니다. |
포르투갈어 LLM 리더보드 열기 | Open PT LLM 리더보드는 포르투갈어 작업에서 LLM을 평가하고 비교하는 것을 목표로 합니다. |
대만 LLM 리더보드 열기 | Open Taiwan LLM 리더보드는 다양한 대만어 중국어 이해 작업에 대한 LLM의 성과를 보여줍니다. |
Open-LLM-리더보드 | Open-LLM-Leaderboard는 객관식 질문(MCQ)에서 개방형 질문으로 전환하여 LLM의 언어 이해 및 추론을 평가합니다. |
OPUS-MT 대시보드 | OPUS-MT 대시보드는 여러 언어 쌍과 측정항목에 걸쳐 기계 번역 모델을 추적하고 비교하는 플랫폼입니다. |
OR-벤치 | OR-Bench는 LLM의 향상된 안전성에 대한 과도한 거부를 평가하는 벤치마크입니다. |
파스벤치 | ParsBench는 페르시아어 기반의 LLM 벤치마킹용 툴킷을 제공합니다. |
페르시아어 LLM 리더보드 | 페르시아어 LLM 리더보드는 페르시아어 LLM에 대한 신뢰할 수 있는 평가를 제공합니다. |
피노키오 ITA 리더보드 | Pinocchio ITA 리더보드는 이탈리아어로 된 LLM을 추적하고 평가합니다. |
PL-MTEB | PL-MTEB(Polish Massive Text Embedding Benchmark)는 28개 NLP 작업에서 폴란드어로 된 텍스트 임베딩을 평가하기 위한 벤치마크입니다. |
폴란드 의료 리더보드 | Polish Medical Leaderboard는 폴란드 위원회 인증 시험에서 언어 모델을 평가합니다. |
Intel 기반 LLM 리더보드 | 인텔 기반 LLM 리더보드는 인텔 하드웨어에서 사전 교육을 받았거나 미세 조정된 LLM을 평가하고 점수를 매기고 순위를 매깁니다. |
PubMedQA | PubMedQA는 생물의학 연구 질문 답변을 평가하는 벤치마크입니다. |
프롬프트벤치 | PromptBench는 적대적 프롬프트에 대한 LLM의 견고성을 평가하는 벤치마크입니다. |
QAConv | QAConv는 복잡한 도메인별 비동기 대화를 지식 소스로 사용하는 질문 답변에 대한 벤치마크입니다. |
품질 | QuALITY는 긴 맥락에서 객관식 질문 답변을 평가하기 위한 벤치마크입니다. |
토끼 | RABBITS는 동의어, 특히 브랜드 및 일반 의약품 이름의 처리를 평가하여 LLM의 견고성을 평가하는 벤치마크입니다. |
라쿠다 | Rakuda는 LLM이 일본어 주제에 대한 개방형 질문에 얼마나 잘 대답하는지를 기준으로 LLM을 평가하는 벤치마크입니다. |
레드팀 아레나 | Redteam Arena는 LLM을위한 빨간 팀 플랫폼입니다. |
레드 팀 저항 저항 벤치 마크 | Red Teaming Resistance Benchmark는 Red Teaming Prompts에 대한 LLM의 견고성을 평가하는 벤치 마크입니다. |
REST-MCTS* | REST-MCTS*는 트리 검색 및 프로세스 보상 추론을 사용하여 수동 단계 주석이없는 교육 정책 및 보상 모델을위한 고품질 추론 흔적을 수집하는 강화 된 자체 훈련 방법입니다. |
리뷰어 아레나 | 리뷰어 아레나는 리뷰어 아레나 (Arena)를 개최하며, 여기서 다양한 LLM이 비판 학술 논문의 성과를 바탕으로 경쟁합니다. |
롤리발 | Roleeval은 LLM의 역할 지식의 암기, 활용 및 추론 능력을 평가하기위한 이중 언어 벤치 마크입니다. |
rpbench 리더 보드 | RPBench-Auto는 캐릭터 기반의 경우 80 페르소를 사용하여 LLM을 평가하고 장면 기반 롤 플레잉을위한 80 장면을 평가하기위한 자동화 된 파이프 라인입니다. |
러시아 챗봇 경기장 | Chatbot Arena는 사용자 만족도에 따라 다양한 LLM이 러시아어로 경쟁하는 챗봇 경기장을 개최합니다. |
러시아 슈퍼 글루 | 러시아 슈퍼 글루는 논리, 상식 및 추론 과제에 중점을 둔 러시아어 모델의 벤치 마크입니다. |
R- 판사 | R-Judge는 에이전트 상호 작용 기록이 주어진 안전 위험을 판단하고 식별하는 데있어 LLM의 숙련도를 평가하는 벤치 마크입니다. |
안전 프롬프트 | 안전 프롬프트는 중국 LLM의 안전성을 평가하는 벤치 마크입니다. |
안전 벤치 | SafetyBench는 LLM의 안전성을 평가하는 벤치 마크입니다. |
샐러드 벤치 | 샐러드 벤치는 LLM의 안전성과 보안을 평가하기위한 벤치 마크입니다. |
Scandeval | Scandeval은 스칸디나비아 언어와 독일어, 네덜란드어 및 영어의 작업에 대한 LLM을 평가하는 벤치 마크입니다. |
과학 리더 보드 | Science Leaderboard는 과학 문제를 해결하기위한 LLM의 기능을 평가하는 플랫폼입니다. |
Sciglm | SCIGLM은 자체 반사 교육 주석 주석 프레임 워크를 사용하여 표현되지 않은 질문에 대한 단계별 솔루션을 생성하고 수정하여 과학적 추론을 향상시키는 과학적 언어 모델 제품군입니다. |
Sciknoweval | Sciknoweval은 광범위하게 공부하고, 진지하게 조사하고, 심오하게 생각하고, 분별하고, 분별하고, 불쾌하게 실천하는 능력에 따라 LLM을 평가하는 벤치 마크입니다. |
스크롤 | 스크롤은 긴 텍스트를 통해 LLM의 추론 능력을 평가하는 벤치 마크입니다. |
씨xam | Seaxam은 동남아시아 (SEA) 언어의 LLM을 평가하는 벤치 마크입니다. |
SEAL LLM 리더 보드 | SEAL LLM 리더 보드는 LLM을위한 전문가 중심의 개인 평가 플랫폼입니다. |
시보리 | SeaEval은 자연 언어를 이해하고 추론하는 다국어 LLM의 성능을 평가하고 문화적 관행, 뉘앙스 및 가치를 이해하는 벤치 마크입니다. |
바다 헬름 | Sea Helm은 채팅, 교육 추종 및 언어 능력에 중점을 둔 영어 및 동남아시아 작업에서 LLMS의 성능을 평가하는 벤치 마크입니다. |
Seceval | Seval은 기초 모델에 대한 사이버 보안 지식을 평가하는 벤치 마크입니다. |
자체 개선 리더 보드 | 자체 개선 리더 보드 (SIL)는 오픈 소스 LLM 및 챗봇에 대한 실시간 성능 통찰력을 제공하기 위해 테스트 데이터 세트 및 순위를 지속적으로 업데이트하는 동적 플랫폼입니다. |
사양 벤치 | Spec-Bench는 다양한 시나리오에서 투기 디코딩 방법을 평가하는 벤치 마크입니다. |
structeval | Structeval은 여러인지 수준 및 중요한 개념에 걸쳐 구조화 된 평가를 수행하여 LLM을 평가하는 벤치 마크입니다. |
서브 사분면 LLM 리더 보드 | Sub Quadratic LLM Leaderboard는 Subquadratic/Attrict-Free Architectures (예 : RWKV & Mamba)의 LLM을 평가합니다. |
슈퍼 벤치 | Superbench는 LLM의 전반적인 기능을 평가하기위한 포괄적 인 작업 및 차원 시스템입니다. |
슈퍼 글루 | SuperGlue는 도전적인 언어 이해 작업 세트에서 LLM의 성능을 평가하는 벤치 마크입니다. |
초등 | Superlim은 스웨덴어에서 LLM의 언어 이해 기능을 평가하는 벤치 마크입니다. |
Swahili llm-Leaderboard | Swahili LLM-Leaderboard는 LLM을위한 중앙 리더 보드 하나를 만들기위한 공동 커뮤니티 노력입니다. |
S-Eval | S-Eval은 다양한 위험 차원에서 LLM 안전을 평가하도록 설계된 220,000 개의 프롬프트를 갖춘 포괄적 인 다차원 안전 벤치 마크입니다. |
TableQaeval | TableQaeval은 수치 및 멀티 홉 추론과 같은 긴 테이블 및 이해 기능을 모델링 할 때 LLM 성능을 평가하는 벤치 마크입니다. |
tat-dqa | TAT-DQA는 구조화되지 않은 정보와 구조화되지 않은 정보를 결합한 문서에 대한 개별 추론에 대한 LLM을 평가하는 벤치 마크입니다. |
Tat-Qa | TAT-QA는 테이블 컨텐츠와 텍스트 컨텐츠를 결합한 문서를 통해 개별 추론에서 LLM을 평가하는 벤치 마크입니다. |
태국 LLM 리더 보드 | 태국 LLM 리더 보드는 태국어 작업에서 LLM을 추적하고 평가하는 것을 목표로합니다. |
더미 | 파일은 LLM의 세계 지식과 추론 능력을 평가하는 벤치 마크입니다. |
두부 | 두부는 현실적인 시나리오에서 LLM의 실험 성능을 평가하는 벤치 마크입니다. |
Toloka LLM 리더 보드 | Toloka LLM 리더 보드는 정통 사용자 프롬프트 및 전문가 인간 평가를 기반으로 LLM을 평가하는 벤치 마크입니다. |
도구 벤치 | Toolbench는 도구 학습을위한 교육, 서빙 및 평가를위한 플랫폼입니다. |
독성 리더 보드 | 독성 리더 보드는 LLM의 독성을 평가합니다. |
Trustbit LLM 리더 보드 | Trustbit LLM LeaderBoards는 LLM을 갖춘 제품을 구축하고 운송하기위한 벤치 마크를 제공하는 플랫폼입니다. |
트러스트 | Trustllm은 LLM의 신뢰성을 평가하는 벤치 마크입니다. |
Turingadvice | TuringAdvice는 언어 모델의 실제 개방형 상황에 대한 유용한 조언을 생성 할 수있는 능력을 평가하는 벤치 마크입니다. |
Tutoreval | Tutoreval은 LLM 교사가 과학 교과서의 장을 이해하는 데 도움이 될 수있는 LLM 교사가 얼마나 잘하는지 평가하는 질문 응답 벤치 마크입니다. |
t-eval | T-Eval은 LLM의 도구 활용 기능을 평가하기위한 벤치 마크입니다. |
UGI 리더 보드 | UGI 리더 보드는 LLM에 의해 알려진 무수정되고 논란의 여지가있는 정보를 측정하고 비교합니다. |
초등 | Ultraeval은 다양한 성능 차원에서 LLM의 투명하고 재현 가능한 벤치마킹을위한 오픈 소스 프레임 워크입니다. |
Vals ai | Vals AI는 실제 법적 작업에 대한 생성 AI 정확도 및 효능을 평가하는 플랫폼입니다. |
VCR | VCR (Visual Commonsense Orady)은인지 수준의 시각적 이해를위한 벤치 마크이며, 시각적 질문에 대답하고 답변에 대한 근거를 제공하는 모델이 필요합니다. |
vidore | Vidore는 쿼리를 페이지 수준의 관련 문서와 일치시키는 용량에 대한 검색 모델을 평가하는 벤치 마크입니다. |
vllms 리더 보드 | VLLMS 리더 보드는 열린 LLM 및 챗봇을 추적, 순위 및 평가하는 것을 목표로합니다. |
VMLU | VMLU는 베트남의 기초 모델의 전반적인 기능을 평가하는 벤치 마크입니다. |
와일드 벤치 | Wildbench는 실제 응용 프로그램과 매우 유사한 도전적인 작업에 대한 언어 모델을 평가하기위한 벤치 마크입니다. |
Xiezhi | Xiezhi는 LLM의 전체 론적 도메인 지식 평가의 벤치 마크입니다. |
Yanolja Arena | Yanolja Arena는 텍스트를 요약하고 번역 할 때 LLM의 기능을 평가하기위한 모델 경기장을 호스팅합니다. |
또 다른 LLM 리더 보드 | 또 다른 LLM 리더 보드는 열린 LLM 및 챗봇을 추적, 순위 및 평가하기위한 플랫폼입니다. |
zebralogic | Zebralogic은 LOGIC 그리드 퍼즐, CSP (Strongeatain Slogyfaction Problem)를 사용하여 LLMS의 논리적 추론을 평가하는 벤치 마크입니다. |
Zerosumeval | Zerosumeval은 명확한 승리 조건을 가진 멀티 플레이어 시뮬레이션을 사용하는 LLMS의 경쟁 평가 프레임 워크입니다. |