awesome foundation model leaderboardsダウンロード - awesome foundation model leaderboardsソースコードのダウンロード

素晴らしい財団モデルのリーダーボード

Awesome Foundation Model Leaderboardは、私たちの調査によると、素晴らしい基礎モデルのリーダーボード (リーダーボードの説明については、このチュートリアルを参照してください) と、さまざまな開発ツールおよび評価組織の厳選されたリストです。

リーダーボード運営 (LBOps) のワークフローと匂いについて:
基礎モデルのリーダーボードに関する探索的研究

ジーミン (ジミー) ジャオ、アブドゥル・アリ・バンガシュ、フィリペ・ロセイロ・コーゴ、ブラム・アダムス、アーメド・E・ハッサン

ソフトウェア分析およびインテリジェンスラボ (SAIL)

このリポジトリが役立つと思われる場合は、スターと引用を付けることを検討してください。

 @article{zhao2024workflows,
  title={On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards},
  author={Zhao, Zhimin and Bangash, Abdul Ali and C{^o}go, Filipe Roseiro and Adams, Bram and Hassan, Ahmed E},
  journal={arXiv preprint arXiv:2407.04065},
  year={2024}
}

さらに、リーダーボード内を素早く移動するのに役立つ検索ツールキットも提供しています。

このリストに貢献したい場合は (ぜひ貢献してください)、プルリクエストを提案してください。

このリストに関して提案、批評、質問がある場合は、問題を提起してください。

また、次の場合にのみリーダーボードを含める必要があります。

積極的にメンテナンスされています。
それは基礎モデルに関連しています。

ツール
課題
ランキング
- モデルランキング
  - 包括的な
  - 文章
  - 画像
  - コード
  - ビデオ
  - 数学
  - エージェント
  - オーディオ
  - 3D
  - マルチモーダル
- データベースランキング
- データセットのランキング
- メトリクスのランキング
- 用紙ランキング
- リーダーボードランキング

ツール

名前	説明
デモリーダーボード	デモリーダーボードを使用すると、ユーザーは標準化されたテンプレートを使用してリーダーボードを簡単に展開できます。
デモリーダーボードバックエンド	デモリーダーボードバックエンドは、ユーザーがリーダーボードを管理し、送信リクエストを処理するのに役立ちます。詳細については、これを確認してください。
Kaggle コンテストの作成	Kaggle コンペティション作成を使用すると、データセットを活用してデータサイエンスコミュニティに参加するカスタムコンペティションを設計して開始できます。
リーダーボードエクスプローラー	Leaderboard Explorer は、ユーザーが Hugging Face Spaces で利用できるさまざまなリーダーボードをナビゲートするのに役立ちます。
LLM リーダーボードの名前変更ツールを開く	open-llm-leaderboard-renamer は、ユーザーが Open LLM Leaderboard でモデルの名前を簡単に変更できるようにします。
Open LLM リーダーボード結果 PR オープナー	Open LLM Leaderboard Results PR Opener は、ユーザーが Open LLM Leaderboard の結果をモデルカードで紹介するのに役立ちます。
LLM リーダーボードスクレーパーを開く	Open LLM Leaderboard Scraper は、ユーザーが Open LLM Leaderboard からデータを収集してエクスポートするのに役立ちます。
進行状況トラッカー	このアプリは、LMSYS チャットボットアリーナによってスコア化された、プロプライエタリおよびオープンソース LLM の時間の経過に伴う進行状況を視覚化します。

課題

名前	説明
AI群衆	AIcrowd は、研究者と実践者の両方を対象として、コンピュータービジョン、NLP、強化学習などの分野にわたる機械学習のチャレンジやコンテストを主催します。
AIハブ	AI Hub は、イノベーションとコラボレーションに重点を置き、現実世界の問題に対する AI ソリューションを奨励するために、さまざまなコンテストを提供しています。
AIスタジオ	AI Studio は、主にコンピュータービジョン、NLP、その他のデータ駆動型タスクに関する AI コンテストを提供し、ユーザーが AI スキルを開発して披露できるようにします。
アレン AI 研究所	Allen Institute for AI は、自然言語理解、常識推論、および AI 研究のその他の分野のタスクに関するリーダーボードとベンチマークを提供します。
コーダベンチ	Codabench は、AI モデルのベンチマークを行うためのオープンソースプラットフォームであり、さまざまな AI ドメインにわたってカスタマイズ可能なユーザー主導の課題を実現します。
データファウンテン	DataFountain は、金融、ヘルスケア、スマートシティの課題を取り上げ、業界関連の問題の解決策を奨励する中国の AI コンペティションプラットフォームです。
ドリブンデータ	DrivenData は、公衆衛生、災害救援、持続可能な開発などの分野の問題を解決することを目的として、社会に影響を与える機械学習の課題をホストしています。
ダイナベンチ	Dynabench は、進化する AI タスクの堅牢性を確保するために、多くの場合人間の対話を伴うモデルが継続的に評価される動的ベンチマークを提供します。
評価AI	EvalAI は、AI の課題をホストし参加するためのプラットフォームであり、画像分類、NLP、強化学習などのタスクでモデルのベンチマークを行うために研究者によって広く使用されています。
グランドチャレンジ	Grand Challenge は、医療画像の課題に対応するプラットフォームを提供し、特に放射線学や病理学などの分野における医療 AI の進歩をサポートします。
ヒルティ	ヒルティは、実用的な業界関連のアプリケーションに重点を置き、建設業界における AI と機械学習の進歩を目的とした課題を主催しています。
インサイトフェイス	InsightFace は、顔認識、検証、分析に関連する AI の課題に焦点を当て、本人確認とセキュリティの進歩をサポートします。
カグル	Kaggle はデータサイエンスと機械学習のコンテストのための最大のプラットフォームの 1 つで、画像分類から NLP、予測モデリングまで幅広いトピックをカバーしています。
nuシーン	nuScenes を使用すると、研究者は実際の自動運転車のフルセンサースイートを使用して、困難な都市部の運転状況を研究できるようになり、自動運転の研究が促進されます。
堅牢な読書コンテスト	ロバストリーディングとは、制約のない環境での書面によるコミュニケーションの解釈に関する研究分野を指し、現実世界の環境でのテキスト認識に焦点を当てたコンテストが行われます。
天池	アリババが主催する Tianchi は、商業、ヘルスケア、物流に焦点を当てた、特にアジアで人気のあるさまざまな AI コンテストを提供しています。

モデルランキング

包括的な

名前	説明
人工分析	Artificial Analysis は、ユーザーが AI モデルの選択とホスティングプロバイダーに関して情報に基づいた意思決定を行うのに役立つプラットフォームです。
コンパスランク	CompassRank は、業界および研究向けの基礎指標の包括的、客観的、中立的な評価基準を提供するプラットフォームです。
フラグ評価	FlagEval は、基礎モデルを評価するための包括的なプラットフォームです。
生成 AI リーダーボード	Generative AI Leaderboard は、さまざまな指標に基づいて、最もパフォーマンスの高い生成 AI モデルをランク付けします。
言語モデルの総合的な評価	Holistic Evaluation of Language Models (HELM) は、基盤モデルを評価するための再現可能で透明なフレームワークです。
コード付き論文	Papers With Code は、オープンソースのリーダーボードとベンチマークを提供し、AI 研究論文をコードとリンクして、機械学習の透明性と再現性を促進します。
スーパークルー	SuperCLUE は、中国の基礎モデルを評価するための一連のベンチマークです。
Vellum LLM リーダーボード	Vellum LLM Leaderboard には、主要な商用およびオープンソース LLM の機能、価格、コンテキストウィンドウの比較が表示されます。

文章

名前	説明
アクルー	ACLUE は、古代中国語の理解の評価ベンチマークです。
アフリカ言語 LLM 評価リーダーボード	アフリカ言語 LLM Eval Leaderboard は、アフリカ言語における LLM の進捗状況を追跡し、パフォーマンスをランク付けします。
エージェントボード	AgentBoard は、マルチターン LLM エージェントのベンチマークであり、最終的な成功率を超えた詳細なモデル評価のための分析評価ボードによって補完されています。
AGIEval	AGIEval は、人間の認知と問題解決に関連するタスクにおける基礎モデルの一般的な能力を評価する人間中心のベンチマークです。
アイエラリーダーボード	Aiera Leaderboard は、講演者の割り当て、講演者の変更の識別、抽象的な要約、計算ベースの Q&A、財務感情のタグ付けなどの金融インテリジェンスタスクに関する LLM のパフォーマンスを評価します。
AIRベンチ	AIR-Bench は、言語モデルの異種情報検索機能を評価するためのベンチマークです。
AI エネルギースコアリーダーボード	AI エネルギースコアリーダーボードは、さまざまなモデルのエネルギー効率を追跡および比較します。
AIベンチマーク	ai-benchmarks には、人気のある AI サービスの応答遅延に関する評価結果がいくつか含まれています。
アラインベンチ	AlignBench は、中国語で LLM のアラインメントを評価するための多次元ベンチマークです。
アルパカエヴァル	AlpacaEval は、命令に従う LLM 用に設計された自動評価器です。
安吾	ANGO は、世代指向の中国語モデル評価ベンチマークです。
アラビア語トークナイザーリーダーボード	アラビア語トークナイザーリーダーボードは、アラビア語をさまざまな方言や形式で解析する際の LLM の効率を比較します。
アリーナ-ハード-オート	Arena-Hard-Auto は、命令調整された LLM のベンチマークです。
オートレース	AutoRace は、AutoRace (自動推論チェーン評価) メトリクスを使用した LLM 推論チェーンの直接評価に焦点を当てています。
オートアリーナ	Auto Arena は、さまざまな言語モデルエージェントがピアバトルを行ってパフォーマンスを評価するベンチマークです。
オートJ	Auto-J は、ペアごとの応答比較および批評生成タスクの評価結果をホストします。
バビロン	BABILong は、分散されたファクトを含む任意の長さのドキュメントを処理する際の言語モデルのパフォーマンスを評価するためのベンチマークです。
BBL	BBL (BIG-bench Lite) は、BIG-bench の 24 の多様な JSON タスクの小さなサブセットです。これは、モデルのパフォーマンスの標準的な測定を提供するように設計されていると同時に、BIG ベンチの 200 を超えるプログラムおよび JSON タスクのフルセットよりもはるかに安価に評価できます。
正直になれ	BeHonest は、LLM における正直さ (知識境界の認識 (自己知識)、欺瞞の回避 (非欺瞞性)、および応答の一貫性 (一貫性)) を評価するためのベンチマークです。
ベンベンチ	BenBench は、LLM が機能を強化するために、テストセットよりもベンチマークのトレーニングセットで逐語的なトレーニングを実施する程度を評価するベンチマークです。
ベンチェコマーク	BenCzechMark (BCM) は、統計的有意性理論を利用した独自のスコアリングシステムを備えた LLM 向けのマルチタスクおよびマルチメトリックチェコ語ベンチマークです。
BiGGenベンチ	BiGGen-Bench は、さまざまなタスクにわたって LLM を評価するための包括的なベンチマークです。
ボットチャット	BotChat は、プロキシタスクを通じて LLM のマルチラウンドチャット機能を評価するベンチマークです。
CaselawQA	CaselawQA は、最高裁判所および Songer 控訴裁判所の法律データベースから派生した法的分類タスクで構成されるベンチマークです。
シーフルー	CFLUE は、中国の金融分野における LLM の理解と処理能力を評価するベンチマークです。
Ch3Ef	Ch3Ef は、hm 原理に基づいて、12 のドメインと 46 のタスクにわたって人間が注釈を付けた 1002 個のサンプルを使用して、人間の期待との整合性を評価するベンチマークです。
思考連鎖ハブ	Chain-of-Thought Hub は、LLM の推論能力を評価するためのベンチマークです。
チャットボットアリーナ	Chatbot Arena は、さまざまな LLM がユーザーの満足度に基づいて競うチャットボットアリーナを主催します。
ケムベンチ	ChemBench は、LLM の化学知識と推論能力を評価するベンチマークです。
中国語SimpleQA	Chinese SimpleQA は、短い質問に答える言語モデルの事実能力を評価する中国語のベンチマークです。
CLEMリーダーボード	CLEM は、会話エージェントとしてチャットに最適化された LLM を体系的に評価するために設計されたフレームワークです。
クレバ	CLEVA は、84 の多様なデータセットと 9 つのメトリックからの 37 万の中国語クエリを使用して、31 のタスクで LLM を評価するベンチマークです。
中国の大型モデルのリーダーボード	Chinese Large Model Leaderboard は、中国の LLM のパフォーマンスを評価するためのプラットフォームです。
CMB	CMB は中国語のマルチレベルの医療ベンチマークです。
CMMLU	CMMLU は、中国の文化的背景におけるさまざまな主題における LLM のパフォーマンスを評価するためのベンチマークです。
CMMMU	CMMMU は、大学レベルの主題知識と中国語の文脈での意図的な推論を要求するタスクに関して LMM を評価するためのベンチマークです。
CommonGen	CommonGen は、与えられた一連の共通概念を使用して一貫した文章を作成する能力についてマシンをテストすることにより、生成的常識推論を評価するベンチマークです。
コンプミックス	CompMix は、異種質問応答のベンチマークです。
圧縮率リーダーボード	Compression Rate Leaderboard は、さまざまな言語でのトークナイザーのパフォーマンスを評価することを目的としています。
圧縮リーダーボード	Compression Leaderboard は、LLM の圧縮パフォーマンスを評価するためのプラットフォームです。
コピーベンチ	CopyBench は、コピー動作と言語モデルの有用性、および著作権リスクを軽減する方法の有効性を評価するベンチマークです。
CoTaEval	CoTaEval は、LLM の著作権削除方法の実現可能性と副作用を評価するベンチマークです。
変換	ConvRe は、LLM の逆関係を理解する能力を評価するベンチマークです。
批評家評価	CriticEval は、LLM が批判的な応答を行う能力を評価するベンチマークです。
CSベンチ	CS-Bench は、知識と推論に焦点を当て、コンピューターサイエンスの 26 サブフィールドにわたる LLM のパフォーマンスを評価するように設計されたバイリンガルベンチマークです。
かわいい	CUTE は、LLM の正書法の知識をテストするためのベンチマークです。
サイバーメトリック	CyberMetric は、LLM のサイバーセキュリティ知識を評価するためのベンチマークです。
チェコベンチ	CzechBench は、チェコ語モデルを評価するためのベンチマークです。
C-評価	C-Eval は、LLM 用の中国の評価スイートです。
分散型アリーナのリーダーボード	Decentralized Arena は、LLM 評価のための分散型かつ民主的なプラットフォームをホストし、数学、論理、科学などのユーザー定義の多様な側面にわたって評価を自動化および拡張します。
デコード信頼	DecodingTrust は、LLM の信頼性を評価するプラットフォームです。
ドメイン LLM リーダーボード	Domain LLM Leaderboard は、ドメイン固有の LLM の人気を評価するプラットフォームです。
エンタープライズシナリオのリーダーボード	Enterprise Scenarios Leaderboard は、実際のエンタープライズユースケースにおける LLM のパフォーマンスを追跡および評価します。
EQベンチ	EQ-Bench は、LLM の心の知能指数を評価するためのベンチマークです。
欧州LLMリーダーボード	European LLM Leaderboard は、ヨーロッパ言語での LLM のパフォーマンスを追跡および比較します。
EvalGPT.ai	EvalGPT.ai は、LLM のパフォーマンスを比較してランク付けするチャットボットアリーナをホストします。
エヴァル・アリーナ	Eval Arena は、サンプルレベルの分析とペアごとの比較を使用して、複数の LLM 評価ベンチマークにわたるモデルのペアを比較することにより、ノイズレベル、モデルの品質、ベンチマークの品質を測定します。
事実リーダーボード	Factuality Leaderboard は、LLM の事実に基づく能力を比較します。
ファンアウトQA	FanOutQA は、英語版 Wikipedia をナレッジベースとして使用する、LLM 向けの高品質、マルチホップ、マルチドキュメントベンチマークです。
高速評価	FastEval は、高速な推論と詳細なパフォーマンス洞察を備えたさまざまなベンチマークで命令追従およびチャット言語モデルを迅速に評価するためのツールキットです。
フェルム	FELM は、LLM の事実性評価ベンチマークを評価するためのメタベンチマークです。
FinEval	FinEval は、LLM の金融ドメインの知識を評価するためのベンチマークです。
リーダーボードの微調整	Fine-tuning Leaderboard は、オープンソースのデータセットまたはフレームワークを使用して微調整されたモデルをランク付けして紹介するプラットフォームです。
炎	Flames は、公平性、安全性、道徳性、合法性、データ保護にわたる LLM の価値の整合性を評価するための、非常に敵対的な中国のベンチマークです。
フォローベンチ	FollowBench は、LLM の命令追従機能を評価するための、マルチレベルのきめ細かい制約追従ベンチマークです。
禁止された質問データセット	Forbidden Question Dataset は、160 の違反カテゴリからの 160 の質問と、ジェイルブレイク方法を評価するための対応するターゲットを含むベンチマークです。
ヒューズレビュー	FuseReviews は、長文の質問への回答や要約など、根拠のあるテキスト生成タスクを進歩させることを目的としています。
ガイア	GAIAは、AIアシスタントが持つべき基本的な能力をテストすることを目的としています。
ゲイビー	GAVIE は、人間が注釈を付けたグラウンドトゥルースに依存せずに精度と関連性をスコアリングすることで LMM の幻覚を評価するための GPT-4 支援ベンチマークです。
GPT-ファゾム	GPT-Fathom は LLM 評価スイートであり、7 つの機能カテゴリにわたる 20 以上の厳選されたベンチマークで、10 を超える主要な LLM と OpenAI のレガシーモデルをすべて調整された設定でベンチマークします。
GrailQA	Strongly Generalizable Question Answering (GrailQA) は、Freebase 上のナレッジベース (KBQA) に関する質問応答の大規模で高品質なベンチマークであり、回答と、さまざまな構文 (SPARQL、S 式など) での回答と対応する論理形式の両方が注釈として付けられた 64,331 の質問を備えています。、など）。
GTベンチ	GTBench は、ボードゲームやカードゲームなどのゲーム理論的なタスクを通じて、競争環境における LLM の推論能力を評価し、ランク付けするベンチマークです。
Guerra LLM AI リーダーボード	Guerra LLM AI Leaderboard は、品質、価格、パフォーマンス、コンテキストウィンドウなどの LLM のパフォーマンスを比較し、ランク付けします。
幻覚リーダーボード	Hallucinations Leaderboard は、LLM における幻覚を追跡、ランク付け、評価することを目的としています。
HalluQA	HalluQA は、中国の LLM における幻覚現象を評価するベンチマークです。
ヘブライ語 LLM リーダーボード	Hebrew LLM Leaderboard は、ヘブライ語のさまざまなタスクにおける成功度に応じて言語モデルを追跡し、ランク付けします。
ヘラスワッグ	HellaSwag は、LLM の常識的な推論を評価するためのベンチマークです。
ヒューズ幻覚評価モデルのリーダーボード	Hughes Hallucination Evaluation Model リーダーボードは、文書を要約するときに言語モデルがどの程度の頻度で幻覚を引き起こすかを評価するプラットフォームです。
アイスランドのLLMリーダーボード	アイスランド LLM リーダーボードは、アイスランド語タスクのモデルを追跡し、比較します。
IFEval	IFEval は、検証可能な命令を使用して LLM の命令追従機能を評価するベンチマークです。
イルトゥール	IL-TUR は、インドの法的文書の理解と推論に重点を置いた単言語および多言語タスクの言語モデルを評価するためのベンチマークです。
インド LLM リーダーボード	Indic LLM Leaderboard は、Indic LLM のパフォーマンスを追跡および比較するためのプラットフォームです。
インディコ LLM リーダーボード	Indico LLM Leaderboard は、プロバイダー、データセット、およびテキスト分類、重要な情報抽出、生成的要約などの機能にわたるさまざまな言語モデルの精度を評価および比較します。
InstructEval	InstructEval は、LLM のコンテキストで命令選択メソッドを評価するためのスイートです。
イタリアの LLM-リーダーボード	Italian LLM-Leaderboard は、イタリア語のタスクにおける LLM を追跡および比較します。
脱獄ベンチ	JailbreakBench は、敵対的なプロンプトを通じて LLM の脆弱性を評価するためのベンチマークです。
日本語チャットボットアリーナ	日本語チャットボットアリーナでは、さまざまな LLM が日本語でのパフォーマンスを競うチャットボットアリーナを開催します。
日本語モデル財務評価ハーネス	日本語モデル財務評価ハーネスは、財務ドメインにおける日本語モデル評価用のハーネスです。
日本語 LLM ロールプレイベンチマーク	日本語 LLM ロールプレイベンチマークは、キャラクターロールプレイにおける日本語 LLM のパフォーマンスを評価するベンチマークです。
JMED-LLM	JMED-LLM (Japanese Medical Evaval Dataset for Large Language Models) は、日本語の医療分野における LLM を評価するためのベンチマークです。
JMMMU	JMMMU (日本語 MMMU) は、日本語で LMM のパフォーマンスを評価するためのマルチモーダルベンチマークです。
ジャストエヴァル	JustEval は、LLM をきめ細かく評価するために設計された強力なツールです。
コラ	KoLA は、LLM に関する世界的な知識を評価するためのベンチマークです。
ランプ	LaMP (Language Models Personalization) は、言語モデルのパーソナライゼーション機能を評価するベンチマークです。
言語モデル評議会	Language Model Council (LMC) は、非常に主観的で、多数派による人間の合意が欠けていることが多いタスクを評価するためのベンチマークです。
法律ベンチ	LawBench は、LLM の法的能力を評価するためのベンチマークです。
ラリーダーボード	La Leaderboard は、スペイン、ラテンアメリカ、カリブ海諸国における LLM の暗記、推論、言語能力を評価および追跡します。
ロジックコール	LogicKor は、韓国の LLM の学際的な思考能力を評価するベンチマークです。
LongICL リーダーボード	LongICL Leaderboard は、LLM の長期にわたるコンテキスト内学習の評価を評価するためのプラットフォームです。
LooGLE	LooGLE は、LLM の長いコンテキスト理解機能を評価するためのベンチマークです。
LAiW	LAiW は、中国の法律言語の理解と推論を評価するためのベンチマークです。
LLM ベンチマーカースイート	LLM Benchmarker Suite は、LLM の包括的な機能を評価するためのベンチマークです。
英語の文脈における大規模言語モデルの評価	英語コンテキストでの大規模言語モデル評価は、英語コンテキストで LLM を評価するためのプラットフォームです。
中国語のコンテキストにおける大規模言語モデルの評価	中国語コンテキストにおける大規模言語モデル評価は、中国語コンテキストで LLM を評価するためのプラットフォームです。
天秤座	LIBRA は、ロシア語の長文を理解して処理する LLM の能力を評価するためのベンチマークです。
LibrAI-Eval GenAI リーダーボード	LibrAI-Eval GenAI Leaderboardは、LLMの機能と英語での安全性のバランスに焦点を当てています。
ライブベンチ	LiveBench は、テストセットの汚染を最小限に抑え、定期的に更新される多様なタスクにわたる客観的で自動化された評価を可能にする LLM のベンチマークです。
LLMEval	LLMEval は、LLM とのオープンドメインの会話の品質を評価するベンチマークです。
Llmeval-Gaokao2024-数学	Llmeval-Gaokao2024-Math は、中国語の 2024 Gaokao レベルの数学問題で LLM を評価するためのベンチマークです。
LLM幻覚リーダーボード	Hallucinations Leaderboard は、幻覚関連の一連のベンチマークに基づいて LLM を評価します。
LLMPerf	LLMPerf は、負荷テストと正確性テストの両方を使用して LLM のパフォーマンスを評価するツールです。
LLM 疾患リスク予測リーダーボード	LLM 疾患リスク予測リーダーボードは、疾患リスク予測に関して LLM を評価するプラットフォームです。
LLM リーダーボード	LLM Leaderboard は LLM プロバイダーを追跡および評価し、ユーザーのニーズに最適な API とモデルの選択を可能にします。
CRM の LLM リーダーボード	CRM LLM Leaderboard は、ビジネスアプリケーションに対する LLM の有効性を評価するプラットフォームです。
LLM天文台	LLM Observatory は、LGBTIQ+ 志向、年齢、性別、政治、人種、宗教、外国人排斥などのカテゴリーにわたる社会的偏見を回避するパフォーマンスに基づいて LLM を評価し、ランク付けするベンチマークです。
LLM 価格リーダーボード	LLM 価格リーダーボードは、100 万トークンに基づいて LLM コストを追跡および比較します。
LLMランキング	LLM ランキングは、プロンプトと補完に対する正規化されたトークンの使用量に基づいて言語モデルをリアルタイムで比較し、頻繁に更新されます。
LLM ロールプレイリーダーボード	LLM ロールプレイリーダーボードは、NPC 開発のためのソーシャル人狼ゲームにおける人間と AI のパフォーマンスを評価します。
LLM 安全リーダーボード	LLM Safety Leaderboard は、言語モデルの安全性に対する統一された評価を提供することを目的としています。
LLM ユースケースのリーダーボード	LLM ユースケースリーダーボードは、ビジネスユースケースにおける LLM を追跡および評価します。
LLM-アグリファクト	LLM-AggreFact は、根拠のある事実評価に基づいて、公開されている最新のデータセットを集約するファクトチェックベンチマークです。
LLM-リーダーボード	LLM-Leaderboard は、LLM 用の 1 つの中央リーダーボードを作成するための共同コミュニティの取り組みです。
LLM-パフォーマンスリーダーボード	LLM-Perf Leaderboard は、さまざまなハードウェア、バックエンド、最適化を使用して LLM のパフォーマンスをベンチマークすることを目的としています。
LMExamQA	LMExamQA は、包括的で公平な評価を行うために、言語モデルが質問を生成し、参照のない自動化された方法で回答を評価する試験官として機能するベンチマークフレームワークです。
ロングベンチ	LongBench は、LLM の長いコンテキスト理解能力を評価するためのベンチマークです。
ルーン	Loong は、財務、法律、学術の各シナリオにわたる LLM の複数文書の QA 能力を評価するための、ロングコンテキストのベンチマークです。
低ビット量子化オープン LLM リーダーボード	低ビット量子化オープン LLM リーダーボードは、さまざまな量子化アルゴリズムを使用して量子化 LLM を追跡し、比較します。
LV-評価	LV-Eval は、5 つの長さレベルと、バイリンガルデータセット全体のシングルホップおよびマルチホップ QA タスクで LLM を正確に評価するための高度な技術を備えたロングコンテキストベンチマークです。
ルーシーエヴァル	LucyEval は、中国のさまざまな状況における LLM のパフォーマンスの徹底的な評価を提供します。
L-評価	L-Eval は、広範なコンテキストを処理するパフォーマンスを評価するためのロングコンテキスト言語モデル (LCLM) 評価ベンチマークです。
M3KE	M3KE は、中国の LLM が獲得した知識を測定するための大規模なマルチレベル、複数主題の知識評価ベンチマークです。
メタクリティック	MetaCritique は、批評を生成することによって、人間が書いた批評または LLM によって生成された批評を評価できる審査員です。
ミント	MINT は、ツールを使用し、自然言語フィードバックを活用して、複数ターンの対話を伴うタスクを解決する LLM の能力を評価するベンチマークです。
ミラージュ	Mirage は、医療情報検索拡張生成のベンチマークであり、5 つの医療 QA データセットからの 7,663 の質問を特徴とし、MedRag ツールキットを使用して 41 の構成でテストされています。
メッドベンチ	MedBench は、医療 LLM の知識の習得と推論能力を評価するベンチマークです。
MedSベンチ	MedS-Bench は、39 の多様なデータセットを使用して 11 のタスクカテゴリにわたって LLM を評価する医療ベンチマークです。
Meta Open LLM リーダーボード	Meta Open LLM リーダーボードは、さまざまなオープン LLM リーダーボードのデータを 1 つの使いやすい視覚化ページに統合するための中心ハブとして機能します。
MIMIC 臨床意思決定リーダーボード	MIMIC 臨床意思決定リーダーボードは、腹部病変に対する現実的な臨床意思決定において LLms を追跡および評価します。
ミックスエヴァル	MixEval は、既製のベンチマークを戦略的に混合することで LLM を評価するベンチマークです。
ML.ENERGY リーダーボード	ML.ENERGY Leaderboard は、LLM のエネルギー消費を評価します。
MMedBench	MMedBench は、多言語理解における LLM を評価するための医療ベンチマークです。
MMLU	MMLU は、さまざまな自然言語理解タスクにわたる LLM のパフォーマンスを評価するベンチマークです。
MMLU タスク別リーダーボード	MMLU-by-task Leaderboard は、さまざまな言語理解タスクにわたるさまざまな ML モデルを評価および比較するためのプラットフォームを提供します。
MMLU-プロ	MMLU-Pro は、LLM の推論能力を評価するための MMLU のより挑戦的なバージョンです。
ModelScope LLM リーダーボード	ModelScope LLM Leaderboard は、LLM を客観的かつ包括的に評価するためのプラットフォームです。
モデル評価リーダーボード	モデル評価リーダーボードは、Mosaic Eval Gauntlet フレームワークを使用して、さまざまなベンチマークにわたるパフォーマンスに基づいてテキスト生成モデルを追跡し、評価します。
MSNP リーダーボード	MSNP Leaderboard は、Ollama を介したシングルノードセットアップを使用して、さまざまな GPU と CPU の組み合わせで量子化された GGUF モデルのパフォーマンスを追跡および評価します。
ムステブ	MSTEB は、スペイン語のテキスト埋め込みモデルのパフォーマンスを測定するためのベンチマークです。
MTEB	MTEB は、112 言語にわたるさまざまな埋め込みタスクにおけるテキスト埋め込みモデルのパフォーマンスを測定するための巨大なベンチマークです。
MTEBアリーナ	MTEB Arena は、ユーザーベースのクエリと取得の比較を通じて、埋め込みモデルを動的に現実世界で評価するためのモデルアリーナをホストします。
MTベンチ-101	MT-Bench-101 は、マルチターンダイアログで LLM を評価するためのきめ細かいベンチマークです。
私のマレー語 LLM リーダーボード	MY Malay LLM Leaderboard は、マレー語タスクに関するオープン LLM を追跡、ランク付け、評価することを目的としています。
ノーチャ	NoCha は、ロングコンテキスト言語モデルが架空の本について書かれた主張をどの程度検証できるかを評価するベンチマークです。
NPHardEval	NPHardEval は、計算複雑さのクラスのレンズを通して LLM の推論能力を評価するベンチマークです。
Occiglot Euro LLM リーダーボード	Occiglot Euro LLM Leaderboard は、Okapi ベンチマークと Belebele の 4 つの主要言語 (フランス語、イタリア語、ドイツ語、スペイン語、オランダ語) で LLM を比較します。
オリンピックベンチ	OlympiadBench は、専門家レベルの段階的な推論の注釈が付いた 8,476 のオリンピックレベルの数学および物理学の問題を特徴とする、バイリンガルのマルチモーダル科学ベンチマークです。
オリンピックアリーナ	OlympicArena は、オリンピックレベルの課題の幅広い範囲にわたって LLM の高度な機能を評価するためのベンチマークです。
ウーバブーガ	Oababooga は、oobabooga Web UI を使用して LLM の反復可能なパフォーマンステストを実行するためのベンチマークです。
オープンエバル	OpenEval は、中国の LLM を評価するためのプラットフォームです。
OpenLLM トルコのリーダーボード	OpenLLM トルコリーダーボードは、進行状況を追跡し、トルコ語で LLM のパフォーマンスをランク付けします。
オープンネスリーダーボード	Openness Leaderboard は、重み、データ、ライセンスへのオープンアクセスという観点からモデルの透明性を追跡および評価し、オープン性基準を満たしていないモデルを明らかにします。
オープンネスリーダーボード	Openness Leaderboard は、命令調整された LLM のオープン性を追跡し、その透明性、データ、モデルの可用性を評価するツールです。
オープンリサーチャー	OpenResearcher には、さまざまな RAG 関連システムのベンチマーク結果がリーダーボードとして含まれています。
アラビア語 LLM リーダーボードを開く	Open Arabic LLM Leaderboard は、進捗状況を追跡し、アラビア語で LLM のパフォーマンスをランク付けします。
中国 LLM リーダーボードを開く	Open Chinese LLM Leaderboard は、オープンな中国 LLM を追跡、ランク付け、評価することを目的としています。
CoT リーダーボードを開く	Open CoT Leaderboard は、効果的な思考連鎖推論トレースを生成する LLM の能力を追跡します。
オランダの LLM 評価リーダーボードを開く	Open Dental LLM Evaluation Leaderboard は、オランダ語での LLM の進捗状況を追跡し、パフォーマンスをランク付けします。
財務 LLM リーダーボードを開く	Open Financial LLM Leaderboard は、金融 LLM のパフォーマンスを評価および比較することを目的としています。
ITA LLM リーダーボードを開く	Open ITA LLM Leaderboard は進捗状況を追跡し、イタリア語での LLM のパフォーマンスをランク付けします。
Ko-LLM リーダーボードを開く	Open Ko-LLM Leaderboard は、韓国語での LLM の進捗状況を追跡し、パフォーマンスをランク付けします。
LLM リーダーボードを開く	Open LLM Leaderboard は進捗状況を追跡し、英語での LLM のパフォーマンスをランク付けします。
オープン Medical-LLM リーダーボード	Open Medical-LLM Leaderboard は、医療分野のオープン LLM を追跡、ランク付け、評価することを目的としています。
MLLM リーダーボードを開く	Open MLLM Leaderboard は、LLM とチャットボットを追跡、ランク付け、評価することを目的としています。
MOE LLM リーダーボードを開く	OPEN MOE LLM Leaderboard は、さまざまな Mixture of Experts (MoE) LLM のパフォーマンスと効率を評価します。
オープン多言語 LLM 評価リーダーボード	Open Multilingual LLM Evaluation Leaderboard は、進行状況を追跡し、複数の言語で LLM のパフォーマンスをランク付けします。
PL LLM リーダーボードを開く	Open PL LLM Leaderboard は、ポーランド語でさまざまな LLM のパフォーマンスを評価するためのプラットフォームです。
ポルトガル語 LLM リーダーボードを開く	Open PT LLM Leaderboard は、ポルトガル語タスクにおける LLM を評価および比較することを目的としています。
台湾 LLM リーダーボードを開く	Open 台湾 LLM リーダーボードは、さまざまな台湾華語理解タスクにおける LLM のパフォーマンスを紹介します。
オープン LLM リーダーボード	Open-LLM-Leaderboard は、多肢選択問題 (MCQ) から自由形式の質問に移行することで、言語理解と推論における LLM を評価します。
OPUS-MT ダッシュボード	OPUS-MT ダッシュボードは、複数の言語ペアと指標にわたる機械翻訳モデルを追跡および比較するためのプラットフォームです。
ORベンチ	OR-Bench は、LLM における安全性強化の過剰な拒否を評価するベンチマークです。
パルスベンチ	ParsBench は、ペルシア語に基づいて LLM をベンチマークするためのツールキットを提供します。
ペルシア語 LLM リーダーボード	Persian LLM Leaderboard は、ペルシア語での LLM の信頼できる評価を提供します。
ピノキオ ITA リーダーボード	Pinocchio ITA リーダーボードは、イタリア語で LLM を追跡および評価します。
PL-MTEB	PL-MTEB (Polish Massive Text Embedding Benchmark) は、28 の NLP タスクにわたるポーランド語のテキスト埋め込みを評価するためのベンチマークです。
ポーランドの医療リーダーボード	Polish Medical Leaderboard は、ポーランドの認定試験の言語モデルを評価します。
Intel LLM を搭載したリーダーボード	Powered-by-Intel LLM Leaderboard は、インテルハードウェアで事前トレーニングまたは微調整された LLM を評価、スコア付け、ランク付けします。
PubMedQA	PubMedQA は、生物医学研究の質問応答を評価するためのベンチマークです。
プロンプトベンチ	PromptBench は、敵対的なプロンプトに対する LLM の堅牢性を評価するベンチマークです。
QAConv	QAConv は、複雑でドメイン固有の非同期会話を知識ソースとして使用する質問応答のベンチマークです。
品質	品質は、長いコンテキストを含む多肢選択式の質問への回答を評価するためのベンチマークです。
ウサギ	RABBITS は、同義語、特にブランド名とジェネリック医薬品名の処理を評価することにより、LLM の堅牢性を評価するベンチマークです。
らくだ	Rakudaは、日本のトピックに関する一連の自由な質問にどれだけよく答えるかに基づいて、LLMSを評価するベンチマークです。
RedTeam Arena	RedTeam Arenaは、LLMS向けのレッドチームのプラットフォームです。
赤いチームレジスタンスベンチマーク	Red Teaming Resistance Benchmarkは、レッドチームのプロンプトに対してLLMSの堅牢性を評価するためのベンチマークです。
rest-mcts*	REST-MCTS*は、ツリー検索とプロセス報酬の推論を使用して、手動のステップ注釈なしでトレーニングポリシーと報酬モデルのための高品質の推論トレースを収集する強化された自己訓練方法です。
レビュアーアリーナ	レビュアーアリーナはレビュアーアリーナを開催します。レビュアーアリーナでは、さまざまなLLMSが学術論文の批評に基づいて競合しています。
ロリーバル	ロリーバルは、LLMの役割知識の暗記、利用、および推論能力を評価するためのバイリンガルのベンチマークです。
rpbenchリーダーボード	Rpbench-autoは、キャラクターベースの80ペルソナエを使用してLLMを評価するための自動パイプラインであり、シーンベースのロールプレイングには80のシーンです。
ロシアのチャットボットアリーナ	チャットボットアリーナは、ユーザーの満足度に基づいて、さまざまなLLMがロシア語で競うチャットボットアリーナをホストしています。
ロシアのスーパーグルー	ロシアのスーパー接着剤は、ロシア語モデルのベンチマークであり、論理、常識、推論のタスクに焦点を当てています。
r-Judge	R-Judgeは、エージェントの相互作用記録を与えられた安全リスクの判断と特定におけるLLMの習熟度を評価するためのベンチマークです。
安全性のプロンプト	安全性のプロンプトは、中国のLLMSの安全性を評価するためのベンチマークです。
SafetyBench	SafetyBenchは、LLMSの安全性を評価するためのベンチマークです。
サラダベンチ	サラダベンチは、LLMSの安全性とセキュリティを評価するためのベンチマークです。
Scandval	Scandvalは、スカンジナビアの言語とドイツ語、オランダ語、英語のタスクに関するLLMSを評価するベンチマークです。
科学リーダーボード	Science Leaderboardは、科学の問題を解決するためのLLMSの機能を評価するプラットフォームです。
Sciglm	Sciglmは、自己反射指導の注釈フレームワークを使用して、段階的なソリューションを生成および修正することにより、科学的推論を強化する科学的言語モデルのスイートです。
sciknoweval	Sciknowevalは、LLMSを広範囲に勉強し、真剣に調査し、深く考え、明確に識別し、熱心に実践することに基づいてLLMを評価するベンチマークです。
スクロール	Scrollsは、長いテキストでLLMの推論機能を評価するためのベンチマークです。
Seaexam	Seaexamは、東南アジア（海）言語のLLMSを評価するためのベンチマークです。
シールLLMリーダーボード	SEAL LLMリーダーボードは、LLMSの専門家主導のプライベート評価プラットフォームです。
シーヴァル	Seaevalは、自然言語での理解と推論における多言語LLMのパフォーマンスを評価するためのベンチマークであり、文化的慣行、ニュアンス、価値を理解することです。
海の舵	Sea Helmは、チャット、指導のフォロー、言語能力に焦点を当てた、英語および東南アジアのタスクにわたるLLMSのパフォーマンスを評価するベンチマークです。
Seceval	Secevalは、基礎モデルのサイバーセキュリティ知識を評価するためのベンチマークです。
自己改善リーダーボード	自己改善リーダーボード（SIL）は、テストデータセットとランキングを継続的に更新して、オープンソースLLMSとチャットボットのリアルタイムパフォーマンスの洞察を提供する動的なプラットフォームです。
スペックベンチ	スペックベンチは、多様なシナリオにわたって投機的デコード方法を評価するためのベンチマークです。
structeval	Structevalは、複数の認知レベルと重要な概念にわたって構造化された評価を実施することにより、LLMを評価するためのベンチマークです。
サブクアドラティックLLMリーダーボード	亜質のLLMリーダーボードは、LLMSをサブクォドラティック/注意なしのアーキテクチャ（つまりRWKV＆MAMBA）で評価します。
スーパーベンチ	スーパーベンチは、LLMの全体的な機能を評価するためのタスクと寸法の包括的なシステムです。
スーパーグルー	SuperGlueは、一連の挑戦的な言語理解タスクでLLMSのパフォーマンスを評価するためのベンチマークです。
スーパーリム	Superlimは、スウェーデンのLLMの言語理解能力を評価するためのベンチマークです。
Swahili LLM-Leaderboard	Swahili LLM-Leaderboardは、LLMS用の1つの中央リーダーボードを作成するための共同コミュニティの取り組みです。
s-val	S-Evalは、さまざまなリスク次元にわたってLLMの安全性を評価するために設計された220,000のプロンプトを備えた包括的な多次元安全ベンチマークです。
table qaeval	Table Qaevalは、数値やマルチホップの推論などの長いテーブルと理解能力のモデリングにおけるLLMパフォーマンスを評価するためのベンチマークです。
tat-dqa	TAT-DQAは、構造化された情報と非構造化されていない情報の両方を組み合わせたドキュメントをめぐる個別の推論に関するLLMSを評価するベンチマークです。
tat-qa	TAT-QAは、表形式とテキストの両方のコンテンツを組み合わせたドキュメントをめぐる個別の推論でLLMを評価するベンチマークです。
タイLLMリーダーボード	タイLLMリーダーボードは、タイ語のタスクでLLMを追跡および評価することを目指しています。
山	山は、LLMの世界知識と推論能力を評価するためのベンチマークです。
豆腐	豆腐は、現実的なシナリオでLLMSの成績を上げているパフォーマンスを評価するためのベンチマークです。
Toloka LLMリーダーボード	Toloka LLM Leaderboardは、本物のユーザープロンプトと専門家の人間の評価に基づいてLLMSを評価するためのベンチマークです。
ツールベンチ	ツールベンチは、特にツール学習専用のLLMSをトレーニング、提供、評価するためのプラットフォームです。
毒性リーダーボード	毒性リーダーボードは、LLMSの毒性を評価します。
Trustbit LLMリーダーボード	Trustbit LLM LeaderBoardsは、LLMSを使用して製品を構築および出荷するためのベンチマークを提供するプラットフォームです。
Trustllm	Trustllmは、LLMの信頼性を評価するためのベンチマークです。
TuringAdvice	TuringAdviceは、言語モデルの実生活の自由な状況に対する有益なアドバイスを生成する能力を評価するためのベンチマークです。
Tutoreval	Tutorevalは、LLMチューターがユーザーが科学の教科書の章を理解するのにどれだけうまく支援できるかを評価する質問を回答するベンチマークです。
T-Eval	T-Evalは、LLMSのツール利用機能を評価するためのベンチマークです。
UGIリーダーボード	UGIリーダーボードは、LLMSで知られている無修正および物議を醸す情報を測定および比較します。
超重量	Ultraevalは、さまざまなパフォーマンスディメンションにわたるLLMの透明で再現可能なベンチマークのオープンソースフレームワークです。
Vals AI	VALS AIは、現実世界の法的タスクにおける生成AIの精度と有効性を評価するプラットフォームです。
ビデオデッキ	Visual Commonsense Reasoning（VCR）は、認知レベルの視覚的理解のベンチマークであり、モデルが視覚的な質問に答え、回答の理論的根拠を提供することを要求します。
ヴィドア	Vidoreは、ページレベルでのクエリを関連ドキュメントに一致させる能力に関する検索モデルを評価するベンチマークです。
Vllmsリーダーボード	VLLMSリーダーボードは、オープンLLMとチャットボットを追跡、ランク付け、評価することを目指しています。
VMLU	VMLUは、ベトナムの基礎モデルの全体的な能力を評価するためのベンチマークです。
wildbench	WildBenchは、実際のアプリケーションに非常に似ている挑戦的なタスクに関する言語モデルを評価するためのベンチマークです。
Xiezhi	Xiezhiは、LLMSの全体的なドメイン知識評価のベンチマークです。
Yanolja Arena	Yanolja Arenaは、テキストを要約および翻訳する際にLLMの機能を評価するためのモデルアリーナをホストしています。
さらに別のLLMリーダーボード	さらに別のLLMリーダーボードは、オープンLLMとチャットボットを追跡、ランキング、評価するためのプラットフォームです。
ゼブラロジック	Zebralogicは、ロジックグリッドパズルを使用したLLMSの論理推論を評価するベンチマークです。
Zerosumeval	Zerosumevalは、明確な勝利条件でマルチプレイヤーシミュレーションを使用したLLMSの競争力のある評価フレームワークです。

画像

名前	説明
抽象画像	抽象画像は、マップ、チャート、レイアウトなどの抽象画像についての理解と視覚的推論におけるマルチモーダルLLM（MLLM）を評価するためのベンチマークです。
aesbench	Aesbenchは、画像の美学の知覚でMLLMを評価するためのベンチマークです。
点滅	Blinkは、MLLMのコア視覚認識能力を評価するためのベンチマークです。
ブリンクコード	BlinkCodeは、15のビジョン言語モデル（VLM）と9つのタスクにわたってMLLMを評価するベンチマークであり、精度と画像再構成のパフォーマンスを測定します。
気をつけて	CARESは、16の医療画像モダリティと27の解剖学的地域からの41Kの質問回答ペアを使用して、信頼性、公平性、安全性、プライバシー、および堅牢性を介したMED-LVLMSの信頼性を評価するベンチマークです。
chartmimic	Chartmimicは、チャートとテキストの指示を使用して、大規模なマルチモーダルモデルの視覚的に接地されたコード生成機能を評価するためのベンチマークです。
charxiv	Charxivは、MLLMのチャート理解機能を評価するためのベンチマークです。
コンテキスト	コンテキストは、コンテキストに敏感なテキストが豊富な視覚的推論タスク全体でMLLMを評価するためのベンチマークです。
Core-MM	Core-MMは、MLLMSのオープンエンドの視覚的質問（VQA）機能を評価するためのベンチマークです。
DreamBench ++	Dreambench ++は、パーソナライズされた画像生成のためにマルチモーダルモデルによって自動化された人間に並んだベンチマークです。
エゴプランベンチ	Egoplan-Benchは、現実世界のエゴセントリックシナリオでMLLMの計画能力を評価するためのベンチマークです。
グリッチベンチ	GlitchBenchは、ビデオゲームのグリッチを検出するというコンテキストでMLLMの推論能力を評価するためのベンチマークです。
HallusionBench	HallusionBenchは、MLLMSの画像コンテキスト推論機能を評価するためのベンチマークです。
infimm-val	INFIMM-EVALは、MLLMのオープンエンドVQA機能を評価するためのベンチマークです。
LRVSFリーダーボード	LRVSFリーダーボードは、ファッションでの画像の類似性検索に関するLLMを評価するプラットフォームです。
LVLMリーダーボード	LVLMリーダーボードは、MLLMの視覚的推論機能を評価するためのプラットフォームです。
m3cot	M3COTは、MLLMのマルチドメインマルチステップマルチモーダルチェーンのベンチマークです。
記念品	Mementosは、画像シーケンスを介したMLLMの推論能力を評価するためのベンチマークです。
MJベンチ	MJベンチは、マルチモーダルジャッジを評価して、アライメント、安全性、画質、バイアスの4つの重要な視点で画像生成モデルのフィードバックを提供するベンチマークです。
Mllm-as-a-judge	Mllm-as-a-judgeは、マルチモーダルドメイン全体のスコアリング、ペアの比較、およびバッチランキングタスクにおけるMLLMの審査能力を評価するための人間の注釈のベンチマークです。
MLLMベンチ	MLLMベンチは、MLVMSの視覚的推論機能を評価するためのベンチマークです。
mmbenchリーダーボード	MMBenchリーダーボードは、MLLMSの視覚的推論機能を評価するためのプラットフォームです。
MME	MMEは、MLLMの視覚的推論能力を評価するためのベンチマークです。
mme-realworld	MME-RealWorldは、43のタスクにわたって29,429人のヒトが注目したQAペアを特徴とする大規模で高解像度のベンチマークです。
mmiu	MMIU（Ultimodal Multi-Imageの理解）は、7つのマルチイメージ関係、52のタスク、77K画像、および11Kキュレートされた複数選択の質問にわたってMLLMを評価するベンチマークです。
うーん	MMMUは、大学レベルのテーマの知識とさまざまな分野にわたる専門家レベルの推論を要求するタスク上のマルチモーダルモデルのパフォーマンスを評価するためのベンチマークです。
MMR	MMRは、回答の正確さではなく、主要な質問を処理する能力を評価することにより、視覚的理解におけるMLLMの堅牢性を評価するベンチマークです。
mmsearch	MMSEarchは、LMMSのマルチモーダル検索パフォーマンスを評価するためのベンチマークです。
mmstar	MMSTARは、MLLMのマルチモーダル容量を評価するためのベンチマークです。
MMTベンチ	MMTベンチは、専門知識と意図的な視覚的認識、ローカリゼーション、推論、および計画を必要とする幅広いマルチモーダルタスクでMLLMを評価するためのベンチマークです。
mm-niah	MM-Niah（マルチモーダルヘイスタックの針）は、テキストと画像データの両方を含む検索、カウント、および推論タスクを通じて、長いマルチモーダルドキュメントを理解するMLLMの能力を評価するベンチマークです。
mtvqa	MTVQAは、MLLMを評価するための多言語の視覚的なテキスト理解ベンチマークです。
マルチモーダル幻覚リーダーボード	マルチモーダル幻覚リーダーボードは、さまざまなタスクの幻覚レベルに基づいてMLLMを比較します。
マルチベンチマーク	マルチベンチマークは、複雑なテーブルと画像を理解し、長いコンテキストで推論を理解することでMLLMを評価するためのベンチマークです。
マルチトラスト	マルチトラストは、真実性、安全性、堅牢性、公平性、プライバシーという5つの主要な側面にわたるMLLMの信頼性を評価するためのベンチマークです。
nphardeval4v	Nphardeval4Vは、計算複雑さクラスのレンズを介してMLLMの推論能力を評価するためのベンチマークです。
プロバイダーリーダーボード	LLM APIプロバイダーリーダーボードは、パフォーマンスキーメトリック全体でLLMを超えるエンドポイントのAPIプロバイダーパフォーマンスを比較するプラットフォームです。
ocrbench	OCRBenchは、マルチモーダルモデルのOCR機能を評価するためのベンチマークです。
PCAベンチ	PCAベンチは、マルチモーダルモデルの具体化された意思決定機能を評価するためのベンチマークです。
Qベンチ	Qベンチは、MLLMSの視覚的推論機能を評価するためのベンチマークです。
報酬ベンチ	報酬ベンチは、報酬モデルの機能と安全性を評価するためのベンチマークです。
Scienceqa	ScienceQAは、科学の質問に答えるという文脈におけるAIシステムのマルチホップ推論能力と解釈可能性を評価するために使用されるベンチマークです。
シグラフカ	Scigraphqaは、科学的なグラフの質問に科学的なグラフでMLLMを評価するためのベンチマークです。
シードベンチ	シードベンチは、マルチモーダルモデルのテキストと画像生成を評価するためのベンチマークです。
ウリアル	Urialは、微調整（学習率、データなど）の要因を導入せずに、アライメントの言語モデルの能力を評価するベンチマークであり、公正な比較のために制御するのが困難です。
アップデートリーダーボード	Upd Leaderboardは、解決できない問題検出におけるMLLMの信頼性を評価するためのプラットフォームです。
Vibe-Eval	Vibe-Evalは、挑戦的なケースについてMLLMを評価するベンチマークです。
VideoHallucer	VideoHallucerは、MLLMの幻覚を検出するためのベンチマークです。
訪問ベンチ	Visit-Benchは、実際の使用のためのMLLMSの命令に従う機能を評価するためのベンチマークです。
Waymoオープンデータセットの課題	Waymo Open Datasetチャレンジは、MLモデルを評価するために多様な自動運転データセットを保持します。
おっと！	おっと！ MLLMSの視覚的な常識推論能力を評価するためのベンチマークです。
WildVision-Bench	WildVision-Benchは、人間の好みを備えた野生のVLMを評価するためのベンチマークです。
WildVision Arena	WildVision Arenaは、さまざまなMLLMが視覚的理解のパフォーマンスに基づいて競合するチャットボットアリーナをホストしています。

コード

名前	説明
Aider LLMリーダーボード	Aider LLMリーダーボードは、システムプロンプトに従ってコードを編集するLLMの能力を評価します。
AppWorld	AppWorldは、457のAPIを介して操作可能な9つの日々のアプリの高忠実度の実行環境であり、シミュレートされた世界に住んでいる約100人のデジタルアクティビティがあります。
Berkeley Function-Calling Leaderboard	Berkeley関数をコールするリーダーボードは、LLMが関数（ツールとも呼ばれる）を正確に呼び出す能力を評価します。
BigCodeBench	BigCodeBenchは、実用的で挑戦的なプログラミングタスクを備えたコード生成のベンチマークです。
ビッグコードモデルリーダーボード	Big Code Models LeaderBoardは、コード関連のタスクでのLLMSのパフォーマンスを追跡および評価するプラットフォームです。
鳥	Birdは、テキスト間解析システムのパフォーマンスを評価するためのベンチマークです。
booksql	BooksQLは、27の企業から100万の取引のデータセットで、さまざまな業界の金融および会計ドメインのテキスト間システムを評価するためのベンチマークです。
Canaicodeリーダーボード	Canaicodeリーダーボードは、LLMSのコード生成機能を評価するためのプラットフォームです。
クラッセバル	Classevalは、クラスレベルのコード生成でLLMを評価するためのベンチマークです。
CODEAPEX	Codeapexは、複数選択の質問とC ++アルゴリズムの問題を伴うコード生成を通じてLLMSのプログラミング理解を評価するベンチマークです。
コードスコープ	Codescopeは、難易度、効率、および長さを考慮して、43の言語と8つのタスクにわたってLLMコーディング機能を評価するためのベンチマークです。
Codetransocean	Codetransoceanは、人気、ニッチ、LLM翻訳コードなど、さまざまなプログラミング言語にわたってコード翻訳を評価するベンチマークです。
コードリングア	Code Linguaは、コードモデルの機能を比較して、ソース言語でコードを実装し、ターゲット言語で同じセマンティクスを翻訳するものを理解するベンチマークです。
LLMSリーダーボードのコーディング	LLMSリーダーボードのコーディングは、さまざまなプログラミングタスクでLLMを評価およびランク付けするプラットフォームです。
コミット-0	Commit-0は、54のコアPythonライブラリを再構築するためのSCRATCH FROM AIコーディングチャレンジであり、重要なテストカバレッジ、LINT/タイプチェック、クラウドベースの分散開発でユニットテストに合格するようにします。
核兵器	Cruxevalは、LLMSのコード推論、理解、および実行機能を評価するためのベンチマークです。
cspider	CSPIDERは、多様、複雑な、およびクロスドメインデータベース全体で、中国の自然言語からSQLクエリを生成するシステムの能力を評価するベンチマークです。
サイバーシバル	Cybersecevalは、LLMのサイバーセキュリティをコーディングアシスタントとして評価するベンチマークです。
DevOps AIアシスタントオープンリーダーボード	DEVOPS AIアシスタントオープンリーダーボードは、知識ドメイン全体でDevOps AIアシスタントを追跡、ランク付け、評価します。
devops-val	DevOps-Evalは、DevOps/AIOPSフィールドのコードモデルを評価するためのベンチマークです。
domaineval	Domainevalは、マルチドメインコード生成の自動構造ベンチマークです。
Dr.Spider	Dr.Spiderは、異なる摂動テストセットを使用して、テキスト間モデルの堅牢性を評価するためのベンチマークです。
フィベンチ	effibenchは、コード生成におけるLLMの効率を評価するためのベンチマークです。
evalplus	EvalPlusは、LLMSのコード生成パフォーマンスを評価するためのベンチマークです。
evocodebench	EvoCodeBenchは、実際のコードリポジトリに合わせた進化コード生成ベンチマークです。
エヴォーバル	Evoevalは、LLMSのコーディング能力を評価するためのベンチマークであり、既存のベンチマークを異なるターゲットドメインに進化させることによって作成されます。
インフィベンチ	Infibenchは、フリーフォームの実世界のコード関連の質問に答える際にコードモデルを評価するためのベンチマークです。
インターコード	Intercodeは、実行フィードバックを使用してインタラクティブコーディングを標準化および評価するベンチマークです。
ジュリアLLMリーダーボード	Julia LLM Leaderboardは、構成的に正しいJuliaコードを生成する際のコードモデルの能力を比較するプラットフォームであり、構造化されたテストと簡単で共同ベンチマークのための自動評価を特徴としています。
livecodebench	LiveCodebenchは、時間の経過とともにコード関連のシナリオ全体でコードモデルを評価するためのベンチマークです。
長いコードアリーナ	Long Code Arenaは、コードリポジトリ全体までの大規模なコンテキストを持つコード関連のタスク用の一連のベンチマークです。
mceval	McEvalは、40の言語（合計44の16Kサンプル）をカバーする大規模なコード評価ベンチマークで、多言語コード生成、多言語コードの説明、多言語コードの完了タスクを網羅しています。
大きなコードモデルリーダーボードの暗記または生成	コード生成モデルのパフォーマンスをリーダーボードを追跡して比較して比較して、大きなコードモデルの記憶または生成をリーダーボードを追跡し、比較します。
マルチスウェベンチ	Multi-Swe-Benchは、コードエージェントのベンチマークを解決する多言語Githubの問題です。
NaturalCodeBench	NaturalCodeBenchは、実際のコーディングタスクのシナリオの複雑さと多様性を反映するベンチマークです。
Nexus関数呼び出しリーダーボード	Nexus関数呼び出しリーダーボードは、関数呼び出しとAPI使用の実行に関するコードモデルを評価するためのプラットフォームです。
NL2SQL360	NL2SQL360は、さまざまなアプリケーションシナリオでNL2SQLメソッドを比較および最適化するための包括的な評価フレームワークです。
PECC	PECCは、モデルがナラティブベースの説明から問題要件を理解および抽出することを要求して、構文的に正確なソリューションを生成することにより、コード生成を評価するベンチマークです。
prollmベンチマーク	ProLLMベンチマークは、複数の業界やプログラミング言語で実世界のビジネスユースケース向けに設計された実用的で信頼性の高いLLMベンチマークです。
pybench	Pybenchは、チャート分析、テキスト分析、画像/オーディオ編集、複雑な数学、ソフトウェア/ウェブサイトの開発など、実際のコーディングタスクに関するLLMを評価するベンチマークです。
人種	人種は、正しいコードを生成し、実際の開発シナリオの要件を満たすコードを生成するLLMの能力を評価するためのベンチマークです。
レポカ	Repoqaは、LLMSの長いコンテキストコード理解能力を評価するためのベンチマークです。
科学	Scicodeは、現実的な科学的研究の問題を解決するためにコードを生成する際に言語モデルを評価するために設計されたベンチマークです。
SulitidityBench	SolidityBenchは、スマートコントラクトの生成と監査におけるLLMの能力を評価およびランク付けするベンチマークです。
スパイダー	Spiderは、クロスドメインデータベースの自然言語インターフェイスのパフォーマンスを評価するためのベンチマークです。
stabletoolbench	Stabletoolbenchは、安定性と現実のバランスの取れた組み合わせを提供することを目的とするツール学習を評価するためのベンチマークです。
swe-bench	SWEベンチは、GitHubから収集された実際のソフトウェアの問題に関するLLMを評価するためのベンチマークです。
webapp1k	WebApp1Kは、実際のWebアプリケーションを開発する能力に関するLLMSを評価するベンチマークです。
WebDev Arena	WebDev Arenaは、さまざまなLLMがWebサイトの開発に基づいて競合するチャットボットアリーナをホストしています。
ワイルド	Wildsは、腫瘍の識別から野生生物の監視、貧困マッピングまで、多様なデータのモダリティと用途に及ぶ野生の分布シフトのベンチマークです。

ビデオ

名前	説明
クロノマジックベンチ	Chronomagic-Benchは、自由形式のテキストコントロールを使用して、物理学、生物学、化学ドメイン全体で高い変成振幅と時間的一貫性を持つタイムラプスビデオを生成するビデオモデルの能力を評価するためのベンチマークです。
Dream-1K	Dream-1Kは、映画、アニメーション、ストックビデオ、YouTube、Tiktokスタイルの短いビデオからの豊富なイベント、アクション、モーションを特徴とする1,000の多様なビデオクリップのビデオ説明パフォーマンスを評価するためのベンチマークです。
longvideobench	LongvideObenchは、参照された推論質問に答える際にビデオモデルの機能を評価するためのベンチマークです。これは、長いフレーム入力に依存し、単一のフレームまたはいくつかのスパースフレームでよく宣言することはできません。
lvbench	LVBenchは、拡張されたメモリと理解能力を必要とする長いビデオ理解タスクでマルチモーダルモデルを評価するためのベンチマークです。
mlvu	MLVUは、マルチタスクの長いビデオ理解でビデオモデルを評価するベンチマークです。
mmtom-qa	MMTOM-QAは、人々の心を理解する能力であるマインドマインド理論（TOM）を評価するためのマルチモーダルベンチマークです。
mvbench	MVBenchは、動的なビデオタスクにおけるビデオモデルの時間的理解能力を評価するためのベンチマークです。
OpenVLMビデオリーダーボード	OpenVLM Video LeaderBoardは、VLMevalkitフレームワークを使用してビデオ理解ベンチマークで30の異なるVLMの評価結果を紹介するプラットフォームです。
TempCompass	TempCompassは、11の時間的側面と4つのタスクタイプにわたって410ビデオと7,540のタスク命令を使用して、ビデオLLMSの時間的認識を評価するベンチマークです。
vbench	Vbenchは、ビデオモデルのビデオ生成機能を評価するためのベンチマークです。
Videyoniah	Videoniahは、ビデオモデルの微調整された理解と空間的モデリング機能を評価するためのベンチマークです。
ビデオ	Videophyは、実際の物質的な相互作用における物理的な常識への順守のための生成されたビデオを評価するためのベンチマークです。
Videoscore	Videoscoreは、5つの重要な次元でテキストからビデオへの生成モデルを評価するベンチマークです。
VideoVista	VideoVistaは、14のカテゴリにわたる3,400のビデオから25,000の質問があるベンチマークであり、19の理解と8つの推論タスクをカバーしています。
ビデオベンチ	ビデオベンチは、ビデオモデルのビデオ専用の理解、事前知識の取り込み、ビデオベースの意思決定能力を評価するためのベンチマークです。
ビデオ-mme	Video-MMEは、ビデオモデルのビデオ分析機能を評価するためのベンチマークです。

数学

名前	説明
アベル	Abelは、LLMSの数学的能力を評価するためのプラットフォームです。
Mathbench	Mathbenchは、LLMSのマルチレベルの難易度の数学評価ベンチマークです。
Matheval	Mathevalは、LLMSの数学的能力を評価するためのベンチマークです。
Mathusereval	Mathuserevalは、大学の試験の質問と、経験豊富なアノテーターとのシミュレートされた会話から派生した数学関連のクエリを特徴とするベンチマークです。
数々	Mathverseは、数学的な問題における視覚情報との解釈と推論における視覚言語モデルを評価するためのベンチマークです。
Mathvista	Mathvistaは、視覚的なコンテキストで数学的推論を評価するためのベンチマークです。
Math-v	Math-vision（Math-V）は、LMMSの数学的推論を評価するために16の分野と5つの難易度をカバーする視覚的に文脈化された数学の問題の3,040のベンチマークです。
多言語の推論リーダーボードを開きます	多言語のリーダーボードトラックをオープンし、多言語の数学的推論ベンチマークでLLMSの推論パフォーマンスをランク付けします。
パトナムベンチ	Putnambenchは、パトナムコンペティションでのLLMの正式な数学的推論能力を評価するためのベンチマークです。
スキベンチ	Scibenchは、複雑な科学的問題を解決するためのLLMSの推論能力を評価するためのベンチマークです。
tabmwp	TABMWPは、テキストデータと表形式の両方のデータを含む数学的推論タスクでLLMを評価するためのベンチマークです。
we-math	We-Mathは、エンドツーエンドのパフォーマンスを超えた問題解決原則を持つLLMの人間のような数学的推論能力を評価するためのベンチマークです。

エージェント

名前	説明
エージェントベンチ	エージェントベンチは、さまざまな環境の多様なスペクトル全体で言語モデルを評価するベンチマークです。
AgentStudio	AgentStudioは、詳細なベンチマークスイート、リアルな環境、包括的なツールキットを備えた統合ソリューションです。
文化率	Chargetwevalは、マルチターンダイアログと文字プロファイルを使用して、ロールプレイングの会話エージェント（RPCA）を評価するベンチマークであり、メトリックは4つの次元にまたがっています。
GTA	GTAは、実際のシナリオでLLMベースのエージェントのツール使用機能を評価するためのベンチマークです。
リートコードハードジム	LeetCode-Hardジムは、コードゲンエージェントを評価するためのLeetCodeの提出サーバーへのRL環境インターフェイスです。
LLMコロッセオのリーダーボード	LLMコロッセオのリーダーボードは、ストリートファイター3で戦うことにより、LLMSを評価するためのプラットフォームです。
魔法	Magicは、マルチエージェントシステム内のLLMの認知、適応性、合理性、コラボレーションの能力を測定するベンチマークです。
オラスはベンチマークを予測します	Olas Predict Benchmarkは、歴史的および将来のイベント予測に関するエージェントを評価するためのベンチマークです。
TravelPlanner	TravelPlannerは、複数の制約内でツールの使用と複雑な計画におけるLLMエージェントを評価するためのベンチマークです。
vab	VisualAgentBench（VAB）は、3種類の代表的な視覚エージェントタスクにわたる5つの異なる環境で構成されるVisual FoundationエージェントとしてLMMを評価および開発するベンチマークです。
VisualWebarena	VisualWebarenaは、現実的に視覚的に接地されたタスクでマルチモーダルWebエージェントのパフォーマンスを評価するベンチマークです。
WebAgentリーダーボード	WebAgentリーダーボードは、WebナビゲーションタスクでLLM、VLM、およびエージェントを追跡および評価します。
webarena	WebArenaは、自律剤を評価するための独立した自己ホスト可能なWeb環境です。
γベンチ	γベンチは、8つの古典的なゲーム理論シナリオと動的スコアリングスキームを使用して、マルチエージェント環境でLLMSのゲーム能力を評価するためのフレームワークです。
τベンチ	τベンチは、言語モデルシミュレーションユーザーとドメイン固有のAPIツールとポリシーガイドラインを備えた言語エージェントとの間の動的な会話をエミュレートするベンチマークです。

オーディオ

名前	説明
エアベンチ	Air-Benchは、さまざまな種類のオーディオ信号（人間の音声、自然な音、音楽を含む）を理解し、さらにテキスト形式で人間と対話するオーディオモデルの能力を評価するベンチマークです。
オーディオベンチ	Audiobenchは、一般的な命令に従うオーディオモデルのベンチマークです。
ASRリーダーボードを開きます	Open ASR Leaderboardは、自動音声認識（ASR）モデルを追跡、ランキング、評価するためのプラットフォームを提供します。
ポーランドのASRリーダーボード	ポーランドASRリーダーボードは、ポーランド語のASR/STTシステムのパフォーマンスの包括的な概要を提供することを目指しています。
鮭	サーモンは、一貫性、バックグラウンドノイズ、感情、スピーカーのアイデンティティ、および部屋の衝動応答に関する音声言語モデルをベンチマークする評価スイートです。
TTSアリーナ	TTS-Arenaは、テキストからスピーチ（TTS）アリーナをホストしています。ここでは、さまざまなTTSモデルがスピーチの生成に基づいて競合します。
ウィスパーリーダーボード	Whisper Leaderboardは、さまざまなデータセットでのオーディオモデルの音声認識パフォーマンスを追跡および比較するプラットフォームです。

3D

名前	説明
3Dアリーナ	3Dアリーナは3Dジェネレーションアリーナをホストしています。3Dジェネレーションアリーナでは、さまざまな3D生成モデルが3Dモデルの生成に基づいて競合します。
3D-POPE	3D-Popeは、3D生成モデルのオブジェクト幻覚を評価するためのベンチマークです。
3dgenアリーナ	3DGen Arenaは、3D Generation Arenaをホストしており、さまざまな3D生成モデルが3Dモデルの生成に基づいて競合します。
バップ	BOPは、単一のRGB-D入力画像からの剛性オブジェクトの6Dポーズ推定のベンチマークです。
gpteval3d	GPTEVAL3Dは、入力としてマルチビュー画像を介して3Dコンテンツの理解のMLLMSのキャパビルティを評価するためのベンチマークです。

マルチモーダル

名前	説明
genai Arena	Genai Arenaは、Visual Generation Arenaを開催します。そこでは、画像生成、画像版、ビデオ生成のパフォーマンスに基づいて、さまざまなビジョンモデルが競合します。
ラベルボックスリーダーボード	ラベルボックスリーダーボードは、データファクトリー、プラットフォーム、科学プロセス、専門家の人間を使用して、生成AIモデルのパフォーマンスを評価します。
メガベンチ	Mega-Benchは、8つのアプリケーションタイプ、7つの入力形式、6つの出力形式、および10のマルチモーダルスキルにわたる多様なタスクを備えたマルチモーダル評価のベンチマークであり、シングルイメージ、マルチイメージ、ビデオタスクにまたがっています。

データベースのランキング

名前	説明
vectordbbench	VectordBbenchは、さまざまなベクターデータベースとクラウドベースのベクターデータベースサービスのパフォーマンス、費用対効果、およびスケーラビリティを評価するためのベンチマークです。

データセットのランキング

名前	説明
データコンプ	DataCompは、固定モデルアーキテクチャを使用して、さまざまなデータセットのパフォーマンスを評価するためのベンチマークです。

メトリックランキング

名前	説明
AlignScore	AlignScoreは、事実上の一貫性を評価する際に、さまざまなメトリックのパフォーマンスを評価します。

紙のランキング

名前	説明
論文リーダーボード	Papers Leaderboardは、機械学習論文の人気を評価するためのプラットフォームです。

リーダーボードランキング

名前	説明
オープンリーダーボードリーダーボード	Open LeaderBoards LeaderBoardは、人間の好みを活用して機械学習リーダーボードを比較するメタリーダーボードです。

拡大する