アクルー | ACLUE は、古代中国語の理解の評価ベンチマークです。 |
アフリカ言語 LLM 評価リーダーボード | アフリカ言語 LLM Eval Leaderboard は、アフリカ言語における LLM の進捗状況を追跡し、パフォーマンスをランク付けします。 |
エージェントボード | AgentBoard は、マルチターン LLM エージェントのベンチマークであり、最終的な成功率を超えた詳細なモデル評価のための分析評価ボードによって補完されています。 |
AGIEval | AGIEval は、人間の認知と問題解決に関連するタスクにおける基礎モデルの一般的な能力を評価する人間中心のベンチマークです。 |
アイエラ リーダーボード | Aiera Leaderboard は、講演者の割り当て、講演者の変更の識別、抽象的な要約、計算ベースの Q&A、財務感情のタグ付けなどの金融インテリジェンス タスクに関する LLM のパフォーマンスを評価します。 |
AIRベンチ | AIR-Bench は、言語モデルの異種情報検索機能を評価するためのベンチマークです。 |
AI エネルギー スコア リーダーボード | AI エネルギー スコア リーダーボードは、さまざまなモデルのエネルギー効率を追跡および比較します。 |
AIベンチマーク | ai-benchmarks には、人気のある AI サービスの応答遅延に関する評価結果がいくつか含まれています。 |
アラインベンチ | AlignBench は、中国語で LLM のアラインメントを評価するための多次元ベンチマークです。 |
アルパカエヴァル | AlpacaEval は、命令に従う LLM 用に設計された自動評価器です。 |
安吾 | ANGO は、世代指向の中国語モデル評価ベンチマークです。 |
アラビア語トークナイザー リーダーボード | アラビア語トークナイザー リーダーボードは、アラビア語をさまざまな方言や形式で解析する際の LLM の効率を比較します。 |
アリーナ-ハード-オート | Arena-Hard-Auto は、命令調整された LLM のベンチマークです。 |
オートレース | AutoRace は、AutoRace (自動推論チェーン評価) メトリクスを使用した LLM 推論チェーンの直接評価に焦点を当てています。 |
オートアリーナ | Auto Arena は、さまざまな言語モデル エージェントがピアバトルを行ってパフォーマンスを評価するベンチマークです。 |
オートJ | Auto-J は、ペアごとの応答比較および批評生成タスクの評価結果をホストします。 |
バビロン | BABILong は、分散されたファクトを含む任意の長さのドキュメントを処理する際の言語モデルのパフォーマンスを評価するためのベンチマークです。 |
BBL | BBL (BIG-bench Lite) は、BIG-bench の 24 の多様な JSON タスクの小さなサブセットです。これは、モデルのパフォーマンスの標準的な測定を提供するように設計されていると同時に、BIG ベンチの 200 を超えるプログラムおよび JSON タスクのフルセットよりもはるかに安価に評価できます。 |
正直になれ | BeHonest は、LLM における正直さ (知識境界の認識 (自己知識)、欺瞞の回避 (非欺瞞性)、および応答の一貫性 (一貫性)) を評価するためのベンチマークです。 |
ベンベンチ | BenBench は、LLM が機能を強化するために、テスト セットよりもベンチマークのトレーニング セットで逐語的なトレーニングを実施する程度を評価するベンチマークです。 |
ベンチェコマーク | BenCzechMark (BCM) は、統計的有意性理論を利用した独自のスコアリング システムを備えた LLM 向けのマルチタスクおよびマルチメトリック チェコ語ベンチマークです。 |
BiGGenベンチ | BiGGen-Bench は、さまざまなタスクにわたって LLM を評価するための包括的なベンチマークです。 |
ボットチャット | BotChat は、プロキシ タスクを通じて LLM のマルチラウンド チャット機能を評価するベンチマークです。 |
CaselawQA | CaselawQA は、最高裁判所および Songer 控訴裁判所の法律データベースから派生した法的分類タスクで構成されるベンチマークです。 |
シーフルー | CFLUE は、中国の金融分野における LLM の理解と処理能力を評価するベンチマークです。 |
Ch3Ef | Ch3Ef は、hm 原理に基づいて、12 のドメインと 46 のタスクにわたって人間が注釈を付けた 1002 個のサンプルを使用して、人間の期待との整合性を評価するベンチマークです。 |
思考連鎖ハブ | Chain-of-Thought Hub は、LLM の推論能力を評価するためのベンチマークです。 |
チャットボットアリーナ | Chatbot Arena は、さまざまな LLM がユーザーの満足度に基づいて競うチャットボット アリーナを主催します。 |
ケムベンチ | ChemBench は、LLM の化学知識と推論能力を評価するベンチマークです。 |
中国語SimpleQA | Chinese SimpleQA は、短い質問に答える言語モデルの事実能力を評価する中国語のベンチマークです。 |
CLEMリーダーボード | CLEM は、会話エージェントとしてチャットに最適化された LLM を体系的に評価するために設計されたフレームワークです。 |
クレバ | CLEVA は、84 の多様なデータセットと 9 つのメトリックからの 37 万の中国語クエリを使用して、31 のタスクで LLM を評価するベンチマークです。 |
中国の大型モデルのリーダーボード | Chinese Large Model Leaderboard は、中国の LLM のパフォーマンスを評価するためのプラットフォームです。 |
CMB | CMB は中国語のマルチレベルの医療ベンチマークです。 |
CMMLU | CMMLU は、中国の文化的背景におけるさまざまな主題における LLM のパフォーマンスを評価するためのベンチマークです。 |
CMMMU | CMMMU は、大学レベルの主題知識と中国語の文脈での意図的な推論を要求するタスクに関して LMM を評価するためのベンチマークです。 |
CommonGen | CommonGen は、与えられた一連の共通概念を使用して一貫した文章を作成する能力についてマシンをテストすることにより、生成的常識推論を評価するベンチマークです。 |
コンプミックス | CompMix は、異種質問応答のベンチマークです。 |
圧縮率リーダーボード | Compression Rate Leaderboard は、さまざまな言語でのトークナイザーのパフォーマンスを評価することを目的としています。 |
圧縮リーダーボード | Compression Leaderboard は、LLM の圧縮パフォーマンスを評価するためのプラットフォームです。 |
コピーベンチ | CopyBench は、コピー動作と言語モデルの有用性、および著作権リスクを軽減する方法の有効性を評価するベンチマークです。 |
CoTaEval | CoTaEval は、LLM の著作権削除方法の実現可能性と副作用を評価するベンチマークです。 |
変換 | ConvRe は、LLM の逆関係を理解する能力を評価するベンチマークです。 |
批評家評価 | CriticEval は、LLM が批判的な応答を行う能力を評価するベンチマークです。 |
CSベンチ | CS-Bench は、知識と推論に焦点を当て、コンピューター サイエンスの 26 サブフィールドにわたる LLM のパフォーマンスを評価するように設計されたバイリンガル ベンチマークです。 |
かわいい | CUTE は、LLM の正書法の知識をテストするためのベンチマークです。 |
サイバーメトリック | CyberMetric は、LLM のサイバーセキュリティ知識を評価するためのベンチマークです。 |
チェコベンチ | CzechBench は、チェコ語モデルを評価するためのベンチマークです。 |
C-評価 | C-Eval は、LLM 用の中国の評価スイートです。 |
分散型アリーナのリーダーボード | Decentralized Arena は、LLM 評価のための分散型かつ民主的なプラットフォームをホストし、数学、論理、科学などのユーザー定義の多様な側面にわたって評価を自動化および拡張します。 |
デコード信頼 | DecodingTrust は、LLM の信頼性を評価するプラットフォームです。 |
ドメイン LLM リーダーボード | Domain LLM Leaderboard は、ドメイン固有の LLM の人気を評価するプラットフォームです。 |
エンタープライズ シナリオのリーダーボード | Enterprise Scenarios Leaderboard は、実際のエンタープライズ ユースケースにおける LLM のパフォーマンスを追跡および評価します。 |
EQベンチ | EQ-Bench は、LLM の心の知能指数を評価するためのベンチマークです。 |
欧州LLMリーダーボード | European LLM Leaderboard は、ヨーロッパ言語での LLM のパフォーマンスを追跡および比較します。 |
EvalGPT.ai | EvalGPT.ai は、LLM のパフォーマンスを比較してランク付けするチャットボット アリーナをホストします。 |
エヴァル・アリーナ | Eval Arena は、サンプルレベルの分析とペアごとの比較を使用して、複数の LLM 評価ベンチマークにわたるモデルのペアを比較することにより、ノイズ レベル、モデルの品質、ベンチマークの品質を測定します。 |
事実リーダーボード | Factuality Leaderboard は、LLM の事実に基づく能力を比較します。 |
ファンアウトQA | FanOutQA は、英語版 Wikipedia をナレッジ ベースとして使用する、LLM 向けの高品質、マルチホップ、マルチドキュメント ベンチマークです。 |
高速評価 | FastEval は、高速な推論と詳細なパフォーマンス洞察を備えたさまざまなベンチマークで命令追従およびチャット言語モデルを迅速に評価するためのツールキットです。 |
フェルム | FELM は、LLM の事実性評価ベンチマークを評価するためのメタ ベンチマークです。 |
FinEval | FinEval は、LLM の金融ドメインの知識を評価するためのベンチマークです。 |
リーダーボードの微調整 | Fine-tuning Leaderboard は、オープンソースのデータセットまたはフレームワークを使用して微調整されたモデルをランク付けして紹介するプラットフォームです。 |
炎 | Flames は、公平性、安全性、道徳性、合法性、データ保護にわたる LLM の価値の整合性を評価するための、非常に敵対的な中国のベンチマークです。 |
フォローベンチ | FollowBench は、LLM の命令追従機能を評価するための、マルチレベルのきめ細かい制約追従ベンチマークです。 |
禁止された質問データセット | Forbidden Question Dataset は、160 の違反カテゴリからの 160 の質問と、ジェイルブレイク方法を評価するための対応するターゲットを含むベンチマークです。 |
ヒューズレビュー | FuseReviews は、長文の質問への回答や要約など、根拠のあるテキスト生成タスクを進歩させることを目的としています。 |
ガイア | GAIAは、AIアシスタントが持つべき基本的な能力をテストすることを目的としています。 |
ゲイビー | GAVIE は、人間が注釈を付けたグラウンドトゥルースに依存せずに精度と関連性をスコアリングすることで LMM の幻覚を評価するための GPT-4 支援ベンチマークです。 |
GPT-ファゾム | GPT-Fathom は LLM 評価スイートであり、7 つの機能カテゴリにわたる 20 以上の厳選されたベンチマークで、10 を超える主要な LLM と OpenAI のレガシー モデルをすべて調整された設定でベンチマークします。 |
GrailQA | Strongly Generalizable Question Answering (GrailQA) は、Freebase 上のナレッジ ベース (KBQA) に関する質問応答の大規模で高品質なベンチマークであり、回答と、さまざまな構文 (SPARQL、S 式など) での回答と対応する論理形式の両方が注釈として付けられた 64,331 の質問を備えています。 、など)。 |
GTベンチ | GTBench は、ボード ゲームやカード ゲームなどのゲーム理論的なタスクを通じて、競争環境における LLM の推論能力を評価し、ランク付けするベンチマークです。 |
Guerra LLM AI リーダーボード | Guerra LLM AI Leaderboard は、品質、価格、パフォーマンス、コンテキスト ウィンドウなどの LLM のパフォーマンスを比較し、ランク付けします。 |
幻覚リーダーボード | Hallucinations Leaderboard は、LLM における幻覚を追跡、ランク付け、評価することを目的としています。 |
HalluQA | HalluQA は、中国の LLM における幻覚現象を評価するベンチマークです。 |
ヘブライ語 LLM リーダーボード | Hebrew LLM Leaderboard は、ヘブライ語のさまざまなタスクにおける成功度に応じて言語モデルを追跡し、ランク付けします。 |
ヘラスワッグ | HellaSwag は、LLM の常識的な推論を評価するためのベンチマークです。 |
ヒューズ幻覚評価モデルのリーダーボード | Hughes Hallucination Evaluation Model リーダーボードは、文書を要約するときに言語モデルがどの程度の頻度で幻覚を引き起こすかを評価するプラットフォームです。 |
アイスランドのLLMリーダーボード | アイスランド LLM リーダーボードは、アイスランド語タスクのモデルを追跡し、比較します。 |
IFEval | IFEval は、検証可能な命令を使用して LLM の命令追従機能を評価するベンチマークです。 |
イルトゥール | IL-TUR は、インドの法的文書の理解と推論に重点を置いた単言語および多言語タスクの言語モデルを評価するためのベンチマークです。 |
インド LLM リーダーボード | Indic LLM Leaderboard は、Indic LLM のパフォーマンスを追跡および比較するためのプラットフォームです。 |
インディコ LLM リーダーボード | Indico LLM Leaderboard は、プロバイダー、データセット、およびテキスト分類、重要な情報抽出、生成的要約などの機能にわたるさまざまな言語モデルの精度を評価および比較します。 |
InstructEval | InstructEval は、LLM のコンテキストで命令選択メソッドを評価するためのスイートです。 |
イタリアの LLM-リーダーボード | Italian LLM-Leaderboard は、イタリア語のタスクにおける LLM を追跡および比較します。 |
脱獄ベンチ | JailbreakBench は、敵対的なプロンプトを通じて LLM の脆弱性を評価するためのベンチマークです。 |
日本語チャットボットアリーナ | 日本語チャットボット アリーナでは、さまざまな LLM が日本語でのパフォーマンスを競うチャットボット アリーナを開催します。 |
日本語モデル財務評価ハーネス | 日本語モデル財務評価ハーネスは、財務ドメインにおける日本語モデル評価用のハーネスです。 |
日本語 LLM ロールプレイ ベンチマーク | 日本語 LLM ロールプレイ ベンチマークは、キャラクター ロールプレイにおける日本語 LLM のパフォーマンスを評価するベンチマークです。 |
JMED-LLM | JMED-LLM (Japanese Medical Evaval Dataset for Large Language Models) は、日本語の医療分野における LLM を評価するためのベンチマークです。 |
JMMMU | JMMMU (日本語 MMMU) は、日本語で LMM のパフォーマンスを評価するためのマルチモーダル ベンチマークです。 |
ジャストエヴァル | JustEval は、LLM をきめ細かく評価するために設計された強力なツールです。 |
コラ | KoLA は、LLM に関する世界的な知識を評価するためのベンチマークです。 |
ランプ | LaMP (Language Models Personalization) は、言語モデルのパーソナライゼーション機能を評価するベンチマークです。 |
言語モデル評議会 | Language Model Council (LMC) は、非常に主観的で、多数派による人間の合意が欠けていることが多いタスクを評価するためのベンチマークです。 |
法律ベンチ | LawBench は、LLM の法的能力を評価するためのベンチマークです。 |
ラリーダーボード | La Leaderboard は、スペイン、ラテンアメリカ、カリブ海諸国における LLM の暗記、推論、言語能力を評価および追跡します。 |
ロジックコール | LogicKor は、韓国の LLM の学際的な思考能力を評価するベンチマークです。 |
LongICL リーダーボード | LongICL Leaderboard は、LLM の長期にわたるコンテキスト内学習の評価を評価するためのプラットフォームです。 |
LooGLE | LooGLE は、LLM の長いコンテキスト理解機能を評価するためのベンチマークです。 |
LAiW | LAiW は、中国の法律言語の理解と推論を評価するためのベンチマークです。 |
LLM ベンチマーカー スイート | LLM Benchmarker Suite は、LLM の包括的な機能を評価するためのベンチマークです。 |
英語の文脈における大規模言語モデルの評価 | 英語コンテキストでの大規模言語モデル評価は、英語コンテキストで LLM を評価するためのプラットフォームです。 |
中国語のコンテキストにおける大規模言語モデルの評価 | 中国語コンテキストにおける大規模言語モデル評価は、中国語コンテキストで LLM を評価するためのプラットフォームです。 |
天秤座 | LIBRA は、ロシア語の長文を理解して処理する LLM の能力を評価するためのベンチマークです。 |
LibrAI-Eval GenAI リーダーボード | LibrAI-Eval GenAI Leaderboardは、LLMの機能と英語での安全性のバランスに焦点を当てています。 |
ライブベンチ | LiveBench は、テスト セットの汚染を最小限に抑え、定期的に更新される多様なタスクにわたる客観的で自動化された評価を可能にする LLM のベンチマークです。 |
LLMEval | LLMEval は、LLM とのオープンドメインの会話の品質を評価するベンチマークです。 |
Llmeval-Gaokao2024-数学 | Llmeval-Gaokao2024-Math は、中国語の 2024 Gaokao レベルの数学問題で LLM を評価するためのベンチマークです。 |
LLM幻覚リーダーボード | Hallucinations Leaderboard は、幻覚関連の一連のベンチマークに基づいて LLM を評価します。 |
LLMPerf | LLMPerf は、負荷テストと正確性テストの両方を使用して LLM のパフォーマンスを評価するツールです。 |
LLM 疾患リスク予測リーダーボード | LLM 疾患リスク予測リーダーボードは、疾患リスク予測に関して LLM を評価するプラットフォームです。 |
LLM リーダーボード | LLM Leaderboard は LLM プロバイダーを追跡および評価し、ユーザーのニーズに最適な API とモデルの選択を可能にします。 |
CRM の LLM リーダーボード | CRM LLM Leaderboard は、ビジネス アプリケーションに対する LLM の有効性を評価するプラットフォームです。 |
LLM天文台 | LLM Observatory は、LGBTIQ+ 志向、年齢、性別、政治、人種、宗教、外国人排斥などのカテゴリーにわたる社会的偏見を回避するパフォーマンスに基づいて LLM を評価し、ランク付けするベンチマークです。 |
LLM 価格リーダーボード | LLM 価格リーダーボードは、100 万トークンに基づいて LLM コストを追跡および比較します。 |
LLMランキング | LLM ランキングは、プロンプトと補完に対する正規化されたトークンの使用量に基づいて言語モデルをリアルタイムで比較し、頻繁に更新されます。 |
LLM ロールプレイ リーダーボード | LLM ロールプレイ リーダーボードは、NPC 開発のためのソーシャル人狼ゲームにおける人間と AI のパフォーマンスを評価します。 |
LLM 安全リーダーボード | LLM Safety Leaderboard は、言語モデルの安全性に対する統一された評価を提供することを目的としています。 |
LLM ユースケースのリーダーボード | LLM ユースケース リーダーボードは、ビジネス ユースケースにおける LLM を追跡および評価します。 |
LLM-アグリファクト | LLM-AggreFact は、根拠のある事実評価に基づいて、公開されている最新のデータセットを集約するファクトチェック ベンチマークです。 |
LLM-リーダーボード | LLM-Leaderboard は、LLM 用の 1 つの中央リーダーボードを作成するための共同コミュニティの取り組みです。 |
LLM-パフォーマンス リーダーボード | LLM-Perf Leaderboard は、さまざまなハードウェア、バックエンド、最適化を使用して LLM のパフォーマンスをベンチマークすることを目的としています。 |
LMExamQA | LMExamQA は、包括的で公平な評価を行うために、言語モデルが質問を生成し、参照のない自動化された方法で回答を評価する試験官として機能するベンチマーク フレームワークです。 |
ロングベンチ | LongBench は、LLM の長いコンテキスト理解能力を評価するためのベンチマークです。 |
ルーン | Loong は、財務、法律、学術の各シナリオにわたる LLM の複数文書の QA 能力を評価するための、ロングコンテキストのベンチマークです。 |
低ビット量子化オープン LLM リーダーボード | 低ビット量子化オープン LLM リーダーボードは、さまざまな量子化アルゴリズムを使用して量子化 LLM を追跡し、比較します。 |
LV-評価 | LV-Eval は、5 つの長さレベルと、バイリンガル データセット全体のシングルホップおよびマルチホップ QA タスクで LLM を正確に評価するための高度な技術を備えたロングコンテキスト ベンチマークです。 |
ルーシーエヴァル | LucyEval は、中国のさまざまな状況における LLM のパフォーマンスの徹底的な評価を提供します。 |
L-評価 | L-Eval は、広範なコンテキストを処理するパフォーマンスを評価するためのロング コンテキスト言語モデル (LCLM) 評価ベンチマークです。 |
M3KE | M3KE は、中国の LLM が獲得した知識を測定するための大規模なマルチレベル、複数主題の知識評価ベンチマークです。 |
メタクリティック | MetaCritique は、批評を生成することによって、人間が書いた批評または LLM によって生成された批評を評価できる審査員です。 |
ミント | MINT は、ツールを使用し、自然言語フィードバックを活用して、複数ターンの対話を伴うタスクを解決する LLM の能力を評価するベンチマークです。 |
ミラージュ | Mirage は、医療情報検索拡張生成のベンチマークであり、5 つの医療 QA データセットからの 7,663 の質問を特徴とし、MedRag ツールキットを使用して 41 の構成でテストされています。 |
メッドベンチ | MedBench は、医療 LLM の知識の習得と推論能力を評価するベンチマークです。 |
MedSベンチ | MedS-Bench は、39 の多様なデータセットを使用して 11 のタスク カテゴリにわたって LLM を評価する医療ベンチマークです。 |
Meta Open LLM リーダーボード | Meta Open LLM リーダーボードは、さまざまなオープン LLM リーダーボードのデータを 1 つの使いやすい視覚化ページに統合するための中心ハブとして機能します。 |
MIMIC 臨床意思決定リーダーボード | MIMIC 臨床意思決定リーダーボードは、腹部病変に対する現実的な臨床意思決定において LLms を追跡および評価します。 |
ミックスエヴァル | MixEval は、既製のベンチマークを戦略的に混合することで LLM を評価するベンチマークです。 |
ML.ENERGY リーダーボード | ML.ENERGY Leaderboard は、LLM のエネルギー消費を評価します。 |
MMedBench | MMedBench は、多言語理解における LLM を評価するための医療ベンチマークです。 |
MMLU | MMLU は、さまざまな自然言語理解タスクにわたる LLM のパフォーマンスを評価するベンチマークです。 |
MMLU タスク別リーダーボード | MMLU-by-task Leaderboard は、さまざまな言語理解タスクにわたるさまざまな ML モデルを評価および比較するためのプラットフォームを提供します。 |
MMLU-プロ | MMLU-Pro は、LLM の推論能力を評価するための MMLU のより挑戦的なバージョンです。 |
ModelScope LLM リーダーボード | ModelScope LLM Leaderboard は、LLM を客観的かつ包括的に評価するためのプラットフォームです。 |
モデル評価リーダーボード | モデル評価リーダーボードは、Mosaic Eval Gauntlet フレームワークを使用して、さまざまなベンチマークにわたるパフォーマンスに基づいてテキスト生成モデルを追跡し、評価します。 |
MSNP リーダーボード | MSNP Leaderboard は、Ollama を介したシングルノード セットアップを使用して、さまざまな GPU と CPU の組み合わせで量子化された GGUF モデルのパフォーマンスを追跡および評価します。 |
ムステブ | MSTEB は、スペイン語のテキスト埋め込みモデルのパフォーマンスを測定するためのベンチマークです。 |
MTEB | MTEB は、112 言語にわたるさまざまな埋め込みタスクにおけるテキスト埋め込みモデルのパフォーマンスを測定するための巨大なベンチマークです。 |
MTEBアリーナ | MTEB Arena は、ユーザーベースのクエリと取得の比較を通じて、埋め込みモデルを動的に現実世界で評価するためのモデル アリーナをホストします。 |
MTベンチ-101 | MT-Bench-101 は、マルチターン ダイアログで LLM を評価するためのきめ細かいベンチマークです。 |
私のマレー語 LLM リーダーボード | MY Malay LLM Leaderboard は、マレー語タスクに関するオープン LLM を追跡、ランク付け、評価することを目的としています。 |
ノーチャ | NoCha は、ロングコンテキスト言語モデルが架空の本について書かれた主張をどの程度検証できるかを評価するベンチマークです。 |
NPHardEval | NPHardEval は、計算複雑さのクラスのレンズを通して LLM の推論能力を評価するベンチマークです。 |
Occiglot Euro LLM リーダーボード | Occiglot Euro LLM Leaderboard は、Okapi ベンチマークと Belebele の 4 つの主要言語 (フランス語、イタリア語、ドイツ語、スペイン語、オランダ語) で LLM を比較します。 |
オリンピックベンチ | OlympiadBench は、専門家レベルの段階的な推論の注釈が付いた 8,476 のオリンピック レベルの数学および物理学の問題を特徴とする、バイリンガルのマルチモーダル科学ベンチマークです。 |
オリンピックアリーナ | OlympicArena は、オリンピックレベルの課題の幅広い範囲にわたって LLM の高度な機能を評価するためのベンチマークです。 |
ウーバブーガ | Oababooga は、oobabooga Web UI を使用して LLM の反復可能なパフォーマンス テストを実行するためのベンチマークです。 |
オープンエバル | OpenEval は、中国の LLM を評価するためのプラットフォームです。 |
OpenLLM トルコのリーダーボード | OpenLLM トルコ リーダーボードは、進行状況を追跡し、トルコ語で LLM のパフォーマンスをランク付けします。 |
オープンネス リーダーボード | Openness Leaderboard は、重み、データ、ライセンスへのオープン アクセスという観点からモデルの透明性を追跡および評価し、オープン性基準を満たしていないモデルを明らかにします。 |
オープンネス リーダーボード | Openness Leaderboard は、命令調整された LLM のオープン性を追跡し、その透明性、データ、モデルの可用性を評価するツールです。 |
オープンリサーチャー | OpenResearcher には、さまざまな RAG 関連システムのベンチマーク結果がリーダーボードとして含まれています。 |
アラビア語 LLM リーダーボードを開く | Open Arabic LLM Leaderboard は、進捗状況を追跡し、アラビア語で LLM のパフォーマンスをランク付けします。 |
中国 LLM リーダーボードを開く | Open Chinese LLM Leaderboard は、オープンな中国 LLM を追跡、ランク付け、評価することを目的としています。 |
CoT リーダーボードを開く | Open CoT Leaderboard は、効果的な思考連鎖推論トレースを生成する LLM の能力を追跡します。 |
オランダの LLM 評価リーダーボードを開く | Open Dental LLM Evaluation Leaderboard は、オランダ語での LLM の進捗状況を追跡し、パフォーマンスをランク付けします。 |
財務 LLM リーダーボードを開く | Open Financial LLM Leaderboard は、金融 LLM のパフォーマンスを評価および比較することを目的としています。 |
ITA LLM リーダーボードを開く | Open ITA LLM Leaderboard は進捗状況を追跡し、イタリア語での LLM のパフォーマンスをランク付けします。 |
Ko-LLM リーダーボードを開く | Open Ko-LLM Leaderboard は、韓国語での LLM の進捗状況を追跡し、パフォーマンスをランク付けします。 |
LLM リーダーボードを開く | Open LLM Leaderboard は進捗状況を追跡し、英語での LLM のパフォーマンスをランク付けします。 |
オープン Medical-LLM リーダーボード | Open Medical-LLM Leaderboard は、医療分野のオープン LLM を追跡、ランク付け、評価することを目的としています。 |
MLLM リーダーボードを開く | Open MLLM Leaderboard は、LLM とチャットボットを追跡、ランク付け、評価することを目的としています。 |
MOE LLM リーダーボードを開く | OPEN MOE LLM Leaderboard は、さまざまな Mixture of Experts (MoE) LLM のパフォーマンスと効率を評価します。 |
オープン多言語 LLM 評価リーダーボード | Open Multilingual LLM Evaluation Leaderboard は、進行状況を追跡し、複数の言語で LLM のパフォーマンスをランク付けします。 |
PL LLM リーダーボードを開く | Open PL LLM Leaderboard は、ポーランド語でさまざまな LLM のパフォーマンスを評価するためのプラットフォームです。 |
ポルトガル語 LLM リーダーボードを開く | Open PT LLM Leaderboard は、ポルトガル語タスクにおける LLM を評価および比較することを目的としています。 |
台湾 LLM リーダーボードを開く | Open 台湾 LLM リーダーボードは、さまざまな台湾華語理解タスクにおける LLM のパフォーマンスを紹介します。 |
オープン LLM リーダーボード | Open-LLM-Leaderboard は、多肢選択問題 (MCQ) から自由形式の質問に移行することで、言語理解と推論における LLM を評価します。 |
OPUS-MT ダッシュボード | OPUS-MT ダッシュボードは、複数の言語ペアと指標にわたる機械翻訳モデルを追跡および比較するためのプラットフォームです。 |
ORベンチ | OR-Bench は、LLM における安全性強化の過剰な拒否を評価するベンチマークです。 |
パルスベンチ | ParsBench は、ペルシア語に基づいて LLM をベンチマークするためのツールキットを提供します。 |
ペルシア語 LLM リーダーボード | Persian LLM Leaderboard は、ペルシア語での LLM の信頼できる評価を提供します。 |
ピノキオ ITA リーダーボード | Pinocchio ITA リーダーボードは、イタリア語で LLM を追跡および評価します。 |
PL-MTEB | PL-MTEB (Polish Massive Text Embedding Benchmark) は、28 の NLP タスクにわたるポーランド語のテキスト埋め込みを評価するためのベンチマークです。 |
ポーランドの医療リーダーボード | Polish Medical Leaderboard は、ポーランドの認定試験の言語モデルを評価します。 |
Intel LLM を搭載したリーダーボード | Powered-by-Intel LLM Leaderboard は、インテル ハードウェアで事前トレーニングまたは微調整された LLM を評価、スコア付け、ランク付けします。 |
PubMedQA | PubMedQA は、生物医学研究の質問応答を評価するためのベンチマークです。 |
プロンプトベンチ | PromptBench は、敵対的なプロンプトに対する LLM の堅牢性を評価するベンチマークです。 |
QAConv | QAConv は、複雑でドメイン固有の非同期会話を知識ソースとして使用する質問応答のベンチマークです。 |
品質 | 品質は、長いコンテキストを含む多肢選択式の質問への回答を評価するためのベンチマークです。 |
ウサギ | RABBITS は、同義語、特にブランド名とジェネリック医薬品名の処理を評価することにより、LLM の堅牢性を評価するベンチマークです。 |
らくだ | Rakudaは、日本のトピックに関する一連の自由な質問にどれだけよく答えるかに基づいて、LLMSを評価するベンチマークです。 |
RedTeam Arena | RedTeam Arenaは、LLMS向けのレッドチームのプラットフォームです。 |
赤いチームレジスタンスベンチマーク | Red Teaming Resistance Benchmarkは、レッドチームのプロンプトに対してLLMSの堅牢性を評価するためのベンチマークです。 |
rest-mcts* | REST-MCTS*は、ツリー検索とプロセス報酬の推論を使用して、手動のステップ注釈なしでトレーニングポリシーと報酬モデルのための高品質の推論トレースを収集する強化された自己訓練方法です。 |
レビュアーアリーナ | レビュアーアリーナはレビュアーアリーナを開催します。レビュアーアリーナでは、さまざまなLLMSが学術論文の批評に基づいて競合しています。 |
ロリーバル | ロリーバルは、LLMの役割知識の暗記、利用、および推論能力を評価するためのバイリンガルのベンチマークです。 |
rpbenchリーダーボード | Rpbench-autoは、キャラクターベースの80ペルソナエを使用してLLMを評価するための自動パイプラインであり、シーンベースのロールプレイングには80のシーンです。 |
ロシアのチャットボットアリーナ | チャットボットアリーナは、ユーザーの満足度に基づいて、さまざまなLLMがロシア語で競うチャットボットアリーナをホストしています。 |
ロシアのスーパーグルー | ロシアのスーパー接着剤は、ロシア語モデルのベンチマークであり、論理、常識、推論のタスクに焦点を当てています。 |
r-Judge | R-Judgeは、エージェントの相互作用記録を与えられた安全リスクの判断と特定におけるLLMの習熟度を評価するためのベンチマークです。 |
安全性のプロンプト | 安全性のプロンプトは、中国のLLMSの安全性を評価するためのベンチマークです。 |
SafetyBench | SafetyBenchは、LLMSの安全性を評価するためのベンチマークです。 |
サラダベンチ | サラダベンチは、LLMSの安全性とセキュリティを評価するためのベンチマークです。 |
Scandval | Scandvalは、スカンジナビアの言語とドイツ語、オランダ語、英語のタスクに関するLLMSを評価するベンチマークです。 |
科学リーダーボード | Science Leaderboardは、科学の問題を解決するためのLLMSの機能を評価するプラットフォームです。 |
Sciglm | Sciglmは、自己反射指導の注釈フレームワークを使用して、段階的なソリューションを生成および修正することにより、科学的推論を強化する科学的言語モデルのスイートです。 |
sciknoweval | Sciknowevalは、LLMSを広範囲に勉強し、真剣に調査し、深く考え、明確に識別し、熱心に実践することに基づいてLLMを評価するベンチマークです。 |
スクロール | Scrollsは、長いテキストでLLMの推論機能を評価するためのベンチマークです。 |
Seaexam | Seaexamは、東南アジア(海)言語のLLMSを評価するためのベンチマークです。 |
シールLLMリーダーボード | SEAL LLMリーダーボードは、LLMSの専門家主導のプライベート評価プラットフォームです。 |
シーヴァル | Seaevalは、自然言語での理解と推論における多言語LLMのパフォーマンスを評価するためのベンチマークであり、文化的慣行、ニュアンス、価値を理解することです。 |
海の舵 | Sea Helmは、チャット、指導のフォロー、言語能力に焦点を当てた、英語および東南アジアのタスクにわたるLLMSのパフォーマンスを評価するベンチマークです。 |
Seceval | Secevalは、基礎モデルのサイバーセキュリティ知識を評価するためのベンチマークです。 |
自己改善リーダーボード | 自己改善リーダーボード(SIL)は、テストデータセットとランキングを継続的に更新して、オープンソースLLMSとチャットボットのリアルタイムパフォーマンスの洞察を提供する動的なプラットフォームです。 |
スペックベンチ | スペックベンチは、多様なシナリオにわたって投機的デコード方法を評価するためのベンチマークです。 |
structeval | Structevalは、複数の認知レベルと重要な概念にわたって構造化された評価を実施することにより、LLMを評価するためのベンチマークです。 |
サブクアドラティックLLMリーダーボード | 亜質のLLMリーダーボードは、LLMSをサブクォドラティック/注意なしのアーキテクチャ(つまりRWKV&MAMBA)で評価します。 |
スーパーベンチ | スーパーベンチは、LLMの全体的な機能を評価するためのタスクと寸法の包括的なシステムです。 |
スーパーグルー | SuperGlueは、一連の挑戦的な言語理解タスクでLLMSのパフォーマンスを評価するためのベンチマークです。 |
スーパーリム | Superlimは、スウェーデンのLLMの言語理解能力を評価するためのベンチマークです。 |
Swahili LLM-Leaderboard | Swahili LLM-Leaderboardは、LLMS用の1つの中央リーダーボードを作成するための共同コミュニティの取り組みです。 |
s-val | S-Evalは、さまざまなリスク次元にわたってLLMの安全性を評価するために設計された220,000のプロンプトを備えた包括的な多次元安全ベンチマークです。 |
table qaeval | Table Qaevalは、数値やマルチホップの推論などの長いテーブルと理解能力のモデリングにおけるLLMパフォーマンスを評価するためのベンチマークです。 |
tat-dqa | TAT-DQAは、構造化された情報と非構造化されていない情報の両方を組み合わせたドキュメントをめぐる個別の推論に関するLLMSを評価するベンチマークです。 |
tat-qa | TAT-QAは、表形式とテキストの両方のコンテンツを組み合わせたドキュメントをめぐる個別の推論でLLMを評価するベンチマークです。 |
タイLLMリーダーボード | タイLLMリーダーボードは、タイ語のタスクでLLMを追跡および評価することを目指しています。 |
山 | 山は、LLMの世界知識と推論能力を評価するためのベンチマークです。 |
豆腐 | 豆腐は、現実的なシナリオでLLMSの成績を上げているパフォーマンスを評価するためのベンチマークです。 |
Toloka LLMリーダーボード | Toloka LLM Leaderboardは、本物のユーザープロンプトと専門家の人間の評価に基づいてLLMSを評価するためのベンチマークです。 |
ツールベンチ | ツールベンチは、特にツール学習専用のLLMSをトレーニング、提供、評価するためのプラットフォームです。 |
毒性リーダーボード | 毒性リーダーボードは、LLMSの毒性を評価します。 |
Trustbit LLMリーダーボード | Trustbit LLM LeaderBoardsは、LLMSを使用して製品を構築および出荷するためのベンチマークを提供するプラットフォームです。 |
Trustllm | Trustllmは、LLMの信頼性を評価するためのベンチマークです。 |
TuringAdvice | TuringAdviceは、言語モデルの実生活の自由な状況に対する有益なアドバイスを生成する能力を評価するためのベンチマークです。 |
Tutoreval | Tutorevalは、LLMチューターがユーザーが科学の教科書の章を理解するのにどれだけうまく支援できるかを評価する質問を回答するベンチマークです。 |
T-Eval | T-Evalは、LLMSのツール利用機能を評価するためのベンチマークです。 |
UGIリーダーボード | UGIリーダーボードは、LLMSで知られている無修正および物議を醸す情報を測定および比較します。 |
超重量 | Ultraevalは、さまざまなパフォーマンスディメンションにわたるLLMの透明で再現可能なベンチマークのオープンソースフレームワークです。 |
Vals AI | VALS AIは、現実世界の法的タスクにおける生成AIの精度と有効性を評価するプラットフォームです。 |
ビデオデッキ | Visual Commonsense Reasoning(VCR)は、認知レベルの視覚的理解のベンチマークであり、モデルが視覚的な質問に答え、回答の理論的根拠を提供することを要求します。 |
ヴィドア | Vidoreは、ページレベルでのクエリを関連ドキュメントに一致させる能力に関する検索モデルを評価するベンチマークです。 |
Vllmsリーダーボード | VLLMSリーダーボードは、オープンLLMとチャットボットを追跡、ランク付け、評価することを目指しています。 |
VMLU | VMLUは、ベトナムの基礎モデルの全体的な能力を評価するためのベンチマークです。 |
wildbench | WildBenchは、実際のアプリケーションに非常に似ている挑戦的なタスクに関する言語モデルを評価するためのベンチマークです。 |
Xiezhi | Xiezhiは、LLMSの全体的なドメイン知識評価のベンチマークです。 |
Yanolja Arena | Yanolja Arenaは、テキストを要約および翻訳する際にLLMの機能を評価するためのモデルアリーナをホストしています。 |
さらに別のLLMリーダーボード | さらに別のLLMリーダーボードは、オープンLLMとチャットボットを追跡、ランキング、評価するためのプラットフォームです。 |
ゼブラロジック | Zebralogicは、ロジックグリッドパズルを使用したLLMSの論理推論を評価するベンチマークです。 |
Zerosumeval | Zerosumevalは、明確な勝利条件でマルチプレイヤーシミュレーションを使用したLLMSの競争力のある評価フレームワークです。 |