Unduh awesome foundation model leaderboards - unduh kode sumber awesome foundation model leaderboards

Papan Peringkat Model Fondasi yang Luar Biasa

Papan Peringkat Model Fondasi Luar Biasa adalah daftar pilihan papan peringkat model fondasi yang mengagumkan (untuk penjelasan tentang apa itu papan peringkat, silakan merujuk ke tutorial ini), bersama dengan berbagai alat pengembangan dan organisasi evaluasi menurut survei kami:

Tentang Alur Kerja dan Aroma Operasi Papan Peringkat (LBOps):
Studi Eksplorasi Papan Peringkat Model Fondasi

Zhimin (Jimmy) Zhao, Abdul Ali Bangash, Filipe Roseiro Côgo, Bram Adams, Ahmed E. Hassan

Lab Analisis dan Intelijen Perangkat Lunak (SAIL)

Jika Anda merasa repositori ini berguna, mohon pertimbangkan untuk memberi kami bintang dan kutipan:

 @article{zhao2024workflows,
  title={On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards},
  author={Zhao, Zhimin and Bangash, Abdul Ali and C{^o}go, Filipe Roseiro and Adams, Bram and Hassan, Ahmed E},
  journal={arXiv preprint arXiv:2407.04065},
  year={2024}
}

Selain itu, kami menyediakan perangkat pencarian yang membantu Anda menavigasi papan peringkat dengan cepat.

Jika Anda ingin berkontribusi pada daftar ini (silakan), silakan ajukan permintaan penarikan.

Jika Anda mempunyai saran, kritik, atau pertanyaan mengenai daftar ini, silakan angkat masalah.

Selain itu, papan peringkat harus disertakan jika hanya:

Itu dipelihara secara aktif.
Hal ini terkait dengan model pondasi.

Daftar isi

Peralatan
Tantangan
Peringkat
- Peringkat Model
  - Luas
  - Teks
  - Gambar
  - Kode
  - Video
  - Matematika
  - Agen
  - Audio
  - 3D
  - Multimoda
- Peringkat Basis Data
- Peringkat Kumpulan Data
- Peringkat Metrik
- Peringkat Kertas
- Peringkat Papan Peringkat

Peralatan

Nama	Keterangan
Papan Peringkat Demo	Papan peringkat demo membantu pengguna menerapkan papan peringkat mereka dengan mudah menggunakan templat standar.
Backend Papan Peringkat Demo	Backend papan peringkat demo membantu pengguna mengelola papan peringkat dan menangani permintaan pengiriman, periksa ini untuk detailnya.
Pembuatan Kompetisi Kaggle	Kaggle Competition Creation memungkinkan Anda merancang dan meluncurkan kompetisi khusus, memanfaatkan kumpulan data Anda untuk melibatkan komunitas ilmu data.
Penjelajah Papan Peringkat	Penjelajah Papan Peringkat membantu pengguna menavigasi beragam papan peringkat yang tersedia di Hugging Face Spaces.
Buka Pengganti Nama Papan Peringkat LLM	open-llm-leaderboard-renamer membantu pengguna mengganti nama model mereka di Open LLM Leaderboard dengan mudah.
Buka Pembuka PR Hasil Papan Peringkat LLM	Pembuka PR Hasil Papan Peringkat LLM Terbuka membantu pengguna menampilkan hasil Papan Peringkat LLM Terbuka di kartu model mereka.
Buka Scraper Papan Peringkat LLM	Open LLM Leaderboard Scraper membantu pengguna mengikis dan mengekspor data dari Open LLM Leaderboard.
Pelacak Kemajuan	Aplikasi ini memvisualisasikan kemajuan LLM berpemilik dan sumber terbuka dari waktu ke waktu sebagaimana dinilai oleh LMSYS Chatbot Arena.

Tantangan

Nama	Keterangan
Kerumunan	AIcrowd menyelenggarakan tantangan dan kompetisi pembelajaran mesin di berbagai domain seperti visi komputer, NLP, dan pembelajaran penguatan, yang ditujukan untuk peneliti dan praktisi.
Pusat AI	AI Hub menawarkan berbagai kompetisi untuk mendorong solusi AI terhadap permasalahan dunia nyata, dengan fokus pada inovasi dan kolaborasi.
Studio AI	AI Studio menawarkan kompetisi AI terutama untuk visi komputer, NLP, dan tugas berbasis data lainnya, yang memungkinkan pengguna untuk mengembangkan dan menunjukkan keterampilan AI mereka.
Institut Allen untuk AI	Allen Institute for AI menyediakan papan peringkat dan tolok ukur pada tugas-tugas dalam pemahaman bahasa alami, penalaran yang masuk akal, dan bidang lain dalam penelitian AI.
meja kode	Codabench adalah platform sumber terbuka untuk melakukan tolok ukur model AI, memungkinkan tantangan yang dapat disesuaikan dan digerakkan oleh pengguna di berbagai domain AI.
Air Mancur Data	DataFountain adalah platform kompetisi AI Tiongkok yang menampilkan tantangan di bidang keuangan, layanan kesehatan, dan kota pintar, yang mendorong solusi untuk masalah terkait industri.
Data yang Didorong	DrivenData menampung tantangan pembelajaran mesin dengan dampak sosial, yang bertujuan untuk memecahkan masalah di berbagai bidang, seperti kesehatan masyarakat, bantuan bencana, dan pembangunan berkelanjutan.
Dinabench	Dynabench menawarkan tolok ukur dinamis di mana model dievaluasi secara terus-menerus, sering kali melibatkan interaksi manusia, untuk memastikan ketahanan dalam mengembangkan tugas-tugas AI.
Evaluasi AI	EvalAI adalah platform untuk menyelenggarakan dan berpartisipasi dalam tantangan AI, yang banyak digunakan oleh para peneliti untuk membuat tolok ukur model dalam tugas-tugas, seperti klasifikasi gambar, NLP, dan pembelajaran penguatan.
Tantangan Besar	Grand Challenge menyediakan platform untuk tantangan pencitraan medis, mendukung kemajuan AI medis, khususnya di bidang seperti radiologi dan patologi.
Hilti	Hilti menyelenggarakan tantangan yang bertujuan untuk memajukan AI dan pembelajaran mesin di industri konstruksi, dengan fokus pada aplikasi praktis dan relevan dengan industri.
Wajah Wawasan	InsightFace berfokus pada tantangan AI terkait pengenalan wajah, verifikasi, dan analisis, mendukung kemajuan dalam verifikasi dan keamanan identitas.
Kaggle	Kaggle adalah salah satu platform terbesar untuk kompetisi ilmu data dan pembelajaran mesin, yang mencakup berbagai topik mulai dari klasifikasi gambar hingga NLP dan pemodelan prediktif.
nuScenes	nuScenes memungkinkan para peneliti mempelajari situasi berkendara perkotaan yang menantang dengan menggunakan rangkaian sensor lengkap dari mobil self-driving sungguhan, sehingga memfasilitasi penelitian dalam mengemudi otonom.
Kompetisi Membaca yang Kuat	Robust Reading mengacu pada bidang penelitian dalam menafsirkan komunikasi tertulis dalam lingkungan yang tidak dibatasi, dengan kompetisi yang berfokus pada pengenalan teks di lingkungan dunia nyata.
Tianchi	Tianchi, yang diselenggarakan oleh Alibaba, menawarkan serangkaian kompetisi AI, khususnya yang populer di Asia, dengan fokus pada perdagangan, layanan kesehatan, dan logistik.

Peringkat

Peringkat Model

Luas

Nama	Keterangan
Analisis Buatan	Analisis Buatan adalah platform untuk membantu pengguna membuat keputusan yang tepat mengenai pemilihan model AI dan penyedia hosting.
Peringkat Kompas	CompassRank adalah platform untuk menawarkan referensi evaluasi yang komprehensif, obyektif, dan netral atas mdoel yayasan untuk industri dan penelitian.
BenderaEval	FlagEval adalah platform komprehensif untuk mengevaluasi model pondasi.
Papan Peringkat AI Generatif	Papan Peringkat AI Generatif memberi peringkat pada model AI generatif dengan kinerja terbaik berdasarkan berbagai metrik.
Evaluasi Holistik Model Bahasa	Evaluasi Model Bahasa Holistik (HELM) adalah kerangka kerja yang dapat direproduksi dan transparan untuk mengevaluasi model dasar.
Makalah Dengan Kode	Papers With Code menyediakan papan peringkat dan tolok ukur sumber terbuka, menghubungkan makalah penelitian AI dengan kode untuk mendorong transparansi dan reproduktifitas dalam pembelajaran mesin.
SuperCLUE	SuperCLUE adalah serangkaian tolok ukur untuk mengevaluasi model fondasi Tiongkok.
Papan Peringkat Vellum LLM	Papan Peringkat Vellum LLM menunjukkan perbandingan kemampuan, harga, dan jendela konteks untuk LLM komersial dan sumber terbuka terkemuka.

Teks

Nama	Keterangan
ACLUE	ACLUE adalah tolok ukur evaluasi pemahaman bahasa Tiongkok kuno.
Papan Peringkat LLM Bahasa Afrika	Papan Peringkat Eval LLM Bahasa Afrika melacak kemajuan dan memberi peringkat kinerja LLM dalam bahasa Afrika.
Papan Agen	AgentBoard adalah tolok ukur untuk agen LLM multi-turn, dilengkapi dengan papan evaluasi analitis untuk penilaian model terperinci di luar tingkat keberhasilan akhir.
AGIEval	AGIEval adalah tolok ukur yang berpusat pada manusia untuk mengevaluasi kemampuan umum model dasar dalam tugas-tugas yang berkaitan dengan kognisi manusia dan pemecahan masalah.
Papan Peringkat Aiera	Papan Peringkat Aiera mengevaluasi kinerja LLM pada tugas intelijen finansial, termasuk penugasan pembicara, identifikasi perubahan pembicara, ringkasan abstraktif, Tanya Jawab berbasis perhitungan, dan penandaan sentimen keuangan.
Bangku UDARA	AIR-Bench adalah tolok ukur untuk mengevaluasi kemampuan pengambilan informasi heterogen dari model bahasa.
Papan Peringkat Skor Energi AI	Papan Peringkat Skor Energi AI melacak dan membandingkan berbagai model dalam hal efisiensi energi.
tolok ukur ai	ai-benchmarks berisi beberapa hasil evaluasi untuk latensi respons layanan AI populer.
Sejajarkan Bench	AlignBench adalah tolok ukur multi-dimensi untuk mengevaluasi keselarasan LLM dalam bahasa Cina.
AlpakaEval	AlpacaEval adalah evaluator otomatis yang dirancang untuk LLM yang mengikuti instruksi.
ANGO	ANGO adalah tolok ukur evaluasi model bahasa Tiongkok yang berorientasi pada generasi.
Papan Peringkat Tokenizer Arab	Papan Peringkat Tokenizer Arab membandingkan efisiensi LLM dalam mengurai bahasa Arab dalam berbagai dialek dan bentuknya.
Arena-Hard-Auto	Arena-Hard-Auto adalah tolok ukur untuk LLM yang disesuaikan dengan instruksi.
Balapan Otomatis	AutoRace berfokus pada evaluasi langsung rantai penalaran LLM dengan metrik AutoRace (Automated Reasoning Chain Evaluation).
Arena Otomatis	Auto Arena adalah tolok ukur di mana berbagai agen model bahasa terlibat dalam pertarungan antar rekan untuk mengevaluasi kinerja mereka.
Otomatis-J	Auto-J menampung hasil evaluasi pada perbandingan respons berpasangan dan tugas pembuatan kritik.
BABILong	BABILong adalah tolok ukur untuk mengevaluasi kinerja model bahasa dalam memproses dokumen panjang sewenang-wenang dengan fakta yang tersebar.
BBL	BBL (BIG-bench Lite) adalah sebagian kecil dari 24 tugas JSON yang berbeda dari BIG-bench. Ini dirancang untuk memberikan ukuran kinerja model secara kanonik, sekaligus jauh lebih murah untuk dievaluasi dibandingkan rangkaian lengkap lebih dari 200 tugas terprogram dan JSON di BIG-bench.
Jujurlah	BeHonest menjadi tolok ukur untuk mengevaluasi kejujuran – kesadaran akan batasan pengetahuan (self-knowledge), penghindaran penipuan (non-deceptiveness), dan konsistensi dalam menanggapi (consistency) – di LLM.
bangku bangku	BenBench adalah tolok ukur untuk mengevaluasi sejauh mana LLM melakukan pelatihan verbatim pada set pelatihan tolok ukur atas set tes untuk meningkatkan kemampuan.
BenCzechMark	BenCzechMark (BCM) adalah tolok ukur multitask dan multimetrik bahasa Ceko untuk LLM dengan sistem penilaian unik yang memanfaatkan teori signifikansi statistik.
Bangku BiGGen	BiGGen-Bench adalah tolok ukur komprehensif untuk mengevaluasi LLM di berbagai macam tugas.
Obrolan Bot	BotChat adalah tolok ukur untuk mengevaluasi kemampuan obrolan multi-putaran LLM melalui tugas proxy.
Kasus hukumQA	CaselawQA adalah tolok ukur yang terdiri dari tugas klasifikasi hukum yang berasal dari database hukum Mahkamah Agung dan Pengadilan Banding Songer.
CFLUE	CFLUE adalah tolok ukur untuk mengevaluasi pemahaman dan kemampuan pemrosesan LLM dalam domain keuangan Tiongkok.
Bab 3Ef	Ch3Ef adalah tolok ukur untuk mengevaluasi keselarasan dengan ekspektasi manusia menggunakan 1002 sampel yang dianotasi manusia di 12 domain dan 46 tugas berdasarkan prinsip hhh.
Pusat Rantai Pemikiran	Chain-of-Thought Hub adalah tolok ukur untuk mengevaluasi kemampuan penalaran LLM.
Arena Bot Obrolan	Chatbot Arena menjadi tuan rumah arena chatbot tempat berbagai LLM bersaing berdasarkan kepuasan pengguna.
bangku kimia	ChemBench adalah tolok ukur untuk mengevaluasi pengetahuan kimia dan kemampuan penalaran LLM.
SederhanaQA Cina	Chinese SimpleQA adalah tolok ukur bahasa Mandarin untuk mengevaluasi kemampuan faktualitas model bahasa dalam menjawab pertanyaan singkat.
Papan Peringkat CLEM	CLEM adalah kerangka kerja yang dirancang untuk evaluasi sistematis LLM yang dioptimalkan untuk obrolan sebagai agen percakapan.
CLEVA	CLEVA adalah tolok ukur untuk mengevaluasi LLM pada 31 tugas menggunakan 370 ribu kueri Tiongkok dari 84 kumpulan data berbeda dan 9 metrik.
Papan Peringkat Model Besar Tiongkok	Papan Peringkat Model Besar Tiongkok adalah platform untuk mengevaluasi kinerja LLM Tiongkok.
CMB	CMB adalah tolok ukur medis multi-level dalam bahasa Tiongkok.
CMMLU	CMMLU adalah tolok ukur untuk mengevaluasi kinerja LLM dalam berbagai mata pelajaran dalam konteks budaya Tiongkok.
CMMMU	CMMMU adalah tolok ukur untuk mengevaluasi LMM pada tugas-tugas yang menuntut pengetahuan mata pelajaran tingkat perguruan tinggi dan penalaran yang disengaja dalam konteks Tiongkok.
Jenderal Umum	CommonGen adalah tolok ukur untuk mengevaluasi penalaran akal sehat generatif dengan menguji kemampuan mesin dalam menyusun kalimat yang koheren menggunakan serangkaian konsep umum tertentu.
Campuran Campuran	CompMix adalah tolok ukur untuk menjawab pertanyaan yang heterogen.
Papan Peringkat Tingkat Kompresi	Papan Peringkat Tingkat Kompresi bertujuan untuk mengevaluasi kinerja tokenizer dalam berbagai bahasa.
Papan Peringkat Kompresi	Papan Peringkat Kompresi adalah platform untuk mengevaluasi kinerja kompresi LLM.
SalinBench	CopyBench adalah tolok ukur untuk mengevaluasi perilaku penyalinan dan kegunaan model bahasa serta efektivitas metode untuk mengurangi risiko hak cipta.
CoTaEval	CoTaEval adalah tolok ukur untuk mengevaluasi kelayakan dan efek samping metode penghapusan hak cipta untuk LLM.
KonvRe	ConvRe adalah tolok ukur untuk mengevaluasi kemampuan LLM dalam memahami hubungan terbalik.
KritikEval	CriticEval adalah tolak ukur untuk mengevaluasi kemampuan LLM dalam memberikan tanggapan kritik.
CS-Bangku	CS-Bench adalah tolok ukur bilingual yang dirancang untuk mengevaluasi kinerja LLM di 26 subbidang ilmu komputer, dengan fokus pada pengetahuan dan penalaran.
IMUT-IMUT	CUTE adalah tolak ukur untuk menguji pengetahuan ortografi LLM.
CyberMetrik	CyberMetric adalah tolok ukur untuk mengevaluasi pengetahuan keamanan siber LLM.
CzechBench	CzechBench adalah tolok ukur untuk mengevaluasi model bahasa Ceko.
C-Eval	C-Eval adalah rangkaian evaluasi Cina untuk LLM.
Papan Peringkat Arena Terdesentralisasi	Arena Terdesentralisasi menjadi tuan rumah bagi platform terdesentralisasi dan demokratis untuk evaluasi LLM, otomatisasi dan penskalaan penilaian di beragam dimensi yang ditentukan pengguna, termasuk matematika, logika, dan sains.
Dekode Kepercayaan	DecodingTrust adalah platform untuk mengevaluasi kepercayaan LLM.
Papan Peringkat LLM Domain	Papan Peringkat LLM Domain adalah platform untuk mengevaluasi popularitas LLM khusus domain.
Papan peringkat Skenario Perusahaan	Papan Peringkat Skenario Perusahaan melacak dan mengevaluasi kinerja LLM pada kasus penggunaan perusahaan di dunia nyata.
EQ-Bangku	EQ-Bench merupakan tolok ukur untuk mengevaluasi aspek kecerdasan emosional di LLM.
Papan Peringkat LLM Eropa	Papan Peringkat LLM Eropa melacak dan membandingkan kinerja LLM dalam bahasa-bahasa Eropa.
EvalGPT.ai	EvalGPT.ai menyelenggarakan arena chatbot untuk membandingkan dan memberi peringkat kinerja LLM.
Arena Evaluasi	Eval Arena mengukur tingkat kebisingan, kualitas model, dan kualitas tolok ukur dengan membandingkan pasangan model di beberapa tolok ukur evaluasi LLM dengan analisis tingkat contoh dan perbandingan berpasangan.
Papan Peringkat Faktualitas	Papan Peringkat Faktualitas membandingkan kemampuan faktual LLM.
FanOutQA	FanOutQA adalah tolok ukur multi-hop, multi-dokumen berkualitas tinggi untuk LLM yang menggunakan Wikipedia bahasa Inggris sebagai basis pengetahuannya.
FastEval	FastEval adalah perangkat untuk mengevaluasi model bahasa mengikuti instruksi dan obrolan dengan cepat pada berbagai tolok ukur dengan inferensi cepat dan wawasan kinerja terperinci.
MERASA	FELM adalah tolok ukur meta untuk mengevaluasi tolok ukur evaluasi faktualitas untuk LLM.
FinEval	FinEval adalah tolok ukur untuk mengevaluasi pengetahuan domain keuangan di LLM.
Menyempurnakan Papan Peringkat	Papan Peringkat Penyempurnaan adalah platform untuk menentukan peringkat dan menampilkan model yang telah disempurnakan menggunakan kumpulan data atau kerangka kerja sumber terbuka.
Api	Flames adalah tolok ukur Tiongkok yang sangat bermusuhan dalam mengevaluasi keselarasan nilai LLM dalam hal keadilan, keamanan, moralitas, legalitas, dan perlindungan data.
IkutiBench	FollowBench adalah tolok ukur berikut batasan terperinci multi-level untuk mengevaluasi kemampuan LLM mengikuti instruksi.
Kumpulan Data Pertanyaan Terlarang	Kumpulan Data Pertanyaan Terlarang adalah tolok ukur yang berisi 160 pertanyaan dari 160 kategori yang dilanggar, dengan target yang sesuai untuk mengevaluasi metode jailbreak.
Ulasan Fuse	FuseReviews bertujuan untuk memajukan tugas pembuatan teks dasar, termasuk menjawab pertanyaan dan meringkas dalam bentuk panjang.
GAIA	GAIA bertujuan untuk menguji kemampuan dasar yang harus dimiliki oleh asisten AI.
GAVIE	GAVIE adalah tolok ukur berbantuan GPT-4 untuk mengevaluasi halusinasi di LMM dengan menilai akurasi dan relevansi tanpa bergantung pada kebenaran dasar yang dijelaskan oleh manusia.
GPT-Paham	GPT-Fathom adalah rangkaian evaluasi LLM, yang membandingkan 10+ LLM terkemuka serta model lama OpenAI pada 20+ tolok ukur yang dikurasi di 7 kategori kemampuan, semuanya dalam pengaturan yang selaras.
CawanQA	Penjawab Pertanyaan yang Sangat Dapat Digeneralisasikan (GrailQA) adalah tolok ukur berskala besar dan berkualitas tinggi untuk menjawab pertanyaan berdasarkan basis pengetahuan (KBQA) di Freebase dengan 64.331 pertanyaan yang dianotasi dengan jawaban dan bentuk logis yang sesuai dalam sintaksis yang berbeda (yaitu, SPARQL, S-ekspresi , dll.).
GTBench	GTBench adalah tolok ukur untuk mengevaluasi dan memberi peringkat kemampuan penalaran LLM dalam lingkungan kompetitif melalui tugas-tugas teori permainan, misalnya permainan papan dan kartu.
Papan Peringkat AI Guerra LLM	Papan Peringkat AI Guerra LLM membandingkan dan memberi peringkat kinerja LLM dalam hal kualitas, harga, kinerja, jendela konteks, dan lainnya.
Papan Peringkat Halusinasi	Papan Peringkat Halusinasi bertujuan untuk melacak, memberi peringkat, dan mengevaluasi halusinasi di LLM.
HalluQA	HalluQA menjadi tolok ukur untuk mengevaluasi fenomena halusinasi di LLM Tiongkok.
Papan Peringkat LLM Ibrani	Papan Peringkat LLM Ibrani melacak dan memberi peringkat model bahasa berdasarkan keberhasilan mereka dalam berbagai tugas dalam bahasa Ibrani.
HellaSwag	HellaSwag adalah tolok ukur untuk mengevaluasi penalaran yang masuk akal di LLM.
Papan peringkat Model Evaluasi Halusinasi Hughes	Papan peringkat Model Evaluasi Halusinasi Hughes adalah platform untuk mengevaluasi seberapa sering model bahasa menimbulkan halusinasi saat merangkum dokumen.
Papan peringkat LLM Islandia	Papan peringkat LLM Islandia melacak dan membandingkan model pada tugas berbahasa Islandia.
IFEval	IFEval adalah tolok ukur untuk mengevaluasi kemampuan mengikuti instruksi LLM dengan instruksi yang dapat diverifikasi.
IL-TUR	IL-TUR adalah tolok ukur untuk mengevaluasi model bahasa pada tugas monolingual dan multibahasa yang berfokus pada pemahaman dan penalaran dokumen hukum India.
Papan Peringkat LLM India	Papan Peringkat LLM Indic adalah platform untuk melacak dan membandingkan kinerja LLM Indic.
Papan Peringkat LLM Indico	Papan Peringkat Indico LLM mengevaluasi dan membandingkan keakuratan berbagai model bahasa di seluruh penyedia, kumpulan data, dan kemampuan seperti klasifikasi teks, ekstraksi informasi penting, dan ringkasan generatif.
InstruksikanEval	InstructEval adalah rangkaian untuk mengevaluasi metode pemilihan instruksi dalam konteks LLM.
Papan Peringkat LLM Italia	Papan Peringkat LLM Italia melacak dan membandingkan LLM dalam tugas berbahasa Italia.
bangku pembobolan penjara	JailbreakBench adalah tolok ukur untuk mengevaluasi kerentanan LLM melalui perintah permusuhan.
Arena Chatbot Jepang	Arena Chatbot Jepang menjadi tuan rumah arena chatbot, tempat berbagai LLM bersaing berdasarkan penampilan mereka dalam bahasa Jepang.
Harness Evaluasi Keuangan Model Bahasa Jepang	Harness Evaluasi Keuangan Model Bahasa Jepang adalah harness untuk evaluasi model bahasa Jepang dalam domain keuangan.
Tolok Ukur Roleplay LLM Jepang	Tolok Ukur Roleplay LLM Jepang merupakan tolak ukur untuk mengevaluasi performa LLM Jepang dalam roleplay karakter.
JMED-LLM	JMED-LLM (Kumpulan Data Evaluasi Medis Jepang untuk Model Bahasa Besar) merupakan tolok ukur untuk mengevaluasi LLM di bidang medis Jepang.
JMMMU	JMMMU (MMMU Jepang) adalah tolok ukur multimodal untuk mengevaluasi kinerja LMM di Jepang.
HanyaEval	JustEval adalah alat canggih yang dirancang untuk evaluasi LLM yang mendetail.
Kola	KoLA menjadi tolak ukur untuk mengevaluasi pengetahuan dunia LLM.
Lampu	LaMP (Personalisasi Model Bahasa) adalah tolok ukur untuk mengevaluasi kemampuan personalisasi model bahasa.
Dewan Model Bahasa	Dewan Model Bahasa (LMC) adalah tolok ukur untuk mengevaluasi tugas-tugas yang sangat subyektif dan seringkali kurang disetujui oleh mayoritas manusia.
Bangku Hukum	LawBench adalah tolok ukur untuk mengevaluasi kemampuan hukum LLM.
La Papan Peringkat	La Leaderboard mengevaluasi dan melacak hafalan LLM, penalaran dan kemampuan linguistik di Spanyol, LATAM dan Karibia.
LogikaKor	LogicKor adalah tolok ukur untuk mengevaluasi kemampuan berpikir multidisiplin LLM Korea.
Papan Peringkat LongICL	LongICL Leaderboard adalah platform untuk mengevaluasi evaluasi pembelajaran jangka panjang dalam konteks untuk LLM.
Lihat	LooGLE adalah tolok ukur untuk mengevaluasi kemampuan pemahaman konteks panjang LLM.
HUKUM	LAiW merupakan tolok ukur untuk mengevaluasi pemahaman dan penalaran bahasa hukum Tiongkok.
Suite Tolok Ukur LLM	LLM Benchmarker Suite adalah tolok ukur untuk mengevaluasi kemampuan komprehensif LLM.
Penilaian Model Bahasa Besar dalam Konteks Bahasa Inggris	Penilaian Model Bahasa Besar dalam Konteks Bahasa Inggris adalah platform untuk mengevaluasi LLM dalam konteks bahasa Inggris.
Penilaian Model Bahasa Besar dalam Konteks Cina	Penilaian Model Bahasa Besar dalam Konteks Tiongkok adalah platform untuk mengevaluasi LLM dalam konteks Tiongkok.
LIBRA	LIBRA adalah tolok ukur untuk mengevaluasi kemampuan LLM dalam memahami dan memproses teks panjang Rusia.
Papan Peringkat LibraAI-Eval GenAI	LibraI-Eval GenAI Leaderboard berfokus pada keseimbangan antara kemampuan dan keamanan LLM dalam bahasa Inggris.
Bench Langsung	LiveBench adalah tolok ukur bagi LLM untuk meminimalkan kontaminasi set pengujian dan memungkinkan evaluasi yang obyektif dan otomatis pada beragam tugas yang diperbarui secara berkala.
LLMEval	LLMEval adalah tolok ukur untuk mengevaluasi kualitas percakapan domain terbuka dengan LLM.
Llmval-Gaokao2024-Matematika	Llmeval-Gaokao2024-Math adalah tolak ukur untuk mengevaluasi LLM pada soal matematika tingkat Gaokao 2024 dalam bahasa Mandarin.
Papan Peringkat Halusinasi LLM	Papan Peringkat Halusinasi mengevaluasi LLM berdasarkan serangkaian tolok ukur terkait halusinasi.
LLMPerf	LLMPerf adalah alat untuk mengevaluasi kinerja LLM menggunakan uji beban dan kebenaran.
Papan Peringkat Prediksi Risiko Penyakit LLM	Papan Peringkat Prediksi Risiko Penyakit LLM adalah platform untuk mengevaluasi LLM dalam prediksi risiko penyakit.
Papan Peringkat LLM	Papan Peringkat LLM melacak dan mengevaluasi penyedia LLM, memungkinkan pemilihan API dan model optimal untuk kebutuhan pengguna.
Papan Peringkat LLM untuk CRM	CRM LLM Leaderboard adalah platform untuk mengevaluasi kemanjuran LLM untuk aplikasi bisnis.
Observatorium LLM	LLM Observatory adalah tolok ukur yang menilai dan memberi peringkat LLM berdasarkan kinerja mereka dalam menghindari bias sosial di berbagai kategori seperti orientasi LGBTIQ+, usia, jenis kelamin, politik, ras, agama, dan xenofobia.
Papan Peringkat Harga LLM	Papan Peringkat Harga LLM melacak dan membandingkan biaya LLM berdasarkan satu juta token.
Peringkat LLM	Peringkat LLM menawarkan perbandingan model bahasa secara real-time berdasarkan penggunaan token yang dinormalisasi untuk perintah dan penyelesaian, yang sering diperbarui.
Papan Peringkat Permainan Peran LLM	Papan Peringkat Roleplay LLM mengevaluasi kinerja manusia dan AI dalam permainan manusia serigala sosial untuk pengembangan NPC.
Papan Peringkat Keamanan LLM	Papan Peringkat Keamanan LLM bertujuan untuk memberikan evaluasi terpadu untuk keamanan model bahasa.
Papan Peringkat Kasus Penggunaan LLM	LLM Use Case Leaderboard melacak dan mengevaluasi LLM dalam kasus penggunaan bisnis.
LLM-AggreFact	LLM-AggreFact adalah tolok ukur pengecekan fakta yang mengumpulkan kumpulan data terbaru yang tersedia untuk umum berdasarkan evaluasi faktualitas yang mendasar.
LLM-Papan Peringkat	LLM-Leaderboard adalah upaya komunitas bersama untuk menciptakan satu papan peringkat pusat untuk LLM.
Papan Peringkat LLM-Perf	LLM-Perf Leaderboard bertujuan untuk mengukur kinerja LLM dengan perangkat keras, backend, dan pengoptimalan yang berbeda.
Ujian LMQA	LMExamQA adalah kerangka kerja pembandingan di mana model bahasa bertindak sebagai pemeriksa untuk menghasilkan pertanyaan dan mengevaluasi tanggapan dengan cara otomatis dan bebas referensi untuk penilaian yang komprehensif dan adil.
Bangku Panjang	LongBench adalah tolok ukur untuk menilai kemampuan pemahaman konteks panjang LLM.
lama	Loong adalah tolok ukur konteks panjang untuk mengevaluasi kemampuan QA multi-dokumen LLM di seluruh skenario keuangan, hukum, dan akademik.
Papan Peringkat LLM Terbuka Terkuantisasi Bit Rendah	Papan Peringkat LLM Terbuka Terkuantisasi Bit Rendah melacak dan membandingkan LLM kuantisasi dengan algoritme kuantisasi berbeda.
LV-Eval	LV-Eval adalah tolok ukur konteks panjang dengan lima tingkat panjang dan teknik canggih untuk evaluasi LLM yang akurat pada tugas QA lompatan tunggal dan multilompatan di seluruh kumpulan data bilingual.
LucyEval	LucyEval menawarkan penilaian menyeluruh terhadap kinerja LLM dalam berbagai konteks Tiongkok.
L-Eval	L-Eval adalah tolok ukur evaluasi Long Context Language Model (LCLM) untuk mengevaluasi kinerja penanganan konteks luas.
M3KE	M3KE adalah tolok ukur evaluasi pengetahuan multi-mata pelajaran multi-level yang sangat besar untuk mengukur pengetahuan yang diperoleh oleh LLM Tiongkok.
Kritik Meta	MetaCritique adalah juri yang dapat mengevaluasi kritik yang ditulis manusia atau dihasilkan oleh LLM dengan menghasilkan kritik.
MINT	MINT adalah tolok ukur untuk mengevaluasi kemampuan LLM dalam menyelesaikan tugas dengan interaksi multi-putaran dengan menggunakan alat dan memanfaatkan umpan balik bahasa alami.
fatamorgana	Mirage adalah tolok ukur untuk generasi augmented pengambilan informasi medis, menampilkan 7.663 pertanyaan dari lima kumpulan data QA medis dan diuji dengan 41 konfigurasi menggunakan toolkit MedRag.
bangku medis	MedBench menjadi tolok ukur untuk mengevaluasi penguasaan pengetahuan dan kemampuan penalaran di LLM kedokteran.
Bangku MedS	MedS-Bench adalah tolok ukur medis yang mengevaluasi LLM di 11 kategori tugas menggunakan 39 kumpulan data yang berbeda.
Papan peringkat Meta Terbuka LLM	Papan peringkat Meta Open LLM berfungsi sebagai hub pusat untuk menggabungkan data dari berbagai papan peringkat LLM terbuka menjadi satu halaman visualisasi yang mudah digunakan.
Papan Peringkat Pengambilan Keputusan Klinis MIMIC	Papan Peringkat Pengambilan Keputusan Klinis MIMIC melacak dan mengevaluasi LLms dalam pengambilan keputusan klinis yang realistis untuk patologi perut.
CampuranEval	MixEval adalah tolok ukur untuk mengevaluasi LLM melalui penggabungan tolok ukur yang tersedia secara strategis.
Papan Peringkat ML.ENERGI	Papan Peringkat ML.ENERGY mengevaluasi konsumsi energi LLM.
MMedBench	MMedBench adalah tolok ukur medis untuk mengevaluasi LLM dalam pemahaman multibahasa.
MMLU	MMLU adalah tolok ukur untuk mengevaluasi kinerja LLM di beragam tugas pemahaman bahasa alami.
Papan Peringkat MMLU berdasarkan tugas	Papan Peringkat MMLU per tugas menyediakan platform untuk mengevaluasi dan membandingkan berbagai model ML di berbagai tugas pemahaman bahasa.
MMLU-Pro	MMLU-Pro adalah versi MMLU yang lebih menantang untuk mengevaluasi kemampuan penalaran LLM.
Papan Peringkat LLM ModelScope	ModelScope LLM Leaderboard adalah platform untuk mengevaluasi LLM secara obyektif dan komprehensif.
Papan Peringkat Evaluasi Model	Papan Peringkat Evaluasi Model melacak dan mengevaluasi model pembuatan teks berdasarkan performanya di berbagai tolok ukur menggunakan kerangka kerja Moses Eval Gauntlet.
Papan Peringkat MSNP	Papan Peringkat MSNP melacak dan mengevaluasi performa model GGUF terkuantisasi pada berbagai kombinasi GPU dan CPU menggunakan pengaturan node tunggal melalui Ollama.
MSTEB	MSTEB adalah tolok ukur untuk mengukur kinerja model penyematan teks dalam bahasa Spanyol.
MTB	MTEB adalah tolok ukur besar untuk mengukur kinerja model penyematan teks pada beragam tugas penyematan dalam 112 bahasa.
Arena MTB	MTEB Arena menjadi tuan rumah arena model untuk penilaian model penyematan yang dinamis dan nyata melalui perbandingan kueri dan pengambilan berbasis pengguna.
MT-Bangku-101	MT-Bench-101 adalah tolok ukur yang terperinci untuk mengevaluasi LLM dalam dialog multi-putaran.
Papan Peringkat LLM Melayu SAYA	Papan Peringkat LLM Melayu SAYA bertujuan untuk melacak, memberi peringkat, dan mengevaluasi LLM terbuka pada tugas-tugas berbahasa Melayu.
Tidak ada Cha	NoCha adalah tolok ukur untuk mengevaluasi seberapa baik model bahasa konteks panjang dapat memverifikasi klaim yang ditulis tentang buku fiksi.
NPHardEval	NPHardEval adalah tolok ukur untuk mengevaluasi kemampuan penalaran LLM melalui lensa kelas kompleksitas komputasi.
Papan Peringkat Occiglot Euro LLM	Papan Peringkat LLM Euro Occiglot membandingkan LLM dalam empat bahasa utama dari benchmark Okapi dan Belebele (Prancis, Italia, Jerman, Spanyol, dan Belanda).
Bangku Olimpiade	OlympiadBench adalah tolok ukur ilmiah multimodal bilingual yang menampilkan 8.476 soal matematika dan fisika tingkat Olimpiade dengan anotasi penalaran langkah demi langkah tingkat ahli.
Arena Olimpiade	OlympicArena adalah tolok ukur untuk mengevaluasi kemampuan tingkat lanjut LLM di berbagai tantangan tingkat Olimpiade.
oobabooga	Oobabooga adalah tolok ukur untuk melakukan pengujian kinerja LLM berulang dengan UI web oobabooga.
OpenEval	OpenEval adalah platform penilaian untuk mengevaluasi LLM Tiongkok.
Papan peringkat Turki OpenLLM	Papan peringkat OpenLLM Turki melacak kemajuan dan memberi peringkat kinerja LLM dalam bahasa Turki.
Papan Peringkat Keterbukaan	Papan Peringkat Keterbukaan melacak dan mengevaluasi transparansi model dalam hal akses terbuka terhadap bobot, data, dan lisensi, sehingga memperlihatkan model yang tidak memenuhi standar keterbukaan.
Papan Peringkat Keterbukaan	Papan Peringkat Keterbukaan adalah alat yang melacak keterbukaan LLM yang disesuaikan dengan instruksi, mengevaluasi transparansi, data, dan ketersediaan modelnya.
Peneliti Terbuka	OpenResearcher memuat hasil benchmarking pada berbagai sistem terkait RAG sebagai papan peringkat.
Buka Papan Peringkat LLM Bahasa Arab	Papan Peringkat LLM Bahasa Arab Terbuka melacak kemajuan dan memberi peringkat kinerja LLM dalam bahasa Arab.
Buka Papan Peringkat LLM Cina	Papan Peringkat LLM Tiongkok Terbuka bertujuan untuk melacak, memberi peringkat, dan mengevaluasi LLM Tiongkok terbuka.
Buka Papan Peringkat CoT	Open CoT Leaderboard melacak kemampuan LLM untuk menghasilkan jejak penalaran rantai pemikiran yang efektif.
Buka Papan Peringkat Evaluasi LLM Belanda	Papan Peringkat Evaluasi LLM Belanda Terbuka melacak kemajuan dan memberi peringkat kinerja LLM dalam bahasa Belanda.
Buka Papan Peringkat LLM Keuangan	Open Financial LLM Leaderboard bertujuan untuk mengevaluasi dan membandingkan kinerja LLM keuangan.
Buka Papan Peringkat ITA LLM	Buka Papan Peringkat LLM ITA melacak kemajuan dan memberi peringkat kinerja LLM dalam bahasa Italia.
Buka Papan Peringkat Ko-LLM	Buka Papan Peringkat Ko-LLM melacak kemajuan dan memberi peringkat kinerja LLM dalam bahasa Korea.
Buka Papan Peringkat LLM	Buka Papan Peringkat LLM melacak kemajuan dan memberi peringkat kinerja LLM dalam bahasa Inggris.
Buka Papan Peringkat Medis-LLM	Papan Peringkat LLM Medis Terbuka bertujuan untuk melacak, memberi peringkat, dan mengevaluasi LLM terbuka di domain medis.
Buka Papan Peringkat MLLM	Open MLLM Leaderboard bertujuan untuk melacak, memberi peringkat dan mengevaluasi LLM dan chatbots.
Buka Papan Peringkat MOE LLM	Papan Peringkat LLM OPEN MOE menilai kinerja dan efisiensi berbagai LLM Campuran Ahli (MoE).
Buka Papan Peringkat Evaluasi LLM Multibahasa	Papan Peringkat Evaluasi LLM Multibahasa Terbuka melacak kemajuan dan memberi peringkat kinerja LLM dalam berbagai bahasa.
Buka Papan Peringkat PL LLM	Open PL LLM Leaderboard adalah platform untuk menilai kinerja berbagai LLM dalam bahasa Polandia.
Buka Papan Peringkat LLM Portugis	Open PT LLM Leaderboard bertujuan untuk mengevaluasi dan membandingkan LLM dalam tugas berbahasa Portugis.
Buka papan peringkat LLM Taiwan	Papan peringkat LLM Taiwan Terbuka menampilkan kinerja LLM dalam berbagai tugas pemahaman bahasa Mandarin Taiwan.
Buka-LLM-Papan Peringkat	Open-LLM-Leaderboard mengevaluasi LLM dalam pemahaman dan penalaran bahasa dengan beralih dari pertanyaan pilihan ganda (MCQ) ke pertanyaan gaya terbuka.
Dasbor OPUS-MT	Dasbor OPUS-MT adalah platform untuk melacak dan membandingkan model terjemahan mesin di berbagai pasangan bahasa dan metrik.
ATAU-Bangku	OR-Bench adalah tolok ukur untuk mengevaluasi penolakan berlebihan terhadap peningkatan keselamatan di LLM.
ParsBench	ParsBench menyediakan toolkit untuk membandingkan LLM berdasarkan bahasa Persia.
Papan Peringkat LLM Persia	Papan Peringkat LLM Persia memberikan evaluasi LLM yang andal dalam Bahasa Persia.
Papan peringkat Pinokio ITA	Papan peringkat Pinocchio ITA melacak dan mengevaluasi LLM dalam Bahasa Italia.
PL-MTEB	PL-MTEB (Tolok Ukur Penyematan Teks Besar Polandia) adalah tolok ukur untuk mengevaluasi penyematan teks dalam bahasa Polandia di 28 tugas NLP.
Papan Peringkat Medis Polandia	Papan Peringkat Medis Polandia mengevaluasi model bahasa pada ujian sertifikasi dewan Polandia.
Papan Peringkat LLM yang Didukung oleh Intel	Papan Peringkat LLM yang didukung oleh Intel mengevaluasi, memberi skor, dan memberi peringkat pada LLM yang telah dilatih sebelumnya atau disempurnakan pada Perangkat Keras Intel.
PubMedQA	PubMedQA adalah tolok ukur untuk mengevaluasi jawaban pertanyaan penelitian biomedis.
Bangku Prompt	PromptBench adalah tolok ukur untuk mengevaluasi kekuatan LLM dalam menghadapi permintaan yang berlawanan.
QAConv	QAConv adalah tolok ukur untuk menjawab pertanyaan menggunakan percakapan yang kompleks, spesifik domain, dan asinkron sebagai sumber pengetahuan.
Kualitas	KUALITAS menjadi tolak ukur penilaian soal-soal pilihan ganda dengan konteks yang panjang.
KELINCI	RABBITS adalah tolok ukur untuk mengevaluasi ketahanan LLM dengan mengevaluasi penanganan sinonimnya, khususnya nama merek dan obat generik.
Rakuda	Rakuda adalah tolok ukur untuk mengevaluasi LLMS berdasarkan seberapa baik mereka menjawab serangkaian pertanyaan terbuka tentang topik Jepang.
Redteam Arena	Redteam Arena adalah platform tim merah untuk LLMS.
Benchmark Perlawanan Peaming Merah	Red Teaming Resistance Benchmark adalah tolok ukur untuk mengevaluasi kekokohan LLMS terhadap petunjuk tim merah.
REST-MCTS*	REST-MCTS* adalah metode pelatihan mandiri yang diperkuat yang menggunakan pencarian pohon dan proses penghargaan untuk mengumpulkan jejak penalaran berkualitas tinggi untuk kebijakan pelatihan dan model penghargaan tanpa anotasi langkah manual.
Reviewer Arena	Peninjau Arena menjadi tuan rumah pengulas Arena, di mana berbagai LLM bersaing berdasarkan kinerja mereka dalam mengkritik makalah akademik.
Roleeval	Roleeval adalah tolok ukur dwibahasa untuk mengevaluasi memori, pemanfaatan, dan kemampuan penalaran dari pengetahuan peran LLMS.
Papan peringkat RPBench	RPBench-Auto adalah pipa otomatis untuk mengevaluasi LLMS menggunakan 80 Persona untuk karakter berbasis karakter dan 80 adegan untuk bermain peran berbasis adegan.
Arena Chatbot Rusia	Chatbot Arena menyelenggarakan arena chatbot di mana berbagai LLM bersaing dalam bahasa Rusia berdasarkan kepuasan pengguna.
Superglue Rusia	Superglue Rusia adalah tolok ukur untuk model bahasa Rusia, berfokus pada logika, akal sehat, dan tugas penalaran.
R-Hakim	R-Judge adalah tolok ukur untuk mengevaluasi kemahiran LLM dalam menilai dan mengidentifikasi risiko keselamatan yang diberikan catatan interaksi agen.
Petunjuk keamanan	Permintaan keselamatan adalah tolok ukur untuk mengevaluasi keamanan LLM Cina.
Safetybench	Safetybench adalah tolok ukur untuk mengevaluasi keamanan LLMS.
Salad-Bench	Salad-Bench adalah tolok ukur untuk mengevaluasi keselamatan dan keamanan LLMS.
Skandeval	Scandeval adalah tolok ukur untuk mengevaluasi LLMS pada tugas -tugas dalam bahasa Skandinavia serta Jerman, Belanda, dan Inggris.
Papan peringkat sains	Science Leaderboard adalah platform untuk mengevaluasi kemampuan LLMS untuk menyelesaikan masalah sains.
Sciglm	SCIGLM adalah serangkaian model bahasa ilmiah yang menggunakan kerangka anotasi instruksi reflektif diri untuk meningkatkan penalaran ilmiah dengan menghasilkan dan merevisi solusi langkah demi langkah untuk pertanyaan tanpa label.
Sciknoweval	Sciknoweval adalah tolok ukur untuk mengevaluasi LLM berdasarkan kemahiran mereka dalam belajar secara luas, menanyakan dengan sungguh -sungguh, berpikir mendalam, membedakan dengan jelas, dan berlatih dengan tekun.
Gulungan	Gulungan adalah tolok ukur untuk mengevaluasi kemampuan penalaran LLM melalui teks panjang.
Seaexam	Seaexam adalah tolok ukur untuk mengevaluasi LLMS untuk bahasa Asia Tenggara (Laut).
Segel LLM LEASORARDS	SEAL LLM LEORMBOARDS adalah platform evaluasi swasta yang digerakkan oleh ahli untuk LLMS.
Seaval	SeaVal adalah tolok ukur untuk mengevaluasi kinerja LLM multibahasa dalam pemahaman dan penalaran dengan bahasa alami, serta memahami praktik budaya, nuansa, dan nilai -nilai budaya.
Helm laut	Sea Helm adalah tolok ukur untuk mengevaluasi kinerja LLMS di seluruh Tugas Bahasa Inggris dan Asia Tenggara, fokus pada obrolan, pengikut instruksi, dan kemampuan linguistik.
Seceval	Seceval adalah tolok ukur untuk mengevaluasi pengetahuan keamanan siber dari model yayasan.
Papan peringkat yang meningkatkan diri	Leaderboard yang meningkatkan diri (SIL) adalah platform dinamis yang terus memperbarui set data dan peringkat pengujian untuk memberikan wawasan kinerja waktu nyata untuk LLM dan chatbots sumber terbuka.
Spec-bench	Spec-Bench adalah tolok ukur untuk mengevaluasi metode decoding spekulatif di berbagai skenario.
Struktural	Structeval adalah tolok ukur untuk mengevaluasi LLM dengan melakukan penilaian terstruktur di berbagai tingkat kognitif dan konsep kritis.
Papan peringkat LLM subquadratic	Papan peringkat Subquadratic LLM mengevaluasi LLM dengan arsitektur subquadratic/free-free (yaitu RWKV & Mamba).
Superbench	Superbench adalah sistem tugas dan dimensi yang komprehensif untuk mengevaluasi kemampuan keseluruhan LLMS.
Superglue	Superglue adalah tolok ukur untuk mengevaluasi kinerja LLMS pada serangkaian tugas pemahaman bahasa yang menantang.
Superlim	Superlim adalah tolok ukur untuk mengevaluasi kemampuan pemahaman bahasa LLM di Swedia.
Swahili llm-Leaderboard	Swahili LLM-Leaderboard adalah upaya komunitas bersama untuk membuat satu papan peringkat pusat untuk LLMS.
S-eval	S-Eval adalah tolok ukur keselamatan multi-dimensi yang komprehensif dengan 220.000 petunjuk yang dirancang untuk mengevaluasi keamanan LLM di berbagai dimensi risiko.
Tableqaeval	TableqAeval adalah tolok ukur untuk mengevaluasi kinerja LLM dalam pemodelan tabel panjang dan kemampuan pemahaman, seperti penalaran numerik dan multi-hop.
Tat-dqa	TAT-DQA adalah tolok ukur untuk mengevaluasi LLM pada penalaran diskrit atas dokumen yang menggabungkan informasi terstruktur dan tidak terstruktur.
Tat-qa	TAT-QA adalah tolok ukur untuk mengevaluasi LLMS pada penalaran diskrit atas dokumen yang menggabungkan konten tabular dan tekstual.
Papan peringkat Thai LLM	Papan peringkat Thailand LLM bertujuan untuk melacak dan mengevaluasi LLM dalam tugas-tugas berbahasa Thailand.
Tumpukan	Tumpukan adalah tolok ukur untuk mengevaluasi pengetahuan dunia dan kemampuan penalaran LLMS.
Tahu	Tofu adalah tolok ukur untuk mengevaluasi kinerja LLMS yang tidak belajar dalam skenario realistis.
Papan peringkat Toloke LLM	Papan peringkat Toloka LLM adalah tolok ukur untuk mengevaluasi LLM berdasarkan petunjuk pengguna otentik dan evaluasi manusia ahli.
Toolbench	Toolbench adalah platform untuk pelatihan, melayani, dan mengevaluasi LLMS khusus untuk pembelajaran alat.
Papan peringkat toksisitas	Papan peringkat toksisitas mengevaluasi toksisitas LLMS.
Papan peringkat LLM Trustbit	Trustbit LLM Leadeboards adalah platform yang menyediakan tolok ukur untuk membangun dan pengiriman produk dengan LLM.
Trustllm	Trustllm adalah tolok ukur untuk mengevaluasi kepercayaan LLMS.
TuringAdvice	TuringAdvice adalah tolok ukur untuk mengevaluasi kemampuan model bahasa untuk menghasilkan saran yang bermanfaat untuk situasi kehidupan nyata dan terbuka.
Tutoreval	Tutoreval adalah tolok ukur imbalan pertanyaan yang mengevaluasi seberapa baik seorang tutor LLM dapat membantu pengguna memahami bab dari buku teks sains.
T-eval	T-eval adalah tolok ukur untuk mengevaluasi kemampuan pemanfaatan pahat LLMS.
Papan peringkat UGI	Ukuran papan peringkat UGI dan membandingkan informasi yang tidak disensor dan kontroversial yang diketahui oleh LLMS.
Ultraeval	Ultraeval adalah kerangka kerja open-source untuk pembandingan LLM yang transparan dan dapat direproduksi di berbagai dimensi kinerja.
Vals AI	Vals AI adalah platform yang mengevaluasi akurasi dan kemanjuran AI generatif pada tugas-tugas hukum dunia nyata.
Vcr	Visual Commonsense Reasoning (VCR) adalah tolok ukur untuk pemahaman visual tingkat kognisi, yang membutuhkan model untuk menjawab pertanyaan visual dan memberikan alasan untuk jawaban mereka.
Vidore	Vidore adalah tolok ukur untuk mengevaluasi model pengambilan tentang kapasitas mereka untuk mencocokkan pertanyaan dengan dokumen yang relevan di tingkat halaman.
Papan peringkat VLLMS	Papan peringkat VLLMS bertujuan untuk melacak, memberi peringkat, dan mengevaluasi LLMS dan chatbots terbuka.
Vmlu	VMLU adalah tolok ukur untuk mengevaluasi kemampuan keseluruhan model yayasan di Vietnam.
Wildbench	Wildbench adalah tolok ukur untuk mengevaluasi model bahasa pada tugas-tugas yang menantang yang sangat mirip dengan aplikasi dunia nyata.
Xiezhi	Xiezhi adalah tolok ukur untuk evaluasi pengetahuan domain holistik dari LLMS.
Arena yanolja	Yanolja Arena menjadi tuan rumah arena model untuk mengevaluasi kemampuan LLMS dalam meringkas dan menerjemahkan teks.
Papan peringkat LLM lainnya	Namun papan peringkat LLM lainnya adalah platform untuk melacak, memberi peringkat, dan mengevaluasi Open LLMS dan Chatbots.
Zebralogic	Zebralogic adalah tolok ukur yang mengevaluasi penalaran logis LLMS menggunakan teka -teki grid logika, jenis masalah kepuasan kendala (CSP).
Zerosumeval	Zerosumeval adalah kerangka evaluasi kompetitif untuk LLMS menggunakan simulasi multipemain dengan kondisi menang yang jelas.

Gambar

Nama	Keterangan
Gambar abstrak	Abstrak Gambar adalah tolok ukur untuk mengevaluasi multimodal LLMS (MLLM) dalam pemahaman dan penalaran visual tentang gambar abstrak, seperti peta, grafik, dan tata letak.
Aesbench	Aesbench adalah tolok ukur untuk mengevaluasi MLLM pada persepsi estetika gambar.
BERKEDIP	Blink adalah tolok ukur untuk mengevaluasi kemampuan persepsi visual inti MLLM.
Blinkcode	Blinkcode adalah tolok ukur untuk mengevaluasi MLLM di 15 model visi-bahasa (VLM) dan 9 tugas, akurasi pengukuran dan kinerja rekonstruksi gambar.
KEKUATIRAN	CARES adalah tolok ukur untuk mengevaluasi kepercayaan MED-LVLM di seluruh kepercayaan, keadilan, keselamatan, privasi, dan ketahanan menggunakan pasangan pertanyaan 41k dari 16 modalitas citra medis dan 27 wilayah anatomi.
ChartMimic	ChartMimic adalah tolok ukur untuk mengevaluasi kemampuan pembuatan kode visual dari model multimodal besar menggunakan grafik dan instruksi tekstual.
Charxiv	Charxiv adalah tolok ukur untuk mengevaluasi kemampuan pemahaman bagan MLLMS.
Kontekstual	Kontekstual adalah tolok ukur untuk mengevaluasi MLLM di seluruh tugas penalaran visual yang peka terhadap teks-teks.
Core-Mm	Core-MM adalah tolok ukur untuk mengevaluasi kemampuan quester-anjebak visual terbuka (VQA) dari MLLMS.
DreamBench ++	DreamBench ++ adalah tolok ukur yang selaras dengan manusia yang diotomatisasi oleh model multimodal untuk pembuatan gambar yang dipersonalisasi.
Egoplan-Bench	Egoplan-Bench adalah tolok ukur untuk mengevaluasi kemampuan perencanaan MLLM di dunia nyata, skenario egosentris.
Glitchbench	Glitchbench adalah tolok ukur untuk mengevaluasi kemampuan penalaran MLLM dalam konteks mendeteksi gangguan video game.
HallusionBench	HallusionBench adalah tolok ukur untuk mengevaluasi kemampuan penalaran konteks gambar MLLMS.
Infimm-eval	Infimm-eval adalah tolok ukur untuk mengevaluasi kemampuan VQA terbuka MLLMS.
Papan peringkat LRVSF	Papan peringkat LRVSF adalah platform untuk mengevaluasi LLM mengenai pencarian kesamaan gambar dalam mode.
Papan peringkat LVLM	Papan peringkat LVLM adalah platform untuk mengevaluasi kemampuan penalaran visual MLLMS.
M3cot	M3COT adalah tolok ukur untuk rantai multi-step multi-step multi-modal MLLMS.
Kenang -kenangan	Mementos adalah tolok ukur untuk mengevaluasi kemampuan penalaran MLLM atas urutan gambar.
MJ-Bench	MJ-Bench adalah tolok ukur untuk mengevaluasi juri multimodal dalam memberikan umpan balik untuk model pembuatan gambar di empat perspektif utama: penyelarasan, keselamatan, kualitas gambar, dan bias.
MLLM-AS-A-JUGCH	MLLM-AS-A-Judge adalah tolok ukur dengan anotasi manusia untuk mengevaluasi kemampuan penilaian MLLM dalam penilaian, perbandingan pasangan, dan tugas peringkat batch di seluruh domain multimodal.
Mllm-bench	MLLM-Bench adalah tolok ukur untuk mengevaluasi kemampuan penalaran visual MLVM.
Papan peringkat MMBench	MMBench Leaderboard adalah platform untuk mengevaluasi kemampuan penalaran visual MLLMS.
Nyonya	MME adalah tolok ukur untuk mengevaluasi kemampuan penalaran visual MLLMS.
Nyonya-realworld	MME-Realworld adalah patokan beresolusi tinggi berskala besar yang menampilkan 29.429 pasangan QA yang dianotasi manusia di 43 tugas.
MMIU	MMIU (Ultimodal Multi-Image Mahing) adalah tolok ukur untuk mengevaluasi MLLM di 7 hubungan multi-gambar, 52 tugas, gambar 77k, dan 11k pertanyaan pilihan ganda yang dikuratori.
MMMU	MMMU adalah tolok ukur untuk mengevaluasi kinerja model multimodal pada tugas yang menuntut pengetahuan subjek tingkat perguruan tinggi dan penalaran tingkat ahli di berbagai disiplin ilmu.
MMR	MMR adalah tolok ukur untuk mengevaluasi kekokohan MLLM dalam pemahaman visual dengan menilai kemampuan mereka untuk menangani pertanyaan -pertanyaan utama, daripada hanya akurasi dalam menjawab.
MMSearch	MMSearch adalah tolok ukur untuk mengevaluasi kinerja pencarian multimodal LMM.
Mmstar	MMStar adalah tolok ukur untuk mengevaluasi kapasitas multi-modal MLLMS.
MMT-Bench	MMT-Bench adalah tolok ukur untuk mengevaluasi MLLM di berbagai tugas multimodal yang membutuhkan pengetahuan ahli serta pengakuan visual, lokalisasi, penalaran, dan perencanaan yang disengaja.
Mm-niah	MM-NIAH (jarum dalam tumpukan jerami multimodal) adalah tolok ukur untuk mengevaluasi kemampuan MLLM untuk memahami dokumen multimodal yang panjang melalui pengambilan, penghitungan, dan tugas penalaran yang melibatkan data teks dan gambar.
MTVQA	MTVQA adalah tolok ukur pemahaman teks visual multibahasa untuk mengevaluasi MLLMS.
Papan peringkat halusinasi multimodal	Papan peringkat halusinasi multimodal membandingkan MLLM berdasarkan tingkat halusinasi dalam berbagai tugas.
Multi-Benchmark	Multi-Benchmark adalah tolok ukur untuk mengevaluasi MLLM tentang pemahaman tabel dan gambar yang kompleks, dan penalaran dengan konteks yang panjang.
Multitrust	Multitrust adalah tolok ukur untuk mengevaluasi kepercayaan MLLM di lima aspek utama: kebenaran, keamanan, ketahanan, keadilan, dan privasi.
Nphardeval4v	NPHARDEVAL4V adalah tolok ukur untuk mengevaluasi kemampuan penalaran MLLM melalui lensa kelas kompleksitas komputasi.
Papan peringkat penyedia	Papan Penyedia API LLM adalah platform untuk membandingkan kinerja penyedia API dengan titik akhir LLM di seluruh metrik kunci kinerja.
Ocrbench	OCRBench adalah tolok ukur untuk mengevaluasi kemampuan OCR dari model multimodal.
PCA-Bench	PCA-Bench adalah tolok ukur untuk mengevaluasi kemampuan pengambilan keputusan yang diwujudkan dari model multimodal.
Q-Bench	Q-Bench adalah tolok ukur untuk mengevaluasi kemampuan penalaran visual MLLM.
RewardBench	RewardBench adalah tolok ukur untuk mengevaluasi kemampuan dan keamanan model hadiah.
Scienceqa	ScienceQA adalah tolok ukur yang digunakan untuk mengevaluasi kemampuan penalaran multi-hop dan interpretabilitas sistem AI dalam konteks menjawab pertanyaan sains.
Scigraphqa	Scigraphqa adalah tolok ukur untuk mengevaluasi MLLMS dalam pertanyaan grafik ilmiah.
Benih-bench	Seed-bench adalah tolok ukur untuk mengevaluasi teks dan pembuatan gambar model multimodal.
Usaha	Urial adalah tolok ukur untuk mengevaluasi kapasitas model bahasa untuk penyelarasan tanpa memperkenalkan faktor-faktor penyesuaian (tingkat pembelajaran, data, dll.), Yang sulit dikendalikan untuk perbandingan yang adil.
Papan peringkat UPD	UPD Leadingboard adalah platform untuk mengevaluasi kepercayaan MLLM dalam deteksi masalah yang tidak dapat diselesaikan.
Getaran-Eval	Vibe-eval adalah tolok ukur untuk mengevaluasi MLLM untuk kasus yang menantang.
VideoHallucer	VideoHallucer adalah tolok ukur untuk mendeteksi halusinasi di MLLMS.
Kunjungan-bangku	Visit-Bench adalah tolok ukur untuk mengevaluasi kemampuan mengikuti instruksi MLLMS untuk penggunaan dunia nyata.
Tantangan dataset buka waymo	Waymo Open Dataset Tantangan memiliki beragam set data mengemudi sendiri untuk mengevaluasi model ML.
Aduh!	Aduh! adalah tolok ukur untuk mengevaluasi kemampuan penalaran masuk akal visual MLLMS.
B-Bench Wildvision	Wildvision-Bench adalah tolok ukur untuk mengevaluasi VLM di alam liar dengan preferensi manusia.
Arena Wildvision	Wildvision Arena menjadi tuan rumah arena chatbot di mana berbagai MLLM bersaing berdasarkan kinerja mereka dalam pemahaman visual.

Kode

Nama	Keterangan
Aider LLM Leadeboards	Aider LLM Leadeboards mengevaluasi kemampuan LLM untuk mengikuti petunjuk sistem untuk mengedit kode.
AppWorld	AppWorld adalah lingkungan eksekusi kesetiaan tinggi dari 9 aplikasi sehari-hari, dapat dioperasikan melalui 457 API, diisi dengan kegiatan digital ~ 100 orang yang tinggal di dunia simulasi.
Papan peringkat pemanggilan fungsi Berkeley	Papan peringkat pemanggilan fungsi Berkeley mengevaluasi kemampuan LLM untuk memanggil fungsi (juga dikenal sebagai alat) secara akurat.
BigCodeBench	BigCodeBench adalah tolok ukur untuk pembuatan kode dengan tugas pemrograman yang praktis dan menantang.
Papan Besar Model Kode Besar	Big Code Model Leaderboard adalah platform untuk melacak dan mengevaluasi kinerja LLMS pada tugas terkait kode.
BURUNG	Bird adalah tolok ukur untuk mengevaluasi kinerja sistem parsing teks-ke-sql.
Booksql	BooksQL adalah tolok ukur untuk mengevaluasi sistem teks-ke-SQL di domain keuangan dan akuntansi di berbagai industri dengan dataset 1 juta transaksi dari 27 bisnis.
Papan peringkat Canaicode	Canaicode Leaderboard adalah platform untuk mengevaluasi kemampuan pembuatan kode LLMS.
Classeval	Classeval adalah tolok ukur untuk mengevaluasi LLM pada pembuatan kode tingkat kelas.
Codeapex	Codeapex adalah tolok ukur untuk mengevaluasi pemahaman pemrograman LLMS melalui pertanyaan pilihan ganda dan pembuatan kode dengan masalah algoritma C ++.
Codescope	Codescope adalah tolok ukur untuk mengevaluasi kemampuan pengkodean LLM di 43 bahasa dan 8 tugas, mempertimbangkan kesulitan, efisiensi, dan panjang.
Codetransocean	Codetransocean adalah tolok ukur untuk mengevaluasi terjemahan kode di berbagai bahasa pemrograman, termasuk kode populer, niche, dan translasi LLM.
Kode lingua	Code Lingua adalah tolok ukur untuk membandingkan kemampuan model kode untuk memahami apa yang diterapkan kode dalam bahasa sumber dan menerjemahkan semantik yang sama dalam bahasa target.
Coding LLMS Leaderboard	Coding LLMS Leaderboard adalah platform untuk mengevaluasi dan memberi peringkat LLM di berbagai tugas pemrograman.
Komit-0	Commit-0 adalah tantangan pengkodean AI dari-scratch untuk membangun kembali 54 perpustakaan inti Python, memastikan mereka lulus uji unit dengan cakupan uji yang signifikan, pemeriksaan serat/tipe, dan pengembangan terdistribusi berbasis cloud.
Cruxeval	Cruxeval adalah tolok ukur untuk mengevaluasi penalaran kode, pemahaman, dan kemampuan eksekusi LLMS.
Cspider	CSPIDER adalah tolok ukur untuk mengevaluasi kemampuan sistem untuk menghasilkan pertanyaan SQL dari bahasa alami Cina di seluruh basis data beragam, kompleks, dan domain lintas.
Cyberseceval	Cyberseceval adalah tolok ukur untuk mengevaluasi keamanan siber LLMS sebagai asisten pengkodean.
DevOps AI Assistant Open Leaderboard	DevOps AI Assistant Open Leaderboard Tracks, Ranks, dan mengevaluasi asisten DevOps AI di seluruh domain pengetahuan.
DevOps-Eval	DevOps-Eval adalah tolok ukur untuk mengevaluasi model kode di bidang DevOps/AIOPS.
Domaineval	Domaineval adalah tolok ukur yang dibangun secara otomatis untuk pembuatan kode multi-domain.
Dr.Spider	Dr.Spider adalah tolok ukur untuk mengevaluasi ketahanan model teks-ke-SQL menggunakan set uji gangguan yang berbeda.
Effibench	Effibench adalah tolok ukur untuk mengevaluasi efisiensi LLM dalam pembuatan kode.
Evalplus	Evalplus adalah tolok ukur untuk mengevaluasi kinerja pembuatan kode LLMS.
EvocodeBench	EvocodeBench adalah tolok ukur pembuatan kode evolusi yang selaras dengan repositori kode dunia nyata.
Evoeval	Evoeval adalah tolok ukur untuk mengevaluasi kemampuan pengkodean LLM, yang dibuat dengan mengembangkan tolok ukur yang ada menjadi domain yang ditargetkan.
Infibench	Infibench adalah tolok ukur untuk mengevaluasi model kode saat menjawab pertanyaan terkait kode dunia nyata.
Interkode	Intercode adalah tolok ukur untuk membakukan dan mengevaluasi pengkodean interaktif dengan umpan balik eksekusi.
Papan peringkat Julia LLM	Julia LLM Leaderboard adalah platform untuk membandingkan kemampuan model kode dalam menghasilkan kode Julia yang benar secara sintaksis, menampilkan tes terstruktur dan evaluasi otomatis untuk pembandingan yang mudah dan kolaboratif.
LiveCodebench	LiveCodeBench adalah tolok ukur untuk mengevaluasi model kode di seluruh skenario terkait kode dari waktu ke waktu.
Arena Kode Panjang	Long Code Arena adalah serangkaian tolok ukur untuk tugas terkait kode dengan konteks besar, hingga repositori seluruh kode.
McEval	MCEVAL adalah tolok ukur evaluasi kode multibahasa yang besar yang mencakup 40 bahasa (16K sampel dalam total 44), mencakup pembuatan kode multibahasa, penjelasan kode multibahasa, dan tugas penyelesaian kode multibahasa.
Menghafal atau pembuatan papan peringkat model kode besar	Menghafal atau pembuatan trek peringkat model model besar dan membandingkan kinerja model generasi kode.
Multi-SWE-Bench	Multi-SWE-Bench adalah tolok ukur penyelesaian masalah gitub multi-bahasa untuk agen kode.
NaturalCodeBench	NaturalCodeBench adalah tolok ukur untuk mencerminkan kompleksitas dan berbagai skenario dalam tugas pengkodean nyata.
Fungsi nexus memanggil papan peringkat	Nexus Function Calling Leaderboard adalah platform untuk mengevaluasi model kode pada melakukan panggilan fungsi dan penggunaan API.
NL2SQL360	NL2SQL360 adalah kerangka evaluasi yang komprehensif untuk membandingkan dan mengoptimalkan metode NL2SQL di berbagai skenario aplikasi.
PECC	PECC adalah tolok ukur yang mengevaluasi pembuatan kode dengan membutuhkan model untuk memahami dan mengekstrak persyaratan masalah dari deskripsi berbasis naratif untuk menghasilkan solusi yang akurat secara sintaksis.
Tolok ukur prollm	Tolok ukur Prollm adalah tolok ukur LLM yang praktis dan andal yang dirancang untuk kasus penggunaan bisnis dunia nyata di berbagai industri dan bahasa pemrograman.
Pybench	Pybench adalah tolok ukur yang mengevaluasi LLM pada tugas-tugas pengkodean dunia nyata termasuk analisis bagan, analisis teks, pengeditan gambar/ audio, matematika yang kompleks dan pengembangan perangkat lunak/ situs web.
BALAPAN	Race adalah tolok ukur untuk mengevaluasi kemampuan LLMS untuk menghasilkan kode yang benar dan memenuhi persyaratan skenario pengembangan dunia nyata.
Repoqa	Repoqa adalah tolok ukur untuk mengevaluasi kemampuan pemahaman kode konteks panjang dari LLMS.
Scicode	Scicode adalah tolok ukur yang dirancang untuk mengevaluasi model bahasa dalam menghasilkan kode untuk menyelesaikan masalah penelitian ilmiah yang realistis.
SolidityBench	SolidityBench adalah tolok ukur untuk mengevaluasi dan memberi peringkat kemampuan LLM dalam menghasilkan dan mengaudit kontrak pintar.
Laba-laba	Spider adalah tolok ukur untuk mengevaluasi kinerja antarmuka bahasa alami untuk database lintas domain.
STABLETOOLBENCH	StableToolBench adalah tolok ukur untuk mengevaluasi pembelajaran alat yang bertujuan untuk memberikan kombinasi stabilitas dan kenyataan yang seimbang.
Swe-bench	SWE-Bench adalah tolok ukur untuk mengevaluasi LLM pada masalah perangkat lunak dunia nyata yang dikumpulkan dari GitHub.
Webapp1k	WebApp1k adalah tolok ukur untuk mengevaluasi LLM tentang kemampuan mereka untuk mengembangkan aplikasi web dunia nyata.
Webdev Arena	Webdev Arena menyelenggarakan arena chatbot di mana berbagai LLM bersaing berdasarkan pengembangan situs web.
Wilds	Wilds adalah tolok ukur dari pergeseran distribusi di atas yang mencakup beragam modalitas dan aplikasi data, dari identifikasi tumor hingga pemantauan satwa liar hingga pemetaan kemiskinan.

Video

Nama	Keterangan
Chronomagic-Bench	Chronomagic-Bench adalah tolok ukur untuk mengevaluasi kemampuan model video untuk menghasilkan video selang waktu dengan amplitudo metamorfik tinggi dan koherensi temporal di seluruh fisika, biologi, dan domain kimia menggunakan kontrol teks bentuk bebas.
Dream-1k	Dream-1K adalah tolok ukur untuk mengevaluasi kinerja deskripsi video pada 1.000 klip video yang beragam yang menampilkan acara kaya, tindakan, dan mosi dari film, animasi, video stok, YouTube, dan video pendek bergaya tiktok.
Longvideobench	Longvideobench adalah tolok ukur untuk mengevaluasi kemampuan model video dalam menjawab pertanyaan penalaran yang dirujuk, yang tergantung pada input bingkai panjang dan tidak dapat dipungut dengan baik oleh satu bingkai atau beberapa bingkai yang jarang.
Lvbench	LVBench adalah tolok ukur untuk mengevaluasi model multimodal pada tugas pemahaman video panjang yang membutuhkan kemampuan memori dan pemahaman yang diperluas.
MLVU	MLVU adalah tolok ukur untuk mengevaluasi model video dalam pemahaman video panjang multi-tugas.
MMTOM-QA	MMTOM-QA adalah tolok ukur multimodal untuk mengevaluasi Teori Pikiran Mesin (TOM), kemampuan untuk memahami pikiran orang.
Mvbench	MVBench adalah tolok ukur untuk mengevaluasi kemampuan pemahaman temporal dari model video dalam tugas video dinamis.
OpenVLM Video Leaderboard	OpenVLM Video Leaderboard adalah platform yang menampilkan hasil evaluasi dari 30 VLM berbeda pada tolok ukur pemahaman video menggunakan kerangka kerja VLMevalkit.
Tempcompass	Tempcompass adalah tolok ukur untuk mengevaluasi persepsi temporal video LLMS menggunakan 410 video dan 7.540 instruksi tugas di 11 aspek temporal dan 4 jenis tugas.
Vbench	VBench adalah tolok ukur untuk mengevaluasi kemampuan pembuatan video model video.
Videoniah	Videoniah adalah tolok ukur untuk mengevaluasi pemahaman berbutir halus dan kemampuan pemodelan spatio-temporal dari model video.
Videophy	Videophy adalah tolok ukur untuk mengevaluasi video yang dihasilkan untuk kepatuhan terhadap akal sehat fisik dalam interaksi material dunia nyata.
Videoscore	Videoscore adalah tolok ukur untuk mengevaluasi model generatif teks-ke-video pada lima dimensi utama.
Videovista	Videovista adalah tolok ukur dengan 25.000 pertanyaan dari 3.400 video di 14 kategori, mencakup 19 pemahaman dan 8 tugas penalaran.
Video-Bench	Video-Bench adalah tolok ukur untuk mengevaluasi pemahaman video-eksklusif, penggabungan pengetahuan sebelumnya, dan kemampuan pengambilan keputusan berbasis video dari model video.
Video-mme	Video-MME adalah tolok ukur untuk mengevaluasi kemampuan analisis video model video.

Matematika

Nama	Keterangan
Habel	Abel adalah platform untuk mengevaluasi kemampuan matematika LLMS.
Mathbench	Mathbench adalah tolok ukur evaluasi matematika kesulitan multi-level untuk LLMS.
Matheval	Matheval adalah tolok ukur untuk mengevaluasi kemampuan matematika LLMS.
Mathusereval	MathUsereval adalah tolok ukur yang menampilkan pertanyaan ujian universitas dan pertanyaan terkait matematika yang berasal dari percakapan yang disimulasikan dengan annotator berpengalaman.
Mathverse	Mathverse adalah tolok ukur untuk mengevaluasi model bahasa penglihatan dalam menafsirkan dan bernalar dengan informasi visual dalam masalah matematika.
Mathvista	Mathvista adalah tolok ukur untuk mengevaluasi penalaran matematika dalam konteks visual.
Matematika-V	Math-Vision (Math-V) adalah tolok ukur 3.040 masalah matematika yang dikontekstualisasikan secara visual dari kompetisi, mencakup 16 disiplin ilmu dan 5 tingkat kesulitan untuk mengevaluasi penalaran matematika LMM.
Buka papan peringkat penalaran multibahasa	Open Multilingual Reasoning Leaderboard Tracks dan peringkat penalaran kinerja LLMS pada tolok ukur penalaran matematika multibahasa.
Putnambench	Putnambench adalah tolok ukur untuk mengevaluasi kemampuan penalaran matematika formal LLMS pada kompetisi Putnam.
Scibench	Scibench adalah tolok ukur untuk mengevaluasi kemampuan penalaran LLM untuk menyelesaikan masalah ilmiah yang kompleks.
Tabmwp	TABMWP adalah tolok ukur untuk mengevaluasi LLMS dalam tugas penalaran matematika yang melibatkan data tekstual dan tabel.
We-math	We-math adalah tolok ukur untuk mengevaluasi kemampuan penalaran matematika seperti manusia dari LLM dengan prinsip-prinsip pemecahan masalah di luar kinerja ujung ke ujung.

Agen

Nama	Keterangan
AgenBench	AgenBench adalah tolok ukur untuk mengevaluasi model bahasa sebagai agen di berbagai spektrum dari lingkungan yang berbeda.
AgenStudio	AgenStudio adalah solusi terintegrasi yang menampilkan suite tolok ukur mendalam, lingkungan yang realistis, dan toolkit komprehensif.
Karaktereval	Charactereval adalah tolok ukur untuk mengevaluasi agen percakapan bermain peran (RPCA) menggunakan dialog multi-putar dan profil karakter, dengan metrik yang mencakup empat dimensi.
GTA	GTA adalah tolok ukur untuk mengevaluasi kemampuan penggunaan alat agen berbasis LLM dalam skenario dunia nyata.
Gym Leetcode-Hard	LeetCode-Hard Gym adalah antarmuka lingkungan RL ke server pengiriman LeetCode untuk mengevaluasi agen codegen.
LLM Colosseum Leaderboard	LLM Colosseum Leaderboard adalah platform untuk mengevaluasi LLM dengan bertarung di Street Fighter 3.
Sihir	Magic adalah tolok ukur untuk mengukur kemampuan kognisi, kemampuan beradaptasi, rasionalitas dan kolaborasi LLM dalam sistem multi-agen.
OLAS memprediksi benchmark	OLAS memprediksi benchmark adalah tolok ukur untuk mengevaluasi agen pada peramalan acara historis dan mendatang.
TravelPlanner	TravelPlanner adalah tolok ukur untuk mengevaluasi agen LLM dalam penggunaan alat dan perencanaan kompleks dalam berbagai kendala.
Vab	VisualAgentBench (VAB) adalah tolok ukur untuk mengevaluasi dan mengembangkan LMM sebagai agen fondasi visual, yang terdiri dari 5 lingkungan yang berbeda di 3 jenis tugas agen visual yang representatif.
VisualWebarena	VisualWebarena adalah tolok ukur untuk mengevaluasi kinerja agen Web multimodal pada tugas -tugas yang realistis secara visual.
Papan peringkat WebAgent	WebAgent Leaderboard melacak dan mengevaluasi LLM, VLM, dan agen pada tugas navigasi web.
Webarena	Webarena adalah lingkungan web yang mandiri dan mandiri untuk mengevaluasi agen otonom.
γ-Bench	γ-Bench adalah kerangka kerja untuk mengevaluasi kemampuan permainan LLMS di lingkungan multi-agen menggunakan delapan skenario teori permainan klasik dan skema penilaian dinamis.
τ-bench	τ-bench adalah tolok ukur yang meniru percakapan dinamis antara pengguna yang disimulasikan dengan model bahasa dan agen bahasa yang dilengkapi dengan alat API spesifik domain dan pedoman kebijakan.

Audio

Nama	Keterangan
Barung udara	Air-Bench adalah tolok ukur untuk mengevaluasi kemampuan model audio untuk memahami berbagai jenis sinyal audio (termasuk ucapan manusia, suara alami dan musik), dan lebih jauh lagi, untuk berinteraksi dengan manusia dalam format tekstual.
AudioBench	AudioBench adalah tolok ukur untuk model audio mengikuti instruksi umum.
Buka papan peringkat ASR	Open ASR Leaderboard menyediakan platform untuk melacak, peringkat, dan mengevaluasi model pengenalan ucapan otomatis (ASR).
Papan peringkat Polandia ASR	Papan peringkat Polandia ASR bertujuan untuk memberikan gambaran komprehensif tentang kinerja sistem ASR/STT untuk Polandia.
Ikan salmon	Salmon adalah rangkaian evaluasi yang menandai model bahasa bicara tentang konsistensi, kebisingan latar belakang, emosi, identitas pembicara, dan respons impuls kamar.
TTS Arena	TTS-Arena menyelenggarakan Teks ke Bicara (TTS) Arena, di mana berbagai model TTS bersaing berdasarkan kinerja mereka dalam menghasilkan pidato.
Papan peringkat Whisper	Whisper Leaderboard adalah pelacakan platform dan membandingkan kinerja pengenalan ucapan model audio pada berbagai dataset.

3D

Nama	Keterangan
Arena 3D	3D Arena menyelenggarakan 3D Generation Arena, di mana berbagai model generatif 3D bersaing berdasarkan kinerja mereka dalam menghasilkan model 3D.
3D-POPE	3D-POPE adalah tolok ukur untuk mengevaluasi halusinasi objek dalam model generatif 3D.
3dgen Arena	3DGen Arena menjadi tuan rumah arena generasi 3D, di mana berbagai model generatif 3D bersaing berdasarkan kinerja mereka dalam menghasilkan model 3D.
MEMUKUL	BOP adalah tolok ukur untuk estimasi pose 6D dari objek yang kaku dari gambar input RGB-D tunggal.
Gpteval3d	GPTEVAL3D adalah tolok ukur untuk mengevaluasi capabilties MLLMS dari pemahaman konten 3D melalui gambar multi-view sebagai input.

Multimodal

Nama	Keterangan
Genai Arena	Genai Arena menjadi tuan rumah Visual Generation Arena, di mana berbagai model visi bersaing berdasarkan kinerja mereka dalam pembuatan gambar, edisi gambar, dan pembuatan video.
LabelBox Leadeboards	LabelBox Leaderboards mengevaluasi kinerja model AI generatif menggunakan pabrik data mereka: platform, proses ilmiah dan manusia ahli.
Mega-Bench	Mega-Bench adalah tolok ukur untuk evaluasi multimodal dengan beragam tugas di 8 jenis aplikasi, 7 format input, 6 format output, dan 10 keterampilan multimodal, mencakup tugas single-image, multi-gambar, dan video.

Peringkat database

Nama	Keterangan
Vectorbbench	VectordBBench adalah tolok ukur untuk mengevaluasi kinerja, efektivitas biaya, dan skalabilitas berbagai basis data vektor dan layanan basis data vektor berbasis cloud.

Peringkat Dataset

Nama	Keterangan
Datacomp	DataComp adalah tolok ukur untuk mengevaluasi kinerja berbagai dataset dengan arsitektur model tetap.

Peringkat Metrik

Nama	Keterangan
AlignScore	AlignScore mengevaluasi kinerja metrik yang berbeda dalam menilai konsistensi faktual.

Peringkat kertas

Nama	Keterangan
Papan peringkat kertas	Papers Leaderboard adalah platform untuk mengevaluasi popularitas makalah pembelajaran mesin.

Peringkat papan peringkat

Nama	Keterangan
Open Leadeboards Leaderboard	Open Leaderboard Leaderboard adalah papan meta-leaderboard yang memanfaatkan preferensi manusia untuk membandingkan papan leaderboard pembelajaran mesin.

Memperluas