ACLUE | ACLUE adalah tolok ukur evaluasi pemahaman bahasa Tiongkok kuno. |
Papan Peringkat LLM Bahasa Afrika | Papan Peringkat Eval LLM Bahasa Afrika melacak kemajuan dan memberi peringkat kinerja LLM dalam bahasa Afrika. |
Papan Agen | AgentBoard adalah tolok ukur untuk agen LLM multi-turn, dilengkapi dengan papan evaluasi analitis untuk penilaian model terperinci di luar tingkat keberhasilan akhir. |
AGIEval | AGIEval adalah tolok ukur yang berpusat pada manusia untuk mengevaluasi kemampuan umum model dasar dalam tugas-tugas yang berkaitan dengan kognisi manusia dan pemecahan masalah. |
Papan Peringkat Aiera | Papan Peringkat Aiera mengevaluasi kinerja LLM pada tugas intelijen finansial, termasuk penugasan pembicara, identifikasi perubahan pembicara, ringkasan abstraktif, Tanya Jawab berbasis perhitungan, dan penandaan sentimen keuangan. |
Bangku UDARA | AIR-Bench adalah tolok ukur untuk mengevaluasi kemampuan pengambilan informasi heterogen dari model bahasa. |
Papan Peringkat Skor Energi AI | Papan Peringkat Skor Energi AI melacak dan membandingkan berbagai model dalam hal efisiensi energi. |
tolok ukur ai | ai-benchmarks berisi beberapa hasil evaluasi untuk latensi respons layanan AI populer. |
Sejajarkan Bench | AlignBench adalah tolok ukur multi-dimensi untuk mengevaluasi keselarasan LLM dalam bahasa Cina. |
AlpakaEval | AlpacaEval adalah evaluator otomatis yang dirancang untuk LLM yang mengikuti instruksi. |
ANGO | ANGO adalah tolok ukur evaluasi model bahasa Tiongkok yang berorientasi pada generasi. |
Papan Peringkat Tokenizer Arab | Papan Peringkat Tokenizer Arab membandingkan efisiensi LLM dalam mengurai bahasa Arab dalam berbagai dialek dan bentuknya. |
Arena-Hard-Auto | Arena-Hard-Auto adalah tolok ukur untuk LLM yang disesuaikan dengan instruksi. |
Balapan Otomatis | AutoRace berfokus pada evaluasi langsung rantai penalaran LLM dengan metrik AutoRace (Automated Reasoning Chain Evaluation). |
Arena Otomatis | Auto Arena adalah tolok ukur di mana berbagai agen model bahasa terlibat dalam pertarungan antar rekan untuk mengevaluasi kinerja mereka. |
Otomatis-J | Auto-J menampung hasil evaluasi pada perbandingan respons berpasangan dan tugas pembuatan kritik. |
BABILong | BABILong adalah tolok ukur untuk mengevaluasi kinerja model bahasa dalam memproses dokumen panjang sewenang-wenang dengan fakta yang tersebar. |
BBL | BBL (BIG-bench Lite) adalah sebagian kecil dari 24 tugas JSON yang berbeda dari BIG-bench. Ini dirancang untuk memberikan ukuran kinerja model secara kanonik, sekaligus jauh lebih murah untuk dievaluasi dibandingkan rangkaian lengkap lebih dari 200 tugas terprogram dan JSON di BIG-bench. |
Jujurlah | BeHonest menjadi tolok ukur untuk mengevaluasi kejujuran – kesadaran akan batasan pengetahuan (self-knowledge), penghindaran penipuan (non-deceptiveness), dan konsistensi dalam menanggapi (consistency) – di LLM. |
bangku bangku | BenBench adalah tolok ukur untuk mengevaluasi sejauh mana LLM melakukan pelatihan verbatim pada set pelatihan tolok ukur atas set tes untuk meningkatkan kemampuan. |
BenCzechMark | BenCzechMark (BCM) adalah tolok ukur multitask dan multimetrik bahasa Ceko untuk LLM dengan sistem penilaian unik yang memanfaatkan teori signifikansi statistik. |
Bangku BiGGen | BiGGen-Bench adalah tolok ukur komprehensif untuk mengevaluasi LLM di berbagai macam tugas. |
Obrolan Bot | BotChat adalah tolok ukur untuk mengevaluasi kemampuan obrolan multi-putaran LLM melalui tugas proxy. |
Kasus hukumQA | CaselawQA adalah tolok ukur yang terdiri dari tugas klasifikasi hukum yang berasal dari database hukum Mahkamah Agung dan Pengadilan Banding Songer. |
CFLUE | CFLUE adalah tolok ukur untuk mengevaluasi pemahaman dan kemampuan pemrosesan LLM dalam domain keuangan Tiongkok. |
Bab 3Ef | Ch3Ef adalah tolok ukur untuk mengevaluasi keselarasan dengan ekspektasi manusia menggunakan 1002 sampel yang dianotasi manusia di 12 domain dan 46 tugas berdasarkan prinsip hhh. |
Pusat Rantai Pemikiran | Chain-of-Thought Hub adalah tolok ukur untuk mengevaluasi kemampuan penalaran LLM. |
Arena Bot Obrolan | Chatbot Arena menjadi tuan rumah arena chatbot tempat berbagai LLM bersaing berdasarkan kepuasan pengguna. |
bangku kimia | ChemBench adalah tolok ukur untuk mengevaluasi pengetahuan kimia dan kemampuan penalaran LLM. |
SederhanaQA Cina | Chinese SimpleQA adalah tolok ukur bahasa Mandarin untuk mengevaluasi kemampuan faktualitas model bahasa dalam menjawab pertanyaan singkat. |
Papan Peringkat CLEM | CLEM adalah kerangka kerja yang dirancang untuk evaluasi sistematis LLM yang dioptimalkan untuk obrolan sebagai agen percakapan. |
CLEVA | CLEVA adalah tolok ukur untuk mengevaluasi LLM pada 31 tugas menggunakan 370 ribu kueri Tiongkok dari 84 kumpulan data berbeda dan 9 metrik. |
Papan Peringkat Model Besar Tiongkok | Papan Peringkat Model Besar Tiongkok adalah platform untuk mengevaluasi kinerja LLM Tiongkok. |
CMB | CMB adalah tolok ukur medis multi-level dalam bahasa Tiongkok. |
CMMLU | CMMLU adalah tolok ukur untuk mengevaluasi kinerja LLM dalam berbagai mata pelajaran dalam konteks budaya Tiongkok. |
CMMMU | CMMMU adalah tolok ukur untuk mengevaluasi LMM pada tugas-tugas yang menuntut pengetahuan mata pelajaran tingkat perguruan tinggi dan penalaran yang disengaja dalam konteks Tiongkok. |
Jenderal Umum | CommonGen adalah tolok ukur untuk mengevaluasi penalaran akal sehat generatif dengan menguji kemampuan mesin dalam menyusun kalimat yang koheren menggunakan serangkaian konsep umum tertentu. |
Campuran Campuran | CompMix adalah tolok ukur untuk menjawab pertanyaan yang heterogen. |
Papan Peringkat Tingkat Kompresi | Papan Peringkat Tingkat Kompresi bertujuan untuk mengevaluasi kinerja tokenizer dalam berbagai bahasa. |
Papan Peringkat Kompresi | Papan Peringkat Kompresi adalah platform untuk mengevaluasi kinerja kompresi LLM. |
SalinBench | CopyBench adalah tolok ukur untuk mengevaluasi perilaku penyalinan dan kegunaan model bahasa serta efektivitas metode untuk mengurangi risiko hak cipta. |
CoTaEval | CoTaEval adalah tolok ukur untuk mengevaluasi kelayakan dan efek samping metode penghapusan hak cipta untuk LLM. |
KonvRe | ConvRe adalah tolok ukur untuk mengevaluasi kemampuan LLM dalam memahami hubungan terbalik. |
KritikEval | CriticEval adalah tolak ukur untuk mengevaluasi kemampuan LLM dalam memberikan tanggapan kritik. |
CS-Bangku | CS-Bench adalah tolok ukur bilingual yang dirancang untuk mengevaluasi kinerja LLM di 26 subbidang ilmu komputer, dengan fokus pada pengetahuan dan penalaran. |
IMUT-IMUT | CUTE adalah tolak ukur untuk menguji pengetahuan ortografi LLM. |
CyberMetrik | CyberMetric adalah tolok ukur untuk mengevaluasi pengetahuan keamanan siber LLM. |
CzechBench | CzechBench adalah tolok ukur untuk mengevaluasi model bahasa Ceko. |
C-Eval | C-Eval adalah rangkaian evaluasi Cina untuk LLM. |
Papan Peringkat Arena Terdesentralisasi | Arena Terdesentralisasi menjadi tuan rumah bagi platform terdesentralisasi dan demokratis untuk evaluasi LLM, otomatisasi dan penskalaan penilaian di beragam dimensi yang ditentukan pengguna, termasuk matematika, logika, dan sains. |
Dekode Kepercayaan | DecodingTrust adalah platform untuk mengevaluasi kepercayaan LLM. |
Papan Peringkat LLM Domain | Papan Peringkat LLM Domain adalah platform untuk mengevaluasi popularitas LLM khusus domain. |
Papan peringkat Skenario Perusahaan | Papan Peringkat Skenario Perusahaan melacak dan mengevaluasi kinerja LLM pada kasus penggunaan perusahaan di dunia nyata. |
EQ-Bangku | EQ-Bench merupakan tolok ukur untuk mengevaluasi aspek kecerdasan emosional di LLM. |
Papan Peringkat LLM Eropa | Papan Peringkat LLM Eropa melacak dan membandingkan kinerja LLM dalam bahasa-bahasa Eropa. |
EvalGPT.ai | EvalGPT.ai menyelenggarakan arena chatbot untuk membandingkan dan memberi peringkat kinerja LLM. |
Arena Evaluasi | Eval Arena mengukur tingkat kebisingan, kualitas model, dan kualitas tolok ukur dengan membandingkan pasangan model di beberapa tolok ukur evaluasi LLM dengan analisis tingkat contoh dan perbandingan berpasangan. |
Papan Peringkat Faktualitas | Papan Peringkat Faktualitas membandingkan kemampuan faktual LLM. |
FanOutQA | FanOutQA adalah tolok ukur multi-hop, multi-dokumen berkualitas tinggi untuk LLM yang menggunakan Wikipedia bahasa Inggris sebagai basis pengetahuannya. |
FastEval | FastEval adalah perangkat untuk mengevaluasi model bahasa mengikuti instruksi dan obrolan dengan cepat pada berbagai tolok ukur dengan inferensi cepat dan wawasan kinerja terperinci. |
MERASA | FELM adalah tolok ukur meta untuk mengevaluasi tolok ukur evaluasi faktualitas untuk LLM. |
FinEval | FinEval adalah tolok ukur untuk mengevaluasi pengetahuan domain keuangan di LLM. |
Menyempurnakan Papan Peringkat | Papan Peringkat Penyempurnaan adalah platform untuk menentukan peringkat dan menampilkan model yang telah disempurnakan menggunakan kumpulan data atau kerangka kerja sumber terbuka. |
Api | Flames adalah tolok ukur Tiongkok yang sangat bermusuhan dalam mengevaluasi keselarasan nilai LLM dalam hal keadilan, keamanan, moralitas, legalitas, dan perlindungan data. |
IkutiBench | FollowBench adalah tolok ukur berikut batasan terperinci multi-level untuk mengevaluasi kemampuan LLM mengikuti instruksi. |
Kumpulan Data Pertanyaan Terlarang | Kumpulan Data Pertanyaan Terlarang adalah tolok ukur yang berisi 160 pertanyaan dari 160 kategori yang dilanggar, dengan target yang sesuai untuk mengevaluasi metode jailbreak. |
Ulasan Fuse | FuseReviews bertujuan untuk memajukan tugas pembuatan teks dasar, termasuk menjawab pertanyaan dan meringkas dalam bentuk panjang. |
GAIA | GAIA bertujuan untuk menguji kemampuan dasar yang harus dimiliki oleh asisten AI. |
GAVIE | GAVIE adalah tolok ukur berbantuan GPT-4 untuk mengevaluasi halusinasi di LMM dengan menilai akurasi dan relevansi tanpa bergantung pada kebenaran dasar yang dijelaskan oleh manusia. |
GPT-Paham | GPT-Fathom adalah rangkaian evaluasi LLM, yang membandingkan 10+ LLM terkemuka serta model lama OpenAI pada 20+ tolok ukur yang dikurasi di 7 kategori kemampuan, semuanya dalam pengaturan yang selaras. |
CawanQA | Penjawab Pertanyaan yang Sangat Dapat Digeneralisasikan (GrailQA) adalah tolok ukur berskala besar dan berkualitas tinggi untuk menjawab pertanyaan berdasarkan basis pengetahuan (KBQA) di Freebase dengan 64.331 pertanyaan yang dianotasi dengan jawaban dan bentuk logis yang sesuai dalam sintaksis yang berbeda (yaitu, SPARQL, S-ekspresi , dll.). |
GTBench | GTBench adalah tolok ukur untuk mengevaluasi dan memberi peringkat kemampuan penalaran LLM dalam lingkungan kompetitif melalui tugas-tugas teori permainan, misalnya permainan papan dan kartu. |
Papan Peringkat AI Guerra LLM | Papan Peringkat AI Guerra LLM membandingkan dan memberi peringkat kinerja LLM dalam hal kualitas, harga, kinerja, jendela konteks, dan lainnya. |
Papan Peringkat Halusinasi | Papan Peringkat Halusinasi bertujuan untuk melacak, memberi peringkat, dan mengevaluasi halusinasi di LLM. |
HalluQA | HalluQA menjadi tolok ukur untuk mengevaluasi fenomena halusinasi di LLM Tiongkok. |
Papan Peringkat LLM Ibrani | Papan Peringkat LLM Ibrani melacak dan memberi peringkat model bahasa berdasarkan keberhasilan mereka dalam berbagai tugas dalam bahasa Ibrani. |
HellaSwag | HellaSwag adalah tolok ukur untuk mengevaluasi penalaran yang masuk akal di LLM. |
Papan peringkat Model Evaluasi Halusinasi Hughes | Papan peringkat Model Evaluasi Halusinasi Hughes adalah platform untuk mengevaluasi seberapa sering model bahasa menimbulkan halusinasi saat merangkum dokumen. |
Papan peringkat LLM Islandia | Papan peringkat LLM Islandia melacak dan membandingkan model pada tugas berbahasa Islandia. |
IFEval | IFEval adalah tolok ukur untuk mengevaluasi kemampuan mengikuti instruksi LLM dengan instruksi yang dapat diverifikasi. |
IL-TUR | IL-TUR adalah tolok ukur untuk mengevaluasi model bahasa pada tugas monolingual dan multibahasa yang berfokus pada pemahaman dan penalaran dokumen hukum India. |
Papan Peringkat LLM India | Papan Peringkat LLM Indic adalah platform untuk melacak dan membandingkan kinerja LLM Indic. |
Papan Peringkat LLM Indico | Papan Peringkat Indico LLM mengevaluasi dan membandingkan keakuratan berbagai model bahasa di seluruh penyedia, kumpulan data, dan kemampuan seperti klasifikasi teks, ekstraksi informasi penting, dan ringkasan generatif. |
InstruksikanEval | InstructEval adalah rangkaian untuk mengevaluasi metode pemilihan instruksi dalam konteks LLM. |
Papan Peringkat LLM Italia | Papan Peringkat LLM Italia melacak dan membandingkan LLM dalam tugas berbahasa Italia. |
bangku pembobolan penjara | JailbreakBench adalah tolok ukur untuk mengevaluasi kerentanan LLM melalui perintah permusuhan. |
Arena Chatbot Jepang | Arena Chatbot Jepang menjadi tuan rumah arena chatbot, tempat berbagai LLM bersaing berdasarkan penampilan mereka dalam bahasa Jepang. |
Harness Evaluasi Keuangan Model Bahasa Jepang | Harness Evaluasi Keuangan Model Bahasa Jepang adalah harness untuk evaluasi model bahasa Jepang dalam domain keuangan. |
Tolok Ukur Roleplay LLM Jepang | Tolok Ukur Roleplay LLM Jepang merupakan tolak ukur untuk mengevaluasi performa LLM Jepang dalam roleplay karakter. |
JMED-LLM | JMED-LLM (Kumpulan Data Evaluasi Medis Jepang untuk Model Bahasa Besar) merupakan tolok ukur untuk mengevaluasi LLM di bidang medis Jepang. |
JMMMU | JMMMU (MMMU Jepang) adalah tolok ukur multimodal untuk mengevaluasi kinerja LMM di Jepang. |
HanyaEval | JustEval adalah alat canggih yang dirancang untuk evaluasi LLM yang mendetail. |
Kola | KoLA menjadi tolak ukur untuk mengevaluasi pengetahuan dunia LLM. |
Lampu | LaMP (Personalisasi Model Bahasa) adalah tolok ukur untuk mengevaluasi kemampuan personalisasi model bahasa. |
Dewan Model Bahasa | Dewan Model Bahasa (LMC) adalah tolok ukur untuk mengevaluasi tugas-tugas yang sangat subyektif dan seringkali kurang disetujui oleh mayoritas manusia. |
Bangku Hukum | LawBench adalah tolok ukur untuk mengevaluasi kemampuan hukum LLM. |
La Papan Peringkat | La Leaderboard mengevaluasi dan melacak hafalan LLM, penalaran dan kemampuan linguistik di Spanyol, LATAM dan Karibia. |
LogikaKor | LogicKor adalah tolok ukur untuk mengevaluasi kemampuan berpikir multidisiplin LLM Korea. |
Papan Peringkat LongICL | LongICL Leaderboard adalah platform untuk mengevaluasi evaluasi pembelajaran jangka panjang dalam konteks untuk LLM. |
Lihat | LooGLE adalah tolok ukur untuk mengevaluasi kemampuan pemahaman konteks panjang LLM. |
HUKUM | LAiW merupakan tolok ukur untuk mengevaluasi pemahaman dan penalaran bahasa hukum Tiongkok. |
Suite Tolok Ukur LLM | LLM Benchmarker Suite adalah tolok ukur untuk mengevaluasi kemampuan komprehensif LLM. |
Penilaian Model Bahasa Besar dalam Konteks Bahasa Inggris | Penilaian Model Bahasa Besar dalam Konteks Bahasa Inggris adalah platform untuk mengevaluasi LLM dalam konteks bahasa Inggris. |
Penilaian Model Bahasa Besar dalam Konteks Cina | Penilaian Model Bahasa Besar dalam Konteks Tiongkok adalah platform untuk mengevaluasi LLM dalam konteks Tiongkok. |
LIBRA | LIBRA adalah tolok ukur untuk mengevaluasi kemampuan LLM dalam memahami dan memproses teks panjang Rusia. |
Papan Peringkat LibraAI-Eval GenAI | LibraI-Eval GenAI Leaderboard berfokus pada keseimbangan antara kemampuan dan keamanan LLM dalam bahasa Inggris. |
Bench Langsung | LiveBench adalah tolok ukur bagi LLM untuk meminimalkan kontaminasi set pengujian dan memungkinkan evaluasi yang obyektif dan otomatis pada beragam tugas yang diperbarui secara berkala. |
LLMEval | LLMEval adalah tolok ukur untuk mengevaluasi kualitas percakapan domain terbuka dengan LLM. |
Llmval-Gaokao2024-Matematika | Llmeval-Gaokao2024-Math adalah tolak ukur untuk mengevaluasi LLM pada soal matematika tingkat Gaokao 2024 dalam bahasa Mandarin. |
Papan Peringkat Halusinasi LLM | Papan Peringkat Halusinasi mengevaluasi LLM berdasarkan serangkaian tolok ukur terkait halusinasi. |
LLMPerf | LLMPerf adalah alat untuk mengevaluasi kinerja LLM menggunakan uji beban dan kebenaran. |
Papan Peringkat Prediksi Risiko Penyakit LLM | Papan Peringkat Prediksi Risiko Penyakit LLM adalah platform untuk mengevaluasi LLM dalam prediksi risiko penyakit. |
Papan Peringkat LLM | Papan Peringkat LLM melacak dan mengevaluasi penyedia LLM, memungkinkan pemilihan API dan model optimal untuk kebutuhan pengguna. |
Papan Peringkat LLM untuk CRM | CRM LLM Leaderboard adalah platform untuk mengevaluasi kemanjuran LLM untuk aplikasi bisnis. |
Observatorium LLM | LLM Observatory adalah tolok ukur yang menilai dan memberi peringkat LLM berdasarkan kinerja mereka dalam menghindari bias sosial di berbagai kategori seperti orientasi LGBTIQ+, usia, jenis kelamin, politik, ras, agama, dan xenofobia. |
Papan Peringkat Harga LLM | Papan Peringkat Harga LLM melacak dan membandingkan biaya LLM berdasarkan satu juta token. |
Peringkat LLM | Peringkat LLM menawarkan perbandingan model bahasa secara real-time berdasarkan penggunaan token yang dinormalisasi untuk perintah dan penyelesaian, yang sering diperbarui. |
Papan Peringkat Permainan Peran LLM | Papan Peringkat Roleplay LLM mengevaluasi kinerja manusia dan AI dalam permainan manusia serigala sosial untuk pengembangan NPC. |
Papan Peringkat Keamanan LLM | Papan Peringkat Keamanan LLM bertujuan untuk memberikan evaluasi terpadu untuk keamanan model bahasa. |
Papan Peringkat Kasus Penggunaan LLM | LLM Use Case Leaderboard melacak dan mengevaluasi LLM dalam kasus penggunaan bisnis. |
LLM-AggreFact | LLM-AggreFact adalah tolok ukur pengecekan fakta yang mengumpulkan kumpulan data terbaru yang tersedia untuk umum berdasarkan evaluasi faktualitas yang mendasar. |
LLM-Papan Peringkat | LLM-Leaderboard adalah upaya komunitas bersama untuk menciptakan satu papan peringkat pusat untuk LLM. |
Papan Peringkat LLM-Perf | LLM-Perf Leaderboard bertujuan untuk mengukur kinerja LLM dengan perangkat keras, backend, dan pengoptimalan yang berbeda. |
Ujian LMQA | LMExamQA adalah kerangka kerja pembandingan di mana model bahasa bertindak sebagai pemeriksa untuk menghasilkan pertanyaan dan mengevaluasi tanggapan dengan cara otomatis dan bebas referensi untuk penilaian yang komprehensif dan adil. |
Bangku Panjang | LongBench adalah tolok ukur untuk menilai kemampuan pemahaman konteks panjang LLM. |
lama | Loong adalah tolok ukur konteks panjang untuk mengevaluasi kemampuan QA multi-dokumen LLM di seluruh skenario keuangan, hukum, dan akademik. |
Papan Peringkat LLM Terbuka Terkuantisasi Bit Rendah | Papan Peringkat LLM Terbuka Terkuantisasi Bit Rendah melacak dan membandingkan LLM kuantisasi dengan algoritme kuantisasi berbeda. |
LV-Eval | LV-Eval adalah tolok ukur konteks panjang dengan lima tingkat panjang dan teknik canggih untuk evaluasi LLM yang akurat pada tugas QA lompatan tunggal dan multilompatan di seluruh kumpulan data bilingual. |
LucyEval | LucyEval menawarkan penilaian menyeluruh terhadap kinerja LLM dalam berbagai konteks Tiongkok. |
L-Eval | L-Eval adalah tolok ukur evaluasi Long Context Language Model (LCLM) untuk mengevaluasi kinerja penanganan konteks luas. |
M3KE | M3KE adalah tolok ukur evaluasi pengetahuan multi-mata pelajaran multi-level yang sangat besar untuk mengukur pengetahuan yang diperoleh oleh LLM Tiongkok. |
Kritik Meta | MetaCritique adalah juri yang dapat mengevaluasi kritik yang ditulis manusia atau dihasilkan oleh LLM dengan menghasilkan kritik. |
MINT | MINT adalah tolok ukur untuk mengevaluasi kemampuan LLM dalam menyelesaikan tugas dengan interaksi multi-putaran dengan menggunakan alat dan memanfaatkan umpan balik bahasa alami. |
fatamorgana | Mirage adalah tolok ukur untuk generasi augmented pengambilan informasi medis, menampilkan 7.663 pertanyaan dari lima kumpulan data QA medis dan diuji dengan 41 konfigurasi menggunakan toolkit MedRag. |
bangku medis | MedBench menjadi tolok ukur untuk mengevaluasi penguasaan pengetahuan dan kemampuan penalaran di LLM kedokteran. |
Bangku MedS | MedS-Bench adalah tolok ukur medis yang mengevaluasi LLM di 11 kategori tugas menggunakan 39 kumpulan data yang berbeda. |
Papan peringkat Meta Terbuka LLM | Papan peringkat Meta Open LLM berfungsi sebagai hub pusat untuk menggabungkan data dari berbagai papan peringkat LLM terbuka menjadi satu halaman visualisasi yang mudah digunakan. |
Papan Peringkat Pengambilan Keputusan Klinis MIMIC | Papan Peringkat Pengambilan Keputusan Klinis MIMIC melacak dan mengevaluasi LLms dalam pengambilan keputusan klinis yang realistis untuk patologi perut. |
CampuranEval | MixEval adalah tolok ukur untuk mengevaluasi LLM melalui penggabungan tolok ukur yang tersedia secara strategis. |
Papan Peringkat ML.ENERGI | Papan Peringkat ML.ENERGY mengevaluasi konsumsi energi LLM. |
MMedBench | MMedBench adalah tolok ukur medis untuk mengevaluasi LLM dalam pemahaman multibahasa. |
MMLU | MMLU adalah tolok ukur untuk mengevaluasi kinerja LLM di beragam tugas pemahaman bahasa alami. |
Papan Peringkat MMLU berdasarkan tugas | Papan Peringkat MMLU per tugas menyediakan platform untuk mengevaluasi dan membandingkan berbagai model ML di berbagai tugas pemahaman bahasa. |
MMLU-Pro | MMLU-Pro adalah versi MMLU yang lebih menantang untuk mengevaluasi kemampuan penalaran LLM. |
Papan Peringkat LLM ModelScope | ModelScope LLM Leaderboard adalah platform untuk mengevaluasi LLM secara obyektif dan komprehensif. |
Papan Peringkat Evaluasi Model | Papan Peringkat Evaluasi Model melacak dan mengevaluasi model pembuatan teks berdasarkan performanya di berbagai tolok ukur menggunakan kerangka kerja Moses Eval Gauntlet. |
Papan Peringkat MSNP | Papan Peringkat MSNP melacak dan mengevaluasi performa model GGUF terkuantisasi pada berbagai kombinasi GPU dan CPU menggunakan pengaturan node tunggal melalui Ollama. |
MSTEB | MSTEB adalah tolok ukur untuk mengukur kinerja model penyematan teks dalam bahasa Spanyol. |
MTB | MTEB adalah tolok ukur besar untuk mengukur kinerja model penyematan teks pada beragam tugas penyematan dalam 112 bahasa. |
Arena MTB | MTEB Arena menjadi tuan rumah arena model untuk penilaian model penyematan yang dinamis dan nyata melalui perbandingan kueri dan pengambilan berbasis pengguna. |
MT-Bangku-101 | MT-Bench-101 adalah tolok ukur yang terperinci untuk mengevaluasi LLM dalam dialog multi-putaran. |
Papan Peringkat LLM Melayu SAYA | Papan Peringkat LLM Melayu SAYA bertujuan untuk melacak, memberi peringkat, dan mengevaluasi LLM terbuka pada tugas-tugas berbahasa Melayu. |
Tidak ada Cha | NoCha adalah tolok ukur untuk mengevaluasi seberapa baik model bahasa konteks panjang dapat memverifikasi klaim yang ditulis tentang buku fiksi. |
NPHardEval | NPHardEval adalah tolok ukur untuk mengevaluasi kemampuan penalaran LLM melalui lensa kelas kompleksitas komputasi. |
Papan Peringkat Occiglot Euro LLM | Papan Peringkat LLM Euro Occiglot membandingkan LLM dalam empat bahasa utama dari benchmark Okapi dan Belebele (Prancis, Italia, Jerman, Spanyol, dan Belanda). |
Bangku Olimpiade | OlympiadBench adalah tolok ukur ilmiah multimodal bilingual yang menampilkan 8.476 soal matematika dan fisika tingkat Olimpiade dengan anotasi penalaran langkah demi langkah tingkat ahli. |
Arena Olimpiade | OlympicArena adalah tolok ukur untuk mengevaluasi kemampuan tingkat lanjut LLM di berbagai tantangan tingkat Olimpiade. |
oobabooga | Oobabooga adalah tolok ukur untuk melakukan pengujian kinerja LLM berulang dengan UI web oobabooga. |
OpenEval | OpenEval adalah platform penilaian untuk mengevaluasi LLM Tiongkok. |
Papan peringkat Turki OpenLLM | Papan peringkat OpenLLM Turki melacak kemajuan dan memberi peringkat kinerja LLM dalam bahasa Turki. |
Papan Peringkat Keterbukaan | Papan Peringkat Keterbukaan melacak dan mengevaluasi transparansi model dalam hal akses terbuka terhadap bobot, data, dan lisensi, sehingga memperlihatkan model yang tidak memenuhi standar keterbukaan. |
Papan Peringkat Keterbukaan | Papan Peringkat Keterbukaan adalah alat yang melacak keterbukaan LLM yang disesuaikan dengan instruksi, mengevaluasi transparansi, data, dan ketersediaan modelnya. |
Peneliti Terbuka | OpenResearcher memuat hasil benchmarking pada berbagai sistem terkait RAG sebagai papan peringkat. |
Buka Papan Peringkat LLM Bahasa Arab | Papan Peringkat LLM Bahasa Arab Terbuka melacak kemajuan dan memberi peringkat kinerja LLM dalam bahasa Arab. |
Buka Papan Peringkat LLM Cina | Papan Peringkat LLM Tiongkok Terbuka bertujuan untuk melacak, memberi peringkat, dan mengevaluasi LLM Tiongkok terbuka. |
Buka Papan Peringkat CoT | Open CoT Leaderboard melacak kemampuan LLM untuk menghasilkan jejak penalaran rantai pemikiran yang efektif. |
Buka Papan Peringkat Evaluasi LLM Belanda | Papan Peringkat Evaluasi LLM Belanda Terbuka melacak kemajuan dan memberi peringkat kinerja LLM dalam bahasa Belanda. |
Buka Papan Peringkat LLM Keuangan | Open Financial LLM Leaderboard bertujuan untuk mengevaluasi dan membandingkan kinerja LLM keuangan. |
Buka Papan Peringkat ITA LLM | Buka Papan Peringkat LLM ITA melacak kemajuan dan memberi peringkat kinerja LLM dalam bahasa Italia. |
Buka Papan Peringkat Ko-LLM | Buka Papan Peringkat Ko-LLM melacak kemajuan dan memberi peringkat kinerja LLM dalam bahasa Korea. |
Buka Papan Peringkat LLM | Buka Papan Peringkat LLM melacak kemajuan dan memberi peringkat kinerja LLM dalam bahasa Inggris. |
Buka Papan Peringkat Medis-LLM | Papan Peringkat LLM Medis Terbuka bertujuan untuk melacak, memberi peringkat, dan mengevaluasi LLM terbuka di domain medis. |
Buka Papan Peringkat MLLM | Open MLLM Leaderboard bertujuan untuk melacak, memberi peringkat dan mengevaluasi LLM dan chatbots. |
Buka Papan Peringkat MOE LLM | Papan Peringkat LLM OPEN MOE menilai kinerja dan efisiensi berbagai LLM Campuran Ahli (MoE). |
Buka Papan Peringkat Evaluasi LLM Multibahasa | Papan Peringkat Evaluasi LLM Multibahasa Terbuka melacak kemajuan dan memberi peringkat kinerja LLM dalam berbagai bahasa. |
Buka Papan Peringkat PL LLM | Open PL LLM Leaderboard adalah platform untuk menilai kinerja berbagai LLM dalam bahasa Polandia. |
Buka Papan Peringkat LLM Portugis | Open PT LLM Leaderboard bertujuan untuk mengevaluasi dan membandingkan LLM dalam tugas berbahasa Portugis. |
Buka papan peringkat LLM Taiwan | Papan peringkat LLM Taiwan Terbuka menampilkan kinerja LLM dalam berbagai tugas pemahaman bahasa Mandarin Taiwan. |
Buka-LLM-Papan Peringkat | Open-LLM-Leaderboard mengevaluasi LLM dalam pemahaman dan penalaran bahasa dengan beralih dari pertanyaan pilihan ganda (MCQ) ke pertanyaan gaya terbuka. |
Dasbor OPUS-MT | Dasbor OPUS-MT adalah platform untuk melacak dan membandingkan model terjemahan mesin di berbagai pasangan bahasa dan metrik. |
ATAU-Bangku | OR-Bench adalah tolok ukur untuk mengevaluasi penolakan berlebihan terhadap peningkatan keselamatan di LLM. |
ParsBench | ParsBench menyediakan toolkit untuk membandingkan LLM berdasarkan bahasa Persia. |
Papan Peringkat LLM Persia | Papan Peringkat LLM Persia memberikan evaluasi LLM yang andal dalam Bahasa Persia. |
Papan peringkat Pinokio ITA | Papan peringkat Pinocchio ITA melacak dan mengevaluasi LLM dalam Bahasa Italia. |
PL-MTEB | PL-MTEB (Tolok Ukur Penyematan Teks Besar Polandia) adalah tolok ukur untuk mengevaluasi penyematan teks dalam bahasa Polandia di 28 tugas NLP. |
Papan Peringkat Medis Polandia | Papan Peringkat Medis Polandia mengevaluasi model bahasa pada ujian sertifikasi dewan Polandia. |
Papan Peringkat LLM yang Didukung oleh Intel | Papan Peringkat LLM yang didukung oleh Intel mengevaluasi, memberi skor, dan memberi peringkat pada LLM yang telah dilatih sebelumnya atau disempurnakan pada Perangkat Keras Intel. |
PubMedQA | PubMedQA adalah tolok ukur untuk mengevaluasi jawaban pertanyaan penelitian biomedis. |
Bangku Prompt | PromptBench adalah tolok ukur untuk mengevaluasi kekuatan LLM dalam menghadapi permintaan yang berlawanan. |
QAConv | QAConv adalah tolok ukur untuk menjawab pertanyaan menggunakan percakapan yang kompleks, spesifik domain, dan asinkron sebagai sumber pengetahuan. |
Kualitas | KUALITAS menjadi tolak ukur penilaian soal-soal pilihan ganda dengan konteks yang panjang. |
KELINCI | RABBITS adalah tolok ukur untuk mengevaluasi ketahanan LLM dengan mengevaluasi penanganan sinonimnya, khususnya nama merek dan obat generik. |
Rakuda | Rakuda adalah tolok ukur untuk mengevaluasi LLMS berdasarkan seberapa baik mereka menjawab serangkaian pertanyaan terbuka tentang topik Jepang. |
Redteam Arena | Redteam Arena adalah platform tim merah untuk LLMS. |
Benchmark Perlawanan Peaming Merah | Red Teaming Resistance Benchmark adalah tolok ukur untuk mengevaluasi kekokohan LLMS terhadap petunjuk tim merah. |
REST-MCTS* | REST-MCTS* adalah metode pelatihan mandiri yang diperkuat yang menggunakan pencarian pohon dan proses penghargaan untuk mengumpulkan jejak penalaran berkualitas tinggi untuk kebijakan pelatihan dan model penghargaan tanpa anotasi langkah manual. |
Reviewer Arena | Peninjau Arena menjadi tuan rumah pengulas Arena, di mana berbagai LLM bersaing berdasarkan kinerja mereka dalam mengkritik makalah akademik. |
Roleeval | Roleeval adalah tolok ukur dwibahasa untuk mengevaluasi memori, pemanfaatan, dan kemampuan penalaran dari pengetahuan peran LLMS. |
Papan peringkat RPBench | RPBench-Auto adalah pipa otomatis untuk mengevaluasi LLMS menggunakan 80 Persona untuk karakter berbasis karakter dan 80 adegan untuk bermain peran berbasis adegan. |
Arena Chatbot Rusia | Chatbot Arena menyelenggarakan arena chatbot di mana berbagai LLM bersaing dalam bahasa Rusia berdasarkan kepuasan pengguna. |
Superglue Rusia | Superglue Rusia adalah tolok ukur untuk model bahasa Rusia, berfokus pada logika, akal sehat, dan tugas penalaran. |
R-Hakim | R-Judge adalah tolok ukur untuk mengevaluasi kemahiran LLM dalam menilai dan mengidentifikasi risiko keselamatan yang diberikan catatan interaksi agen. |
Petunjuk keamanan | Permintaan keselamatan adalah tolok ukur untuk mengevaluasi keamanan LLM Cina. |
Safetybench | Safetybench adalah tolok ukur untuk mengevaluasi keamanan LLMS. |
Salad-Bench | Salad-Bench adalah tolok ukur untuk mengevaluasi keselamatan dan keamanan LLMS. |
Skandeval | Scandeval adalah tolok ukur untuk mengevaluasi LLMS pada tugas -tugas dalam bahasa Skandinavia serta Jerman, Belanda, dan Inggris. |
Papan peringkat sains | Science Leaderboard adalah platform untuk mengevaluasi kemampuan LLMS untuk menyelesaikan masalah sains. |
Sciglm | SCIGLM adalah serangkaian model bahasa ilmiah yang menggunakan kerangka anotasi instruksi reflektif diri untuk meningkatkan penalaran ilmiah dengan menghasilkan dan merevisi solusi langkah demi langkah untuk pertanyaan tanpa label. |
Sciknoweval | Sciknoweval adalah tolok ukur untuk mengevaluasi LLM berdasarkan kemahiran mereka dalam belajar secara luas, menanyakan dengan sungguh -sungguh, berpikir mendalam, membedakan dengan jelas, dan berlatih dengan tekun. |
Gulungan | Gulungan adalah tolok ukur untuk mengevaluasi kemampuan penalaran LLM melalui teks panjang. |
Seaexam | Seaexam adalah tolok ukur untuk mengevaluasi LLMS untuk bahasa Asia Tenggara (Laut). |
Segel LLM LEASORARDS | SEAL LLM LEORMBOARDS adalah platform evaluasi swasta yang digerakkan oleh ahli untuk LLMS. |
Seaval | SeaVal adalah tolok ukur untuk mengevaluasi kinerja LLM multibahasa dalam pemahaman dan penalaran dengan bahasa alami, serta memahami praktik budaya, nuansa, dan nilai -nilai budaya. |
Helm laut | Sea Helm adalah tolok ukur untuk mengevaluasi kinerja LLMS di seluruh Tugas Bahasa Inggris dan Asia Tenggara, fokus pada obrolan, pengikut instruksi, dan kemampuan linguistik. |
Seceval | Seceval adalah tolok ukur untuk mengevaluasi pengetahuan keamanan siber dari model yayasan. |
Papan peringkat yang meningkatkan diri | Leaderboard yang meningkatkan diri (SIL) adalah platform dinamis yang terus memperbarui set data dan peringkat pengujian untuk memberikan wawasan kinerja waktu nyata untuk LLM dan chatbots sumber terbuka. |
Spec-bench | Spec-Bench adalah tolok ukur untuk mengevaluasi metode decoding spekulatif di berbagai skenario. |
Struktural | Structeval adalah tolok ukur untuk mengevaluasi LLM dengan melakukan penilaian terstruktur di berbagai tingkat kognitif dan konsep kritis. |
Papan peringkat LLM subquadratic | Papan peringkat Subquadratic LLM mengevaluasi LLM dengan arsitektur subquadratic/free-free (yaitu RWKV & Mamba). |
Superbench | Superbench adalah sistem tugas dan dimensi yang komprehensif untuk mengevaluasi kemampuan keseluruhan LLMS. |
Superglue | Superglue adalah tolok ukur untuk mengevaluasi kinerja LLMS pada serangkaian tugas pemahaman bahasa yang menantang. |
Superlim | Superlim adalah tolok ukur untuk mengevaluasi kemampuan pemahaman bahasa LLM di Swedia. |
Swahili llm-Leaderboard | Swahili LLM-Leaderboard adalah upaya komunitas bersama untuk membuat satu papan peringkat pusat untuk LLMS. |
S-eval | S-Eval adalah tolok ukur keselamatan multi-dimensi yang komprehensif dengan 220.000 petunjuk yang dirancang untuk mengevaluasi keamanan LLM di berbagai dimensi risiko. |
Tableqaeval | TableqAeval adalah tolok ukur untuk mengevaluasi kinerja LLM dalam pemodelan tabel panjang dan kemampuan pemahaman, seperti penalaran numerik dan multi-hop. |
Tat-dqa | TAT-DQA adalah tolok ukur untuk mengevaluasi LLM pada penalaran diskrit atas dokumen yang menggabungkan informasi terstruktur dan tidak terstruktur. |
Tat-qa | TAT-QA adalah tolok ukur untuk mengevaluasi LLMS pada penalaran diskrit atas dokumen yang menggabungkan konten tabular dan tekstual. |
Papan peringkat Thai LLM | Papan peringkat Thailand LLM bertujuan untuk melacak dan mengevaluasi LLM dalam tugas-tugas berbahasa Thailand. |
Tumpukan | Tumpukan adalah tolok ukur untuk mengevaluasi pengetahuan dunia dan kemampuan penalaran LLMS. |
Tahu | Tofu adalah tolok ukur untuk mengevaluasi kinerja LLMS yang tidak belajar dalam skenario realistis. |
Papan peringkat Toloke LLM | Papan peringkat Toloka LLM adalah tolok ukur untuk mengevaluasi LLM berdasarkan petunjuk pengguna otentik dan evaluasi manusia ahli. |
Toolbench | Toolbench adalah platform untuk pelatihan, melayani, dan mengevaluasi LLMS khusus untuk pembelajaran alat. |
Papan peringkat toksisitas | Papan peringkat toksisitas mengevaluasi toksisitas LLMS. |
Papan peringkat LLM Trustbit | Trustbit LLM Leadeboards adalah platform yang menyediakan tolok ukur untuk membangun dan pengiriman produk dengan LLM. |
Trustllm | Trustllm adalah tolok ukur untuk mengevaluasi kepercayaan LLMS. |
TuringAdvice | TuringAdvice adalah tolok ukur untuk mengevaluasi kemampuan model bahasa untuk menghasilkan saran yang bermanfaat untuk situasi kehidupan nyata dan terbuka. |
Tutoreval | Tutoreval adalah tolok ukur imbalan pertanyaan yang mengevaluasi seberapa baik seorang tutor LLM dapat membantu pengguna memahami bab dari buku teks sains. |
T-eval | T-eval adalah tolok ukur untuk mengevaluasi kemampuan pemanfaatan pahat LLMS. |
Papan peringkat UGI | Ukuran papan peringkat UGI dan membandingkan informasi yang tidak disensor dan kontroversial yang diketahui oleh LLMS. |
Ultraeval | Ultraeval adalah kerangka kerja open-source untuk pembandingan LLM yang transparan dan dapat direproduksi di berbagai dimensi kinerja. |
Vals AI | Vals AI adalah platform yang mengevaluasi akurasi dan kemanjuran AI generatif pada tugas-tugas hukum dunia nyata. |
Vcr | Visual Commonsense Reasoning (VCR) adalah tolok ukur untuk pemahaman visual tingkat kognisi, yang membutuhkan model untuk menjawab pertanyaan visual dan memberikan alasan untuk jawaban mereka. |
Vidore | Vidore adalah tolok ukur untuk mengevaluasi model pengambilan tentang kapasitas mereka untuk mencocokkan pertanyaan dengan dokumen yang relevan di tingkat halaman. |
Papan peringkat VLLMS | Papan peringkat VLLMS bertujuan untuk melacak, memberi peringkat, dan mengevaluasi LLMS dan chatbots terbuka. |
Vmlu | VMLU adalah tolok ukur untuk mengevaluasi kemampuan keseluruhan model yayasan di Vietnam. |
Wildbench | Wildbench adalah tolok ukur untuk mengevaluasi model bahasa pada tugas-tugas yang menantang yang sangat mirip dengan aplikasi dunia nyata. |
Xiezhi | Xiezhi adalah tolok ukur untuk evaluasi pengetahuan domain holistik dari LLMS. |
Arena yanolja | Yanolja Arena menjadi tuan rumah arena model untuk mengevaluasi kemampuan LLMS dalam meringkas dan menerjemahkan teks. |
Papan peringkat LLM lainnya | Namun papan peringkat LLM lainnya adalah platform untuk melacak, memberi peringkat, dan mengevaluasi Open LLMS dan Chatbots. |
Zebralogic | Zebralogic adalah tolok ukur yang mengevaluasi penalaran logis LLMS menggunakan teka -teki grid logika, jenis masalah kepuasan kendala (CSP). |
Zerosumeval | Zerosumeval adalah kerangka evaluasi kompetitif untuk LLMS menggunakan simulasi multipemain dengan kondisi menang yang jelas. |