ACLUE | ACLUE ist ein Bewertungsmaßstab für das Verständnis altchinesischer Sprache. |
Bestenliste der LLM-Bewertung für afrikanische Sprachen | Das African Languages LLM Eval Leaderboard verfolgt den Fortschritt und bewertet die Leistung von LLMs in afrikanischen Sprachen. |
AgentBoard | AgentBoard ist ein Benchmark für Multi-Turn-LLM-Agenten, ergänzt durch ein analytisches Bewertungsboard für eine detaillierte Modellbewertung über die endgültigen Erfolgsraten hinaus. |
AGIEval | AGIEval ist ein menschenzentrierter Benchmark zur Bewertung der allgemeinen Fähigkeiten von Basismodellen bei Aufgaben, die für die menschliche Wahrnehmung und Problemlösung relevant sind. |
Aiera-Rangliste | Das Aiera Leaderboard bewertet die LLM-Leistung bei Financial-Intelligence-Aufgaben, einschließlich Sprecherzuweisungen, Sprecherwechselidentifizierung, abstrakten Zusammenfassungen, berechnungsbasierten Fragen und Antworten und Kennzeichnung der Finanzstimmung. |
AIR-Bank | AIR-Bench ist ein Benchmark zur Bewertung der heterogenen Informationsabruffähigkeiten von Sprachmodellen. |
AI Energy Score-Rangliste | Das AI Energy Score Leaderboard verfolgt und vergleicht verschiedene Modelle im Bereich Energieeffizienz. |
KI-Benchmarks | ai-benchmarks enthält eine Handvoll Bewertungsergebnisse zur Antwortlatenz beliebter KI-Dienste. |
AlignBench | AlignBench ist ein mehrdimensionaler Benchmark zur Bewertung der Ausrichtung von LLMs auf Chinesisch. |
AlpakaEval | AlpacaEval ist ein automatischer Evaluator, der für LLMs entwickelt wurde, die Anweisungen befolgen. |
ANGO | ANGO ist ein generationsorientierter Bewertungsbenchmark für chinesische Sprachmodelle. |
Arabische Tokenizer-Rangliste | Das Arabic Tokenizers Leaderboard vergleicht die Effizienz von LLMs beim Parsen des Arabischen in seinen verschiedenen Dialekten und Formen. |
Arena-Hard-Auto | Arena-Hard-Auto ist ein Maßstab für anweisungsgesteuerte LLMs. |
AutoRace | AutoRace konzentriert sich auf die direkte Bewertung von LLM-Argumentationsketten mit der Metrik AutoRace (Automated Reasoning Chain Evaluation). |
Auto Arena | Auto Arena ist ein Benchmark, bei dem verschiedene Sprachmodellagenten an Peer-Battles teilnehmen, um ihre Leistung zu bewerten. |
Auto-J | Auto-J hostet Bewertungsergebnisse für die Aufgaben zum paarweisen Antwortvergleich und zur Kritikgenerierung. |
BABILong | BABILong ist ein Benchmark zur Bewertung der Leistung von Sprachmodellen bei der Verarbeitung beliebig langer Dokumente mit verteilten Fakten. |
BBL | BBL (BIG-bench Lite) ist eine kleine Teilmenge von 24 verschiedenen JSON-Aufgaben von BIG-bench. Es soll ein kanonisches Maß für die Modellleistung liefern und ist gleichzeitig weitaus kostengünstiger in der Auswertung als der gesamte Satz von mehr als 200 programmatischen und JSON-Aufgaben in BIG-bench. |
Seien Sie ehrlich | BeHonest ist ein Maßstab zur Bewertung der Ehrlichkeit – Bewusstsein für Wissensgrenzen (Selbsterkenntnis), Vermeidung von Täuschung (Nichttäuschung) und Konsistenz der Antworten (Konsistenz) – in LLMs. |
BenBench | BenBench ist ein Benchmark zur Bewertung des Umfangs, in dem LLMs ein wörtliches Training am Trainingssatz eines Benchmarks anstelle des Testsatzes durchführen, um die Fähigkeiten zu verbessern. |
BenCzechMark | BenCzechMark (BCM) ist ein multitaskingfähiger und multimetrischer tschechischer Sprach-Benchmark für LLMs mit einem einzigartigen Bewertungssystem, das die Theorie der statistischen Signifikanz nutzt. |
BiGGen-Bank | BiGGen-Bench ist ein umfassender Benchmark zur Bewertung von LLMs für eine Vielzahl von Aufgaben. |
BotChat | BotChat ist ein Benchmark zur Bewertung der Mehrrunden-Chat-Funktionen von LLMs über eine Proxy-Aufgabe. |
RechtsprechungQA | CaselawQA ist ein Benchmark, der rechtliche Klassifizierungsaufgaben umfasst, die aus den Rechtsdatenbanken des Obersten Gerichtshofs und des Songer Court of Appeals abgeleitet wurden. |
CFLUE | CFLUE ist ein Benchmark zur Bewertung des Verständnisses und der Verarbeitungsfähigkeiten von LLMs im chinesischen Finanzbereich. |
Ch3Ef | Ch3Ef ist ein Benchmark zur Bewertung der Übereinstimmung mit menschlichen Erwartungen anhand von 1002 von Menschen kommentierten Stichproben in 12 Domänen und 46 Aufgaben basierend auf dem hhh-Prinzip. |
Chain-of-Thought Hub | Chain-of-Thought Hub ist ein Benchmark zur Bewertung der Argumentationsfähigkeiten von LLMs. |
Chatbot-Arena | Chatbot Arena beherbergt eine Chatbot-Arena, in der verschiedene LLMs auf der Grundlage der Benutzerzufriedenheit konkurrieren. |
ChemBench | ChemBench ist ein Benchmark zur Bewertung des chemischen Wissens und der Denkfähigkeit von LLMs. |
Chinesische SimpleQA | Chinese SimpleQA ist ein chinesischer Benchmark zur Bewertung der Faktizitätsfähigkeit von Sprachmodellen zur Beantwortung kurzer Fragen. |
CLEM-Bestenliste | CLEM ist ein Framework für die systematische Bewertung von Chat-optimierten LLMs als Konversationsagenten. |
CLEVA | CLEVA ist ein Benchmark zur Bewertung von LLMs für 31 Aufgaben unter Verwendung von 370.000 chinesischen Abfragen aus 84 verschiedenen Datensätzen und 9 Metriken. |
Bestenliste für chinesische Großmodelle | Das Chinese Large Model Leaderboard ist eine Plattform zur Bewertung der Leistung chinesischer LLMs. |
CMB | CMB ist ein mehrstufiger medizinischer Benchmark auf Chinesisch. |
CMMLU | CMMLU ist ein Maßstab zur Bewertung der Leistung von LLMs in verschiedenen Fächern im chinesischen Kulturkontext. |
CMMMU | CMMMU ist ein Benchmark zur Bewertung von LMMs bei Aufgaben, die Fachkenntnisse auf Hochschulniveau und bewusstes Denken in einem chinesischen Kontext erfordern. |
CommonGen | CommonGen ist ein Benchmark zur Bewertung des generativen gesunden Menschenverstands, indem Maschinen auf ihre Fähigkeit getestet werden, kohärente Sätze unter Verwendung eines bestimmten Satzes gemeinsamer Konzepte zu verfassen. |
CompMix | CompMix ist ein Benchmark für die Beantwortung heterogener Fragen. |
Bestenliste für die Komprimierungsrate | Das Komprimierungsraten-Leaderboard zielt darauf ab, die Leistung des Tokenizers in verschiedenen Sprachen zu bewerten. |
Komprimierungs-Rangliste | Das Compression Leaderboard ist eine Plattform zur Bewertung der Komprimierungsleistung von LLMs. |
CopyBench | CopyBench ist ein Benchmark zur Bewertung des Kopierverhaltens und der Nützlichkeit von Sprachmodellen sowie der Wirksamkeit von Methoden zur Minderung von Urheberrechtsrisiken. |
CoTaEval | CoTaEval ist ein Benchmark zur Bewertung der Machbarkeit und Nebenwirkungen von Methoden zur Entfernung von Urheberrechten für LLMs. |
ConvRe | ConvRe ist ein Benchmark zur Bewertung der Fähigkeit von LLMs, umgekehrte Beziehungen zu verstehen. |
KritikerEval | CriticEval ist ein Benchmark zur Bewertung der Fähigkeit von LLMs, auf Kritik zu reagieren. |
CS-Bank | CS-Bench ist ein zweisprachiger Benchmark zur Bewertung der Leistung von LLMs in 26 Teilbereichen der Informatik, wobei der Schwerpunkt auf Wissen und Argumentation liegt. |
NIEDLICH | CUTE ist ein Benchmark zum Testen des orthografischen Wissens von LLMs. |
CyberMetric | CyberMetric ist ein Benchmark zur Bewertung des Cybersicherheitswissens von LLMs. |
CzechBench | CzechBench ist ein Benchmark zur Bewertung tschechischer Sprachmodelle. |
C-Bewertung | C-Eval ist eine chinesische Evaluierungssuite für LLMs. |
Dezentrale Arena-Rangliste | Decentralized Arena beherbergt eine dezentrale und demokratische Plattform für die LLM-Bewertung, die Bewertungen in verschiedenen, benutzerdefinierten Dimensionen, einschließlich Mathematik, Logik und Naturwissenschaften, automatisiert und skaliert. |
DecodingTrust | DecodingTrust ist eine Plattform zur Bewertung der Vertrauenswürdigkeit von LLMs. |
Domain-LLM-Rangliste | Das Domain LLM Leaderboard ist eine Plattform zur Bewertung der Beliebtheit domänenspezifischer LLMs. |
Bestenliste für Unternehmensszenarien | Das Enterprise Scenarios Leaderboard verfolgt und bewertet die Leistung von LLMs in realen Unternehmensanwendungsfällen. |
EQ-Bank | EQ-Bench ist ein Benchmark zur Bewertung von Aspekten der emotionalen Intelligenz in LLMs. |
Europäische LLM-Rangliste | Das European LLM Leaderboard verfolgt und vergleicht die Leistung von LLMs in europäischen Sprachen. |
EvalGPT.ai | EvalGPT.ai betreibt eine Chatbot-Arena, um die Leistung von LLMs zu vergleichen und zu bewerten. |
Bewertungsarena | Eval Arena misst Rauschpegel, Modellqualität und Benchmark-Qualität durch den Vergleich von Modellpaaren über mehrere LLM-Bewertungsbenchmarks hinweg mit Analyse auf Beispielebene und paarweisen Vergleichen. |
Faktizitäts-Rangliste | Das Factuality Leaderboard vergleicht die faktischen Fähigkeiten von LLMs. |
FanOutQA | FanOutQA ist ein qualitativ hochwertiger Multi-Hop- und Multi-Dokument-Benchmark für LLMs, der die englische Wikipedia als Wissensdatenbank nutzt. |
FastEval | FastEval ist ein Toolkit zur schnellen Bewertung von Anweisungen-Folge- und Chat-Sprachmodellen anhand verschiedener Benchmarks mit schneller Inferenz und detaillierten Leistungseinblicken. |
FELM | FELM ist ein Meta-Benchmark zur Bewertung des Faktizitätsbewertungsbenchmarks für LLMs. |
FinEval | FinEval ist ein Benchmark zur Bewertung des Finanzwissens in LLMs. |
Feinabstimmung der Bestenliste | Fine-Tuning Leaderboard ist eine Plattform zum Ranking und Präsentieren von Modellen, die mithilfe von Open-Source-Datensätzen oder Frameworks verfeinert wurden. |
Flammen | Flames ist ein äußerst kontroverser chinesischer Maßstab für die Bewertung der Werteausrichtung von LLMs in den Bereichen Fairness, Sicherheit, Moral, Legalität und Datenschutz. |
FollowBench | FollowBench ist ein mehrstufiger, feinkörniger Constraint-Following-Benchmark zur Bewertung der Befehlsfolgefähigkeit von LLMs. |
Datensatz mit verbotenen Fragen | Der Datensatz „Verbotene Fragen“ ist ein Benchmark, der 160 Fragen aus 160 verletzten Kategorien mit entsprechenden Zielen für die Bewertung von Jailbreak-Methoden enthält. |
FuseReviews | FuseReviews zielt darauf ab, fundierte Textgenerierungsaufgaben voranzutreiben, einschließlich der Beantwortung und Zusammenfassung langer Fragen. |
GAIA | GAIA zielt darauf ab, grundlegende Fähigkeiten zu testen, die ein KI-Assistent besitzen sollte. |
GAVIE | GAVIE ist ein GPT-4-gestützter Benchmark zur Bewertung von Halluzinationen bei LMMs durch Bewertung von Genauigkeit und Relevanz, ohne sich auf von Menschen kommentierte Grundwahrheiten zu verlassen. |
GPT-Fathom | GPT-Fathom ist eine LLM-Evaluierungssuite, die mehr als 10 führende LLMs sowie die Legacy-Modelle von OpenAI anhand von mehr als 20 kuratierten Benchmarks in 7 Fähigkeitskategorien vergleicht, alle unter abgestimmten Einstellungen. |
GrailQA | Strongly Generalizable Question Answering (GrailQA) ist ein umfangreicher, qualitativ hochwertiger Benchmark für die Beantwortung von Fragen in Wissensdatenbanken (KBQA) auf Freebase mit 64.331 Fragen, die mit beiden Antworten und entsprechenden logischen Formen in unterschiedlicher Syntax (z. B. SPARQL, S-Ausdruck) kommentiert sind , usw.). |
GTBench | GTBench ist ein Benchmark zur Bewertung und Einstufung der Denkfähigkeiten von LLMs in Wettbewerbsumgebungen anhand spieltheoretischer Aufgaben, z. B. Brett- und Kartenspiele. |
Guerra LLM KI-Bestenliste | Das Guerra LLM AI Leaderboard vergleicht und bewertet die Leistung von LLMs in Bezug auf Qualität, Preis, Leistung, Kontextfenster und andere. |
Bestenliste für Halluzinationen | Das Hallucinations Leaderboard zielt darauf ab, Halluzinationen bei LLMs zu verfolgen, einzustufen und zu bewerten. |
HalluQA | HalluQA ist ein Benchmark zur Bewertung des Phänomens der Halluzinationen bei chinesischen LLMs. |
Hebräische LLM-Rangliste | Das Hebrew LLM Leaderboard verfolgt und ordnet Sprachmodelle entsprechend ihrem Erfolg bei verschiedenen Aufgaben im Hebräischen. |
HellaSwag | HellaSwag ist ein Benchmark zur Bewertung des gesunden Menschenverstandes in LLMs. |
Rangliste des Hughes-Halluzinationsbewertungsmodells | Das Hughes Hallucination Evaluation Model Leaderboard ist eine Plattform zur Bewertung, wie oft ein Sprachmodell beim Zusammenfassen eines Dokuments Halluzinationen hervorruft. |
Isländische LLM-Rangliste | Die isländische LLM-Bestenliste verfolgt und vergleicht Modelle für isländischsprachige Aufgaben. |
IFEval | IFEval ist ein Benchmark zur Bewertung der Fähigkeit von LLMs, Anweisungen anhand überprüfbarer Anweisungen zu befolgen. |
IL-TUR | IL-TUR ist ein Maßstab für die Bewertung von Sprachmodellen für einsprachige und mehrsprachige Aufgaben, die sich auf das Verständnis und die Begründung indischer Rechtsdokumente konzentrieren. |
Indische LLM-Rangliste | Das Indic LLM Leaderboard ist eine Plattform zum Verfolgen und Vergleichen der Leistung indischer LLMs. |
Indico LLM-Rangliste | Das Indico LLM Leaderboard bewertet und vergleicht die Genauigkeit verschiedener Sprachmodelle über Anbieter, Datensätze und Funktionen wie Textklassifizierung, Extraktion wichtiger Informationen und generative Zusammenfassung. |
InstructEval | InstructEval ist eine Suite zur Bewertung von Methoden zur Befehlsauswahl im Kontext von LLMs. |
Italienische LLM-Rangliste | Das Italian LLM-Leaderboard verfolgt und vergleicht LLMs in italienischsprachigen Aufgaben. |
JailbreakBench | JailbreakBench ist ein Benchmark zur Bewertung von LLM-Schwachstellen durch gegnerische Eingabeaufforderungen. |
Japanische Chatbot-Arena | Die Japanese Chatbot Arena beherbergt die Chatbot-Arena, in der verschiedene LLMs auf der Grundlage ihrer Leistungen auf Japanisch gegeneinander antreten. |
Finanzielles Bewertungsgeschirr für japanische Sprachmodelle | Das japanische Sprachmodell-Finanzbewertungsgeschirr ist ein Geschirr für die Bewertung japanischer Sprachmodelle im Finanzbereich. |
Japanischer LLM-Rollenspiel-Benchmark | Der Japanese LLM Roleplay Benchmark ist ein Benchmark zur Bewertung der Leistung japanischer LLMs im Charakter-Rollenspiel. |
JMED-LLM | JMED-LLM (Japanese Medical Evaluation Dataset for Large Language Models) ist ein Maßstab für die Bewertung von LLMs im medizinischen Bereich Japanisch. |
JMMMU | JMMMU (japanisches MMMU) ist ein multimodaler Benchmark zur Bewertung der LMM-Leistung auf Japanisch. |
JustEval | JustEval ist ein leistungsstarkes Tool zur detaillierten Bewertung von LLMs. |
KoLA | KoLA ist ein Maßstab zur Bewertung des weltweiten Wissens über LLMs. |
Lampe | LaMP (Language Models Personalization) ist ein Benchmark zur Bewertung der Personalisierungsfähigkeiten von Sprachmodellen. |
Sprachmodellrat | Der Language Model Council (LMC) ist ein Maßstab zur Bewertung von Aufgaben, die sehr subjektiv sind und denen es oft an der Zustimmung der Mehrheit der Menschen mangelt. |
LawBench | LawBench ist ein Benchmark zur Bewertung der rechtlichen Leistungsfähigkeit von LLMs. |
La Bestenliste | La Leaderboard bewertet und verfolgt LLM-Auswendiglernen, Argumentations- und Sprachfähigkeiten in Spanien, Lateinamerika und der Karibik. |
LogicKor | LogicKor ist ein Benchmark zur Bewertung der multidisziplinären Denkfähigkeiten koreanischer LLMs. |
LongICL-Rangliste | LongICL Leaderboard ist eine Plattform zur Auswertung langer kontextbezogener Lernbewertungen für LLMs. |
LooGLE | LooGLE ist ein Benchmark zur Bewertung der Langzeitkontextverständnisfähigkeiten von LLMs. |
LAiW | LAiW ist ein Maßstab zur Bewertung des Verständnisses und der Argumentation der chinesischen Rechtssprache. |
LLM Benchmarker Suite | Die LLM Benchmarker Suite ist ein Benchmark zur Bewertung der umfassenden Fähigkeiten von LLMs. |
Bewertung großer Sprachmodelle in englischen Kontexten | Large Language Model Assessment in English Contexts ist eine Plattform zur Bewertung von LLMs im englischen Kontext. |
Bewertung großer Sprachmodelle im chinesischen Kontext | Large Language Model Assessment in the Chinese Context ist eine Plattform zur Bewertung von LLMs im chinesischen Kontext. |
WAAGE | LIBRA ist ein Maßstab für die Bewertung der Fähigkeiten von LLMs, lange russische Texte zu verstehen und zu verarbeiten. |
LibrAI-Eval GenAI-Bestenliste | Das LibrAI-Eval GenAI Leaderboard konzentriert sich auf das Gleichgewicht zwischen den LLM-Fähigkeiten und der Sicherheit in Englisch. |
LiveBench | LiveBench ist ein Benchmark für LLMs, um die Kontamination von Testsätzen zu minimieren und eine objektive, automatisierte Bewertung verschiedener, regelmäßig aktualisierter Aufgaben zu ermöglichen. |
LLMEval | LLMEval ist ein Benchmark zur Bewertung der Qualität von Open-Domain-Gesprächen mit LLMs. |
Llmeval-Gaokao2024-Math | Llmeval-Gaokao2024-Math ist ein Maßstab für die Bewertung von LLMs zu Mathematikproblemen auf Chinesisch auf Gaokao-Niveau 2024. |
LLMHallucination-Rangliste | Das Hallucinations Leaderboard bewertet LLMs anhand einer Reihe halluzinationsbezogener Benchmarks. |
LLMPerf | LLMPerf ist ein Tool zur Bewertung der Leistung von LLMs mithilfe von Last- und Korrektheitstests. |
Rangliste zur Vorhersage des Krankheitsrisikos des LLM | Das LLMs Disease Risk Prediction Leaderboard ist eine Plattform zur Bewertung von LLMs hinsichtlich der Vorhersage des Krankheitsrisikos. |
LLM-Bestenliste | Das LLM Leaderboard verfolgt und bewertet LLM-Anbieter und ermöglicht so die Auswahl der optimalen API und des optimalen Modells für die Benutzeranforderungen. |
LLM-Bestenliste für CRM | Das CRM LLM Leaderboard ist eine Plattform zur Bewertung der Wirksamkeit von LLMs für Geschäftsanwendungen. |
LLM-Observatorium | Das LLM Observatory ist ein Benchmark, der LLMs anhand ihrer Leistung bei der Vermeidung sozialer Vorurteile in Kategorien wie LGBTIQ+-Ausrichtung, Alter, Geschlecht, Politik, Rasse, Religion und Fremdenfeindlichkeit bewertet und einordnet. |
LLM-Preis-Rangliste | Das LLM Price Leaderboard verfolgt und vergleicht die LLM-Kosten basierend auf einer Million Token. |
LLM-Rankings | LLM Rankings bietet einen Echtzeitvergleich von Sprachmodellen basierend auf der normalisierten Token-Nutzung für Eingabeaufforderungen und Vervollständigungen, der regelmäßig aktualisiert wird. |
LLM-Rollenspiel-Rangliste | Das LLM Roleplay Leaderboard bewertet die Leistung von Menschen und KI in einem sozialen Werwolfspiel für die NPC-Entwicklung. |
LLM-Sicherheits-Rangliste | Ziel des LLM Safety Leaderboard ist es, eine einheitliche Bewertung der Sicherheit von Sprachmodellen bereitzustellen. |
LLM-Anwendungsfall-Rangliste | Das LLM Use Case Leaderboard verfolgt und bewertet LLMs in Geschäftsanwendungsfällen. |
LLM-AggreFact | LLM-AggreFact ist ein Benchmark zur Faktenprüfung, der die aktuellsten öffentlich verfügbaren Datensätze auf der Grundlage einer fundierten Faktenbewertung aggregiert. |
LLM-Rangliste | LLM-Leaderboard ist eine gemeinsame Gemeinschaftsinitiative zur Erstellung einer zentralen Bestenliste für LLMs. |
LLM-Perf-Rangliste | Das LLM-Perf Leaderboard zielt darauf ab, die Leistung von LLMs mit unterschiedlicher Hardware, Backends und Optimierungen zu vergleichen. |
LMExamQA | LMExamQA ist ein Benchmarking-Framework, bei dem ein Sprachmodell als Prüfer fungiert, um Fragen zu generieren und Antworten auf referenzfreie, automatisierte Weise für eine umfassende, gerechte Bewertung zu bewerten. |
LongBench | LongBench ist ein Benchmark zur Bewertung der Langzeitkontextverständnisfähigkeiten von LLMs. |
Loong | Loong ist ein langfristiger Benchmark zur Bewertung der Qualitätssicherungsfähigkeiten von LLMs für mehrere Dokumente in finanziellen, rechtlichen und akademischen Szenarien. |
Low-Bit-quantisierte Open-LLM-Bestenliste | Das Low-Bit Quantized Open LLM Leaderboard verfolgt und vergleicht Quantisierungs-LLMs mit verschiedenen Quantisierungsalgorithmen. |
LV-Eval | LV-Eval ist ein Long-Context-Benchmark mit fünf Längenstufen und fortschrittlichen Techniken zur genauen Bewertung von LLMs bei Single-Hop- und Multi-Hop-QA-Aufgaben in zweisprachigen Datensätzen. |
LucyEval | LucyEval bietet eine gründliche Bewertung der Leistung von LLMs in verschiedenen chinesischen Kontexten. |
L-Bewertung | L-Eval ist ein LCLM-Bewertungsbenchmark (Long Context Language Model) zur Bewertung der Leistung bei der Verarbeitung umfangreicher Kontexte. |
M3KE | M3KE ist ein umfangreicher mehrstufiger Wissensbewertungsbenchmark für mehrere Fächer, um das von chinesischen LLMs erworbene Wissen zu messen. |
Metakritik | MetaCritique ist ein Richter, der von Menschen verfasste oder von LLMs generierte Kritik bewerten kann, indem er Kritik generiert. |
MINZE | MINT ist ein Benchmark zur Bewertung der Fähigkeit von LLMs, Aufgaben mit Multi-Turn-Interaktionen mithilfe von Tools und der Nutzung von Feedback in natürlicher Sprache zu lösen. |
Fata Morgana | Mirage ist ein Maßstab für die erweiterte Generierung medizinischer Informationsabrufe. Es enthält 7.663 Fragen aus fünf medizinischen QS-Datensätzen und wurde mit 41 Konfigurationen unter Verwendung des MedRag-Toolkits getestet. |
MedBench | MedBench ist ein Benchmark zur Bewertung der Beherrschung von Wissen und Argumentationsfähigkeiten in medizinischen LLMs. |
MedS-Bank | MedS-Bench ist ein medizinischer Benchmark, der LLMs in 11 Aufgabenkategorien anhand von 39 verschiedenen Datensätzen bewertet. |
Meta Open LLM-Rangliste | Die Meta Open LLM-Bestenliste dient als zentraler Knotenpunkt für die Konsolidierung von Daten aus verschiedenen offenen LLM-Bestenlisten auf einer einzigen, benutzerfreundlichen Visualisierungsseite. |
MIMIC-Rangliste für klinische Entscheidungsfindung | Das MIMIC Clinical Decision Making Leaderboard verfolgt und bewertet LLms in realistischer klinischer Entscheidungsfindung für abdominale Pathologien. |
MixEval | MixEval ist ein Benchmark zur Bewertung von LLMs durch die strategische Mischung handelsüblicher Benchmarks. |
ML.ENERGY-Rangliste | Das ML.ENERGY Leaderboard bewertet den Energieverbrauch von LLMs. |
MMedBench | MMedBench ist ein medizinischer Benchmark zur Bewertung von LLMs im mehrsprachigen Verständnis. |
MMLU | MMLU ist ein Benchmark zur Bewertung der Leistung von LLMs bei einer Vielzahl von Aufgaben zum Verstehen natürlicher Sprache. |
MMLU-Bestenliste nach Aufgaben | Das MMLU-by-task Leaderboard bietet eine Plattform zum Bewerten und Vergleichen verschiedener ML-Modelle für verschiedene Sprachverständnisaufgaben. |
MMLU-Pro | MMLU-Pro ist eine anspruchsvollere Version von MMLU zur Bewertung der Argumentationsfähigkeiten von LLMs. |
ModelScope LLM-Rangliste | ModelScope LLM Leaderboard ist eine Plattform zur objektiven und umfassenden Bewertung von LLMs. |
Modellbewertungs-Rangliste | Das Model Evaluation Leaderboard verfolgt und bewertet Textgenerierungsmodelle basierend auf ihrer Leistung in verschiedenen Benchmarks mithilfe des Mosaik-Eval-Gauntlet-Frameworks. |
MSNP-Bestenliste | Das MSNP Leaderboard verfolgt und bewertet die Leistung quantisierter GGUF-Modelle auf verschiedenen GPU- und CPU-Kombinationen mithilfe von Einzelknoten-Setups über Ollama. |
MSTEB | MSTEB ist ein Maßstab zur Messung der Leistung von Texteinbettungsmodellen auf Spanisch. |
MTBB | MTEB ist ein wichtiger Maßstab für die Messung der Leistung von Texteinbettungsmodellen bei verschiedenen Einbettungsaufgaben in 112 Sprachen. |
MTB-Arena | MTEB Arena beherbergt eine Modellarena für die dynamische, reale Bewertung von Einbettungsmodellen durch benutzerbasierte Abfrage- und Abrufvergleiche. |
MT-Bench-101 | MT-Bench-101 ist ein feinkörniger Benchmark zur Bewertung von LLMs in Multi-Turn-Dialogen. |
MEINE malaiische LLM-Bestenliste | MY Malay LLM Leaderboard zielt darauf ab, offene LLMs zu malaiischen Aufgaben zu verfolgen, zu bewerten und zu bewerten. |
NoCha | NoCha ist ein Benchmark zur Bewertung, wie gut Langzeitkontext-Sprachmodelle Behauptungen über fiktionale Bücher überprüfen können. |
NPHardeval | NPHardEval ist ein Benchmark zur Bewertung der Argumentationsfähigkeiten von LLMs durch die Linse rechnerischer Komplexitätsklassen. |
Occiglot Euro LLM-Rangliste | Das Occiglot Euro LLM Leaderboard vergleicht LLMs in vier Hauptsprachen aus dem Okapi-Benchmark und Belebele (Französisch, Italienisch, Deutsch, Spanisch und Niederländisch). |
OlympiadeBank | OlympiadBench ist ein zweisprachiger multimodaler wissenschaftlicher Benchmark mit 8.476 Mathematik- und Physikproblemen auf Olympia-Niveau mit schrittweisen Argumentationsanmerkungen auf Expertenniveau. |
OlympicArena | OlympicArena ist ein Maßstab zur Bewertung der fortgeschrittenen Fähigkeiten von LLMs in einem breiten Spektrum von Herausforderungen auf olympischem Niveau. |
oobabooga | Oobabooga ist ein Benchmark zur Durchführung wiederholbarer Leistungstests von LLMs mit der oobabooga-Web-Benutzeroberfläche. |
OpenEval | OpenEval ist eine Plattformbewertung zur Bewertung chinesischer LLMs. |
OpenLLM türkische Bestenliste | Die OpenLLM-Bestenliste für Türkisch verfolgt den Fortschritt und bewertet die Leistung von LLMs auf Türkisch. |
Offenheits-Rangliste | Openness Leaderboard verfolgt und bewertet die Transparenz von Modellen im Hinblick auf den offenen Zugriff auf Gewichte, Daten und Lizenzen und deckt Modelle auf, die nicht den Offenheitsstandards entsprechen. |
Offenheits-Rangliste | Openness Leaderboard ist ein Tool, das die Offenheit von anweisungsgesteuerten LLMs verfolgt und deren Transparenz, Daten und Modellverfügbarkeit bewertet. |
OpenResearcher | OpenResearcher enthält die Benchmarking-Ergebnisse zu verschiedenen RAG-bezogenen Systemen als Bestenliste. |
Öffnen Sie die arabische LLM-Bestenliste | Das Open Arabic LLM Leaderboard verfolgt den Fortschritt und bewertet die Leistung von LLMs auf Arabisch. |
Öffnen Sie die chinesische LLM-Bestenliste | Das Open Chinese LLM Leaderboard zielt darauf ab, offene chinesische LLMs zu verfolgen, zu bewerten und zu bewerten. |
Öffnen Sie die CoT-Bestenliste | Das Open CoT Leaderboard verfolgt die Fähigkeiten von LLMs, effektive Gedankenketten-Argumentationsspuren zu generieren. |
Öffnen Sie die niederländische LLM-Bewertungs-Rangliste | Das Open Dutch LLM Evaluation Leaderboard verfolgt den Fortschritt und bewertet die Leistung von LLMs auf Niederländisch. |
Öffnen Sie das Financial LLM Leaderboard | Ziel des Open Financial LLM Leaderboard ist es, die Leistung von Finanz-LLMs zu bewerten und zu vergleichen. |
Öffnen Sie die ITA LLM-Bestenliste | Das Open ITA LLM Leaderboard verfolgt den Fortschritt und bewertet die Leistung von LLMs auf Italienisch. |
Öffnen Sie die Ko-LLM-Bestenliste | Das Open Ko-LLM Leaderboard verfolgt den Fortschritt und bewertet die Leistung von LLMs auf Koreanisch. |
Öffnen Sie die LLM-Bestenliste | Das Open LLM Leaderboard verfolgt den Fortschritt und bewertet die Leistung von LLMs auf Englisch. |
Öffnen Sie die Medical-LLM-Bestenliste | Das Open Medical-LLM Leaderboard zielt darauf ab, offene LLMs im medizinischen Bereich zu verfolgen, zu bewerten und zu bewerten. |
Öffnen Sie die MLLM-Bestenliste | Open MLLM Leaderboard zielt darauf ab, LLMs und Chatbots zu verfolgen, zu bewerten und zu bewerten. |
Öffnen Sie die MOE LLM-Bestenliste | Das OPEN MOE LLM Leaderboard bewertet die Leistung und Effizienz verschiedener Mixture of Experts (MoE) LLMs. |
Öffnen Sie die Bestenliste für die mehrsprachige LLM-Bewertung | Das Open Multilingual LLM Evaluation Leaderboard verfolgt den Fortschritt und bewertet die Leistung von LLMs in mehreren Sprachen. |
Öffnen Sie die PL LLM-Bestenliste | Open PL LLM Leaderboard ist eine Plattform zur Bewertung der Leistung verschiedener LLMs auf Polnisch. |
Öffnen Sie die portugiesische LLM-Bestenliste | Das Open PT LLM Leaderboard zielt darauf ab, LLMs in den portugiesischsprachigen Aufgaben zu bewerten und zu vergleichen. |
Öffnen Sie die LLM-Rangliste für Taiwan | Die Open Taiwan LLM-Bestenliste zeigt die Leistung von LLMs bei verschiedenen Aufgaben zum Verstehen der taiwanesischen Mandarin-Sprache. |
Open-LLM-Bestenliste | Open-LLM-Leaderboard bewertet LLMs in Bezug auf Sprachverständnis und Argumentation durch den Übergang von Multiple-Choice-Fragen (MCQs) zu Fragen im offenen Stil. |
OPUS-MT-Dashboard | OPUS-MT Dashboard ist eine Plattform zum Verfolgen und Vergleichen maschineller Übersetzungsmodelle über mehrere Sprachpaare und Metriken hinweg. |
OP-Bank | OR-Bench ist ein Benchmark zur Bewertung der übermäßigen Ablehnung erhöhter Sicherheit in LLMs. |
ParsBench | ParsBench bietet Toolkits zum Benchmarking von LLMs basierend auf der persischen Sprache. |
Persische LLM-Rangliste | Das „Persian LLM Leaderboard“ bietet eine zuverlässige Bewertung von LLMs in persischer Sprache. |
Pinocchio ITA-Rangliste | Die Pinocchio ITA-Bestenliste verfolgt und bewertet LLMs in italienischer Sprache. |
PL-MTEB | PL-MTEB (Polish Massive Text Embedding Benchmark) ist ein Benchmark für die Bewertung von Texteinbettungen in Polnisch in 28 NLP-Aufgaben. |
Polnische medizinische Rangliste | Das Polish Medical Leaderboard bewertet Sprachmodelle bei polnischen Zertifizierungsprüfungen. |
Powered-by-Intel LLM-Bestenliste | Das Powered-by-Intel LLM Leaderboard bewertet, bewertet und ordnet LLMs, die auf Intel-Hardware vorab trainiert oder optimiert wurden. |
PubMedQA | PubMedQA ist ein Benchmark zur Bewertung der Beantwortung biomedizinischer Forschungsfragen. |
PromptBench | PromptBench ist ein Benchmark zur Bewertung der Robustheit von LLMs bei kontroversen Eingabeaufforderungen. |
QAConv | QAConv ist ein Benchmark für die Beantwortung von Fragen unter Verwendung komplexer, domänenspezifischer und asynchroner Konversationen als Wissensquelle. |
Qualität | QUALITÄT ist ein Maßstab für die Bewertung der Beantwortung von Multiple-Choice-Fragen mit einem langen Kontext. |
KANINCHEN | RABBITS ist ein Benchmark zur Bewertung der Robustheit von LLMs, indem der Umgang mit Synonymen, insbesondere Marken- und generischen Arzneimittelnamen, bewertet wird. |
Rakuda | Rakuda ist ein Benchmark, um LLMs zu bewerten, basierend darauf, wie gut sie eine Reihe offener Fragen zu japanischen Themen beantworten. |
Redteam Arena | Die Redteam Arena ist eine Red-Team-Plattform für LLMs. |
RED -Teaming Resistance Benchmark | Red Teaming Resistance Benchmark ist ein Maßstab, um die Robustheit von LLMs gegen Red -Teaming -Eingaben zu bewerten. |
REST-MCTS* | REST-MCTS* ist eine verstärkte Selbsttraining-Methode, die die Inferenz für Baumsuche und -prozessbelohnungen verwendet, um qualitativ hochwertige Argumentationsspuren für Schulungsrichtlinien und Belohnungsmodelle ohne manuelle Schrittanmerkungen zu sammeln. |
Rezensent Arena | Die Rezensent -Arena veranstaltet die Rezensentser Arena, in der verschiedene LLMs aufgrund ihrer Leistung bei der Kritik von akademischen Papieren konkurrieren. |
Roleeval | Roleeval ist ein zweisprachiger Benchmark, um die Fähigkeiten des Auswendiglernens, der Nutzung und der Argumentation des Rollenkenntnisses von LLMs zu bewerten. |
Rpbench Rangliste | Rpbench-Auto ist eine automatisierte Pipeline für die Bewertung von LLMs mit 80 Personae für charakterbasierte und 80 Szenen für das szenenbasierte Rollenspiel. |
Russische Chatbot Arena | Die Chatbot Arena veranstaltet eine Chatbot -Arena, in der verschiedene LLMs auf der Grundlage der Benutzerzufriedenheit in Russisch konkurrieren. |
Russischer Sprungkleber | Russian Seclue ist ein Benchmark für russische Sprachmodelle, der sich auf Logik-, Gemeinden- und Argumentationsaufgaben konzentriert. |
R-Judge | R-Judge ist ein Benchmark, um die Kompetenz von LLMs bei der Beurteilung und Identifizierung von Sicherheitsrisiken mit den Aufzeichnungen zwischen Agenten zu bewerten. |
Sicherheitsaufforderungen | Sicherheitsanträge sind ein Maßstab zur Bewertung der Sicherheit chinesischer LLMs. |
SafetyBench | SafetyBench ist ein Benchmark, um die Sicherheit von LLMs zu bewerten. |
Salatbank | Salatbank ist ein Maßstab für die Bewertung der Sicherheit und Sicherheit von LLMs. |
Skandalisch | Scandeval ist ein Maßstab für die Bewertung von LLMs bei Aufgaben in skandinavischen Sprachen sowie Deutsch, Niederländisch und Englisch. |
Wissenschaftsrangliste | Science Boaderboard ist eine Plattform, um die Funktionen von LLMs zu bewerten, um wissenschaftliche Probleme zu lösen. |
Sciglm | ScigLM ist eine Reihe wissenschaftlicher Sprachmodelle, die einen selbstreflektierenden Annotationsrahmen für den Anmerkungsanschlag verwenden, um wissenschaftliche Argumentation zu verbessern, indem sie Schritt-für-Schritt-Lösungen für unbeschreibete Fragen generiert und überarbeitet. |
Sciknoweval | Sciknoweval ist ein Maßstab für die Bewertung von LLMs auf der Grundlage ihrer Kenntnisse, um ausgiebig zu untersuchen, ernsthaft nachzudenken, zutiefst nachzudenken, klar zu erkennen und sie angenehm zu praktizieren. |
Schriftrollen | Scrolls ist ein Benchmark, um die Argumentationsfunktionen von LLMs über lange Texte zu bewerten. |
Seseexam | SeaExam ist ein Maßstab für die Bewertung von LLMs für südostasiatische Sprachen (Sea). |
Seal LLM -Bestenlisten | Seal LLM Bestelisten ist eine kompetent motivierte private Bewertungsplattform für LLMs. |
Meereseel | Seeeval ist ein Benchmark, um die Leistung von mehrsprachigen LLMs im Verständnis und zum Denken mit natürlicher Sprache zu bewerten und kulturelle Praktiken, Nuancen und Werte zu verstehen. |
See Helm | Sea Helm ist eine Benchmark, um die Leistung von LLMs in englischen und südostasiatischen Aufgaben zu bewerten und sich auf Chat, Anweisungen und sprachliche Fähigkeiten zu konzentrieren. |
SECVAL | SECEVAL ist ein Benchmark, um das Wissen über Cybersicherheit über Grundmodelle zu bewerten. |
Selbstverbesserte Rangliste | Die Selbstverträglichkeit (SIL) ist eine dynamische Plattform, die Testdatensätze und Ranglisten kontinuierlich aktualisiert, um Echtzeit-Leistungserkenntnisse für Open-Source-LLMs und Chatbots bereitzustellen. |
Spec-Bench | Spec-Bench ist ein Benchmark, um spekulative Decodierungsmethoden in verschiedenen Szenarien zu bewerten. |
Strukturval | Strukturval ist ein Maßstab zur Bewertung von LLMs, indem strukturierte Bewertungen über mehrere kognitive Ebenen und kritische Konzepte hinweg durchgeführt werden. |
Subquadratische LLM -Rangliste | Die subquadratische LLM-Rangliste bewertet LLMs mit subquadratischen/aufmerksamkeitsfreien Architekturen (IE RWKV & Mamba). |
Superbench | Superbench ist ein umfassendes System von Aufgaben und Abmessungen, um die Gesamtkapazitäten von LLMs zu bewerten. |
Superklebe | SuperGlue ist ein Benchmark, um die Leistung von LLMs an einer Reihe herausfordernder Aufgaben des Sprachverständnisses zu bewerten. |
Superlim | Superlim ist ein Benchmark, um die Funktionen des Sprachverständnisses von LLMs auf Schwedisch zu bewerten. |
Swahili LLM-Leaderboard | Swahili LLM-Leaderboard ist eine gemeinsame Gemeinschaftsanstrengung, um eine zentrale Rangliste für LLMs zu schaffen. |
S-eval | S-EVAL ist ein umfassender, mehrdimensionaler Sicherheitsbenchmark mit 220.000 Eingabeaufforderungen, die die LLM-Sicherheit über verschiedene Risikoabmessungen hinweg bewerten sollen. |
TableQaEval | TableQaEVAL ist ein Benchmark, um die LLM-Leistung in der Modellierung langer Tabellen und Verständnisfunktionen wie numerisches und Multi-Hop-Denken zu bewerten. |
Tat-dqa | TAT-DQA ist ein Maßstab zur Bewertung von LLMs in der diskreten Argumentation über Dokumente, die sowohl strukturierte als auch unstrukturierte Informationen kombinieren. |
Tat-qa | TAT-QA ist ein Maßstab zur Bewertung von LLMs im diskreten Denken über Dokumente, die sowohl tabellarische als auch textbezogene Inhalte kombinieren. |
Thai LLM Rangliste | Thai LLM Langoupboard zielt darauf ab, LLMs in den thailändischsprachigen Aufgaben zu verfolgen und zu bewerten. |
Der Stapel | Der Stapel ist ein Benchmark, um die Fähigkeit des Weltwissens und der Argumentation von LLMs zu bewerten. |
TOFU | Tofu ist ein Benchmark, um die Verurnungsleistung von LLMs in realistischen Szenarien zu bewerten. |
Toloka LLM Rangliste | Die Toloka LLM -Rangliste ist ein Maßstab zur Bewertung von LLMs auf der Grundlage authentischer Benutzeraufforderungen und der Experten -Humanbewertung. |
ToolBench | ToolBench ist eine Plattform zum Training, Servieren und Bewertung von LLMs speziell zum Tool -Lernen. |
Toxizitätsgrenze | Die Toxizitätsgrenze bewertet die Toxizität von LLMs. |
Trustbit LLM Bestenlisten | Trustbit LLM Bestaderboards ist eine Plattform, die Benchmarks für den Bau und den Versand von Produkten mit LLMs bietet. |
Trustllm | Trustllm ist eine Benchmark, um die Vertrauenswürdigkeit von LLMs zu bewerten. |
Turingadvice | Turingadvice ist ein Maßstab für die Bewertung der Fähigkeit der Sprachmodelle, hilfreiche Ratschläge für reale, offene Situationen zu generieren. |
Tutoreval | Tutoreval ist eine Fragen zur Beantwortung, die bewertet, wie gut ein LLM-Tutor einem Benutzer helfen kann, ein Kapitel aus einem wissenschaftlichen Lehrbuch zu verstehen. |
T-Eval | T-Eval ist ein Benchmark für die Bewertung der Werkzeugauslastungsfähigkeit von LLMs. |
UGI Rangliste | UGI Langlöhe misst und vergleicht die unzensierten und kontroversen Informationen, die von LLMs bekannt sind. |
Ultraeval | Ultraeval ist ein Open-Source-Framework für transparente und reproduzierbare Benchmarking von LLMs über verschiedene Leistungsabmessungen hinweg. |
VALS AI | VALS AI ist eine Plattform, die generative AI-Genauigkeit und Wirksamkeit bei realen Rechtsaufgaben bewertet. |
Videorecorder | Visual Commonsense-Argumentation (VCR) ist ein Benchmark für das visuelle Verständnis auf Kognitionsebene, wodurch Modelle zur Beantwortung visueller Fragen und zur Bereitstellung von Rationalen für ihre Antworten erforderlich sind. |
Vidore | Vidore ist ein Maßstab für die Bewertung von Abrufmodellen für ihre Kapazität, um Abfragen auf relevante Dokumente auf Seitenebene abzustimmen. |
Vllms Rangliste | Vllms Bohrlochboard zielt darauf ab, offene LLMs und Chatbots zu verfolgen, zu rangieren und zu bewerten. |
VMLU | VMLU ist ein Benchmark, um die Gesamtkapazitäten von Fundamentmodellen auf Vietnamesisch zu bewerten. |
Wildbench | Wildbench ist ein Benchmark für die Bewertung von Sprachmodellen für herausfordernde Aufgaben, die realen Anwendungen ähneln. |
Xiezhi | Xiezhi ist ein Benchmark für eine ganzheitliche Domänenwissenbewertung von LLMs. |
Yanolja Arena | Yanolja Arena veranstalten eine Modellarena, um die Fähigkeiten von LLMs bei der Zusammenfassung und Übersetzung von Text zu bewerten. |
Noch eine LLM -Rangliste | Eine weitere LLM -Rangliste ist eine Plattform zum Verfolgen, Ranking und Bewerten von offenen LLMs und Chatbots. |
Zebralogie | Zebralogisch ist ein Benchmark, das die logische Argumentation von LLMs unter Verwendung von Logic Grid -Rätseln, eine Art von Einschränkungszufriedenheitsproblemen (CSP), bewertet. |
Nullenumzeiten | Zerosumeval ist ein Wettbewerbsbewertungsrahmen für LLMs unter Verwendung von Multiplayer -Simulationen mit klaren Gewinnbedingungen. |