awesome foundation model leaderboards herunterladen - awesome foundation model leaderboards Quellcode-Download

Fantastische Foundation-Modell-Bestenliste

Awesome Foundation Model Leaderboard ist eine kuratierte Liste fantastischer Foundation Model-Bestenlisten (eine Erklärung, was eine Bestenliste ist, finden Sie in diesem Tutorial), zusammen mit verschiedenen Entwicklungstools und Evaluierungsorganisationen gemäß unserer Umfrage:

Zu den Arbeitsabläufen und Gerüchen von Leaderboard Operations (LBOps):
Eine explorative Studie zu Foundation-Modell-Bestenlisten

Zhimin (Jimmy) Zhao, Abdul Ali Bangash, Filipe Roseiro Côgo, Bram Adams, Ahmed E. Hassan

Softwareanalyse- und Intelligenzlabor (SAIL)

Wenn Sie dieses Repository nützlich finden, erwägen Sie bitte, uns einen Stern und ein Zitat zu geben:

 @article{zhao2024workflows,
  title={On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards},
  author={Zhao, Zhimin and Bangash, Abdul Ali and C{^o}go, Filipe Roseiro and Adams, Bram and Hassan, Ahmed E},
  journal={arXiv preprint arXiv:2407.04065},
  year={2024}
}

Darüber hinaus stellen wir ein Such-Toolkit zur Verfügung, mit dem Sie schnell durch die Bestenlisten navigieren können.

Wenn Sie zu dieser Liste beitragen möchten (bitte tun Sie dies), können Sie gerne eine Pull-Anfrage vorschlagen.

Wenn Sie Vorschläge, Kritik oder Fragen zu dieser Liste haben, können Sie gerne ein Problem ansprechen.

Außerdem sollte eine Bestenliste enthalten sein, wenn nur:

Es wird aktiv gepflegt.
Es bezieht sich auf Stiftungsmodelle.

Inhaltsverzeichnis

Werkzeuge
Herausforderungen
Ranglisten
- Modellranking
  - Umfassend
  - Text
  - Bild
  - Code
  - Video
  - Mathe
  - Agent
  - Audio
  - 3D
  - Multimodal
- Datenbankranking
- Datensatz-Ranking
- Metrik-Ranking
- Papierranking
- Bestenliste

Werkzeuge

Name	Beschreibung
Demo-Bestenliste	Mit der Demo-Bestenliste können Benutzer ihre Bestenlisten mithilfe einer standardisierten Vorlage einfach bereitstellen.
Demo-Bestenlisten-Backend	Das Demo-Bestenlisten-Backend hilft Benutzern bei der Verwaltung der Bestenliste und der Bearbeitung von Einreichungsanfragen. Weitere Informationen finden Sie hier.
Erstellung des Kaggle-Wettbewerbs	Mit Kaggle Competition Creation können Sie benutzerdefinierte Wettbewerbe entwerfen und starten und dabei Ihre Datensätze nutzen, um die Data-Science-Community einzubeziehen.
Bestenlisten-Explorer	Der Leaderboard Explorer hilft Benutzern beim Navigieren durch die vielfältigen Bestenlisten, die auf Hugging Face Spaces verfügbar sind.
Öffnen Sie den LLM Leaderboard Renamer	open-llm-leaderboard-renamer hilft Benutzern, ihre Modelle im Open LLM Leaderboard einfach umzubenennen.
Öffnen Sie den PR-Opener für LLM-Ranglistenergebnisse	Open LLM Leaderboard-Ergebnisse PR Opener hilft Benutzern, Open LLM Leaderboard-Ergebnisse in ihren Modellkarten zu präsentieren.
Öffnen Sie den LLM Leaderboard Scraper	Open LLM Leaderboard Scraper hilft Benutzern beim Scrapen und Exportieren von Daten aus Open LLM Leaderboard.
Fortschrittstracker	Diese App visualisiert den Fortschritt proprietärer und Open-Source-LLMs im Laufe der Zeit, wie von der LMSYS Chatbot Arena bewertet.

Herausforderungen

Name	Beschreibung
AIcrowd	AIcrowd veranstaltet Herausforderungen und Wettbewerbe zum maschinellen Lernen in Bereichen wie Computer Vision, NLP und Reinforcement Learning, die sich sowohl an Forscher als auch an Praktiker richten.
KI-Hub	AI Hub bietet eine Vielzahl von Wettbewerben an, um KI-Lösungen für reale Probleme zu fördern, wobei der Schwerpunkt auf Innovation und Zusammenarbeit liegt.
AI Studio	AI Studio bietet KI-Wettbewerbe hauptsächlich für Computer Vision, NLP und andere datengesteuerte Aufgaben an, sodass Benutzer ihre KI-Fähigkeiten entwickeln und unter Beweis stellen können.
Allen Institut für KI	Das Allen Institute for AI bietet Bestenlisten und Benchmarks zu Aufgaben im Bereich des Verstehens natürlicher Sprache, des logischen Denkens und anderer Bereiche der KI-Forschung.
Codabench	Codabench ist eine Open-Source-Plattform zum Benchmarking von KI-Modellen, die anpassbare, benutzergesteuerte Herausforderungen in verschiedenen KI-Domänen ermöglicht.
Datenbrunnen	DataFountain ist eine chinesische KI-Wettbewerbsplattform, die sich mit Herausforderungen in den Bereichen Finanzen, Gesundheitswesen und Smart Cities befasst und Lösungen für branchenbezogene Probleme fördert.
DrivenData	DrivenData veranstaltet Herausforderungen des maschinellen Lernens mit sozialen Auswirkungen und zielt darauf ab, Probleme in Bereichen wie öffentliche Gesundheit, Katastrophenhilfe und nachhaltige Entwicklung zu lösen.
Dynabench	Dynabench bietet dynamische Benchmarks, bei denen Modelle kontinuierlich evaluiert werden, oft unter Einbeziehung menschlicher Interaktion, um die Robustheit bei sich entwickelnden KI-Aufgaben sicherzustellen.
KI bewerten	EvalAI ist eine Plattform zum Hosten und zur Teilnahme an KI-Herausforderungen, die von Forschern häufig zum Benchmarking von Modellen bei Aufgaben wie Bildklassifizierung, NLP und Reinforcement Learning verwendet wird.
Große Herausforderung	Grand Challenge bietet eine Plattform für medizinische Bildgebungsherausforderungen und unterstützt Fortschritte in der medizinischen KI, insbesondere in Bereichen wie Radiologie und Pathologie.
Hilti	Hilti veranstaltet Herausforderungen, die darauf abzielen, KI und maschinelles Lernen in der Bauindustrie voranzutreiben, wobei der Schwerpunkt auf praktischen, branchenrelevanten Anwendungen liegt.
InsightFace	InsightFace konzentriert sich auf KI-Herausforderungen im Zusammenhang mit der Gesichtserkennung, -verifizierung und -analyse und unterstützt Fortschritte bei der Identitätsüberprüfung und Sicherheit.
Kaggle	Kaggle ist eine der größten Plattformen für Wettbewerbe im Bereich Datenwissenschaft und maschinelles Lernen und deckt ein breites Themenspektrum von der Bildklassifizierung bis hin zu NLP und prädiktiver Modellierung ab.
nuScenes	nuScenes ermöglicht Forschern die Untersuchung anspruchsvoller städtischer Fahrsituationen mithilfe der gesamten Sensorik eines echten selbstfahrenden Autos und erleichtert so die Forschung im Bereich autonomes Fahren.
Robuster Lesewettbewerb	Robust Reading bezieht sich auf den Forschungsbereich zur Interpretation schriftlicher Kommunikation in uneingeschränkten Umgebungen, wobei sich Wettbewerbe auf die Texterkennung in realen Umgebungen konzentrieren.
Tianchi	Tianchi, veranstaltet von Alibaba, bietet eine Reihe von KI-Wettbewerben an, die besonders in Asien beliebt sind und sich auf Handel, Gesundheitswesen und Logistik konzentrieren.

Ranglisten

Modellranking

Umfassend

Name	Beschreibung
Künstliche Analyse	Artificial Analysis ist eine Plattform, die Benutzern hilft, fundierte Entscheidungen über die Auswahl von KI-Modellen und Hosting-Anbietern zu treffen.
CompassRank	CompassRank ist eine Plattform, die eine umfassende, objektive und neutrale Bewertungsreferenz für Stiftungsmodelle für Industrie und Forschung bietet.
FlagEval	FlagEval ist eine umfassende Plattform zur Bewertung von Fundamentmodellen.
Generative KI-Bestenlisten	Das Generative AI Leaderboard bewertet die leistungsstärksten generativen KI-Modelle anhand verschiedener Metriken.
Ganzheitliche Bewertung von Sprachmodellen	Holistic Evaluation of Language Models (HELM) ist ein reproduzierbarer und transparenter Rahmen zur Bewertung von Basismodellen.
Papiere mit Code	Papers With Code bietet Open-Source-Bestenlisten und Benchmarks und verknüpft KI-Forschungspapiere mit Code, um Transparenz und Reproduzierbarkeit beim maschinellen Lernen zu fördern.
SuperCLUE	SuperCLUE ist eine Reihe von Benchmarks zur Bewertung chinesischer Stiftungsmodelle.
Vellum LLM-Rangliste	Das Vellum LLM Leaderboard zeigt einen Vergleich der Funktionen, des Preises und des Kontextfensters für führende kommerzielle und Open-Source-LLMs.

Text

Name	Beschreibung
ACLUE	ACLUE ist ein Bewertungsmaßstab für das Verständnis altchinesischer Sprache.
Bestenliste der LLM-Bewertung für afrikanische Sprachen	Das African Languages LLM Eval Leaderboard verfolgt den Fortschritt und bewertet die Leistung von LLMs in afrikanischen Sprachen.
AgentBoard	AgentBoard ist ein Benchmark für Multi-Turn-LLM-Agenten, ergänzt durch ein analytisches Bewertungsboard für eine detaillierte Modellbewertung über die endgültigen Erfolgsraten hinaus.
AGIEval	AGIEval ist ein menschenzentrierter Benchmark zur Bewertung der allgemeinen Fähigkeiten von Basismodellen bei Aufgaben, die für die menschliche Wahrnehmung und Problemlösung relevant sind.
Aiera-Rangliste	Das Aiera Leaderboard bewertet die LLM-Leistung bei Financial-Intelligence-Aufgaben, einschließlich Sprecherzuweisungen, Sprecherwechselidentifizierung, abstrakten Zusammenfassungen, berechnungsbasierten Fragen und Antworten und Kennzeichnung der Finanzstimmung.
AIR-Bank	AIR-Bench ist ein Benchmark zur Bewertung der heterogenen Informationsabruffähigkeiten von Sprachmodellen.
AI Energy Score-Rangliste	Das AI Energy Score Leaderboard verfolgt und vergleicht verschiedene Modelle im Bereich Energieeffizienz.
KI-Benchmarks	ai-benchmarks enthält eine Handvoll Bewertungsergebnisse zur Antwortlatenz beliebter KI-Dienste.
AlignBench	AlignBench ist ein mehrdimensionaler Benchmark zur Bewertung der Ausrichtung von LLMs auf Chinesisch.
AlpakaEval	AlpacaEval ist ein automatischer Evaluator, der für LLMs entwickelt wurde, die Anweisungen befolgen.
ANGO	ANGO ist ein generationsorientierter Bewertungsbenchmark für chinesische Sprachmodelle.
Arabische Tokenizer-Rangliste	Das Arabic Tokenizers Leaderboard vergleicht die Effizienz von LLMs beim Parsen des Arabischen in seinen verschiedenen Dialekten und Formen.
Arena-Hard-Auto	Arena-Hard-Auto ist ein Maßstab für anweisungsgesteuerte LLMs.
AutoRace	AutoRace konzentriert sich auf die direkte Bewertung von LLM-Argumentationsketten mit der Metrik AutoRace (Automated Reasoning Chain Evaluation).
Auto Arena	Auto Arena ist ein Benchmark, bei dem verschiedene Sprachmodellagenten an Peer-Battles teilnehmen, um ihre Leistung zu bewerten.
Auto-J	Auto-J hostet Bewertungsergebnisse für die Aufgaben zum paarweisen Antwortvergleich und zur Kritikgenerierung.
BABILong	BABILong ist ein Benchmark zur Bewertung der Leistung von Sprachmodellen bei der Verarbeitung beliebig langer Dokumente mit verteilten Fakten.
BBL	BBL (BIG-bench Lite) ist eine kleine Teilmenge von 24 verschiedenen JSON-Aufgaben von BIG-bench. Es soll ein kanonisches Maß für die Modellleistung liefern und ist gleichzeitig weitaus kostengünstiger in der Auswertung als der gesamte Satz von mehr als 200 programmatischen und JSON-Aufgaben in BIG-bench.
Seien Sie ehrlich	BeHonest ist ein Maßstab zur Bewertung der Ehrlichkeit – Bewusstsein für Wissensgrenzen (Selbsterkenntnis), Vermeidung von Täuschung (Nichttäuschung) und Konsistenz der Antworten (Konsistenz) – in LLMs.
BenBench	BenBench ist ein Benchmark zur Bewertung des Umfangs, in dem LLMs ein wörtliches Training am Trainingssatz eines Benchmarks anstelle des Testsatzes durchführen, um die Fähigkeiten zu verbessern.
BenCzechMark	BenCzechMark (BCM) ist ein multitaskingfähiger und multimetrischer tschechischer Sprach-Benchmark für LLMs mit einem einzigartigen Bewertungssystem, das die Theorie der statistischen Signifikanz nutzt.
BiGGen-Bank	BiGGen-Bench ist ein umfassender Benchmark zur Bewertung von LLMs für eine Vielzahl von Aufgaben.
BotChat	BotChat ist ein Benchmark zur Bewertung der Mehrrunden-Chat-Funktionen von LLMs über eine Proxy-Aufgabe.
RechtsprechungQA	CaselawQA ist ein Benchmark, der rechtliche Klassifizierungsaufgaben umfasst, die aus den Rechtsdatenbanken des Obersten Gerichtshofs und des Songer Court of Appeals abgeleitet wurden.
CFLUE	CFLUE ist ein Benchmark zur Bewertung des Verständnisses und der Verarbeitungsfähigkeiten von LLMs im chinesischen Finanzbereich.
Ch3Ef	Ch3Ef ist ein Benchmark zur Bewertung der Übereinstimmung mit menschlichen Erwartungen anhand von 1002 von Menschen kommentierten Stichproben in 12 Domänen und 46 Aufgaben basierend auf dem hhh-Prinzip.
Chain-of-Thought Hub	Chain-of-Thought Hub ist ein Benchmark zur Bewertung der Argumentationsfähigkeiten von LLMs.
Chatbot-Arena	Chatbot Arena beherbergt eine Chatbot-Arena, in der verschiedene LLMs auf der Grundlage der Benutzerzufriedenheit konkurrieren.
ChemBench	ChemBench ist ein Benchmark zur Bewertung des chemischen Wissens und der Denkfähigkeit von LLMs.
Chinesische SimpleQA	Chinese SimpleQA ist ein chinesischer Benchmark zur Bewertung der Faktizitätsfähigkeit von Sprachmodellen zur Beantwortung kurzer Fragen.
CLEM-Bestenliste	CLEM ist ein Framework für die systematische Bewertung von Chat-optimierten LLMs als Konversationsagenten.
CLEVA	CLEVA ist ein Benchmark zur Bewertung von LLMs für 31 Aufgaben unter Verwendung von 370.000 chinesischen Abfragen aus 84 verschiedenen Datensätzen und 9 Metriken.
Bestenliste für chinesische Großmodelle	Das Chinese Large Model Leaderboard ist eine Plattform zur Bewertung der Leistung chinesischer LLMs.
CMB	CMB ist ein mehrstufiger medizinischer Benchmark auf Chinesisch.
CMMLU	CMMLU ist ein Maßstab zur Bewertung der Leistung von LLMs in verschiedenen Fächern im chinesischen Kulturkontext.
CMMMU	CMMMU ist ein Benchmark zur Bewertung von LMMs bei Aufgaben, die Fachkenntnisse auf Hochschulniveau und bewusstes Denken in einem chinesischen Kontext erfordern.
CommonGen	CommonGen ist ein Benchmark zur Bewertung des generativen gesunden Menschenverstands, indem Maschinen auf ihre Fähigkeit getestet werden, kohärente Sätze unter Verwendung eines bestimmten Satzes gemeinsamer Konzepte zu verfassen.
CompMix	CompMix ist ein Benchmark für die Beantwortung heterogener Fragen.
Bestenliste für die Komprimierungsrate	Das Komprimierungsraten-Leaderboard zielt darauf ab, die Leistung des Tokenizers in verschiedenen Sprachen zu bewerten.
Komprimierungs-Rangliste	Das Compression Leaderboard ist eine Plattform zur Bewertung der Komprimierungsleistung von LLMs.
CopyBench	CopyBench ist ein Benchmark zur Bewertung des Kopierverhaltens und der Nützlichkeit von Sprachmodellen sowie der Wirksamkeit von Methoden zur Minderung von Urheberrechtsrisiken.
CoTaEval	CoTaEval ist ein Benchmark zur Bewertung der Machbarkeit und Nebenwirkungen von Methoden zur Entfernung von Urheberrechten für LLMs.
ConvRe	ConvRe ist ein Benchmark zur Bewertung der Fähigkeit von LLMs, umgekehrte Beziehungen zu verstehen.
KritikerEval	CriticEval ist ein Benchmark zur Bewertung der Fähigkeit von LLMs, auf Kritik zu reagieren.
CS-Bank	CS-Bench ist ein zweisprachiger Benchmark zur Bewertung der Leistung von LLMs in 26 Teilbereichen der Informatik, wobei der Schwerpunkt auf Wissen und Argumentation liegt.
NIEDLICH	CUTE ist ein Benchmark zum Testen des orthografischen Wissens von LLMs.
CyberMetric	CyberMetric ist ein Benchmark zur Bewertung des Cybersicherheitswissens von LLMs.
CzechBench	CzechBench ist ein Benchmark zur Bewertung tschechischer Sprachmodelle.
C-Bewertung	C-Eval ist eine chinesische Evaluierungssuite für LLMs.
Dezentrale Arena-Rangliste	Decentralized Arena beherbergt eine dezentrale und demokratische Plattform für die LLM-Bewertung, die Bewertungen in verschiedenen, benutzerdefinierten Dimensionen, einschließlich Mathematik, Logik und Naturwissenschaften, automatisiert und skaliert.
DecodingTrust	DecodingTrust ist eine Plattform zur Bewertung der Vertrauenswürdigkeit von LLMs.
Domain-LLM-Rangliste	Das Domain LLM Leaderboard ist eine Plattform zur Bewertung der Beliebtheit domänenspezifischer LLMs.
Bestenliste für Unternehmensszenarien	Das Enterprise Scenarios Leaderboard verfolgt und bewertet die Leistung von LLMs in realen Unternehmensanwendungsfällen.
EQ-Bank	EQ-Bench ist ein Benchmark zur Bewertung von Aspekten der emotionalen Intelligenz in LLMs.
Europäische LLM-Rangliste	Das European LLM Leaderboard verfolgt und vergleicht die Leistung von LLMs in europäischen Sprachen.
EvalGPT.ai	EvalGPT.ai betreibt eine Chatbot-Arena, um die Leistung von LLMs zu vergleichen und zu bewerten.
Bewertungsarena	Eval Arena misst Rauschpegel, Modellqualität und Benchmark-Qualität durch den Vergleich von Modellpaaren über mehrere LLM-Bewertungsbenchmarks hinweg mit Analyse auf Beispielebene und paarweisen Vergleichen.
Faktizitäts-Rangliste	Das Factuality Leaderboard vergleicht die faktischen Fähigkeiten von LLMs.
FanOutQA	FanOutQA ist ein qualitativ hochwertiger Multi-Hop- und Multi-Dokument-Benchmark für LLMs, der die englische Wikipedia als Wissensdatenbank nutzt.
FastEval	FastEval ist ein Toolkit zur schnellen Bewertung von Anweisungen-Folge- und Chat-Sprachmodellen anhand verschiedener Benchmarks mit schneller Inferenz und detaillierten Leistungseinblicken.
FELM	FELM ist ein Meta-Benchmark zur Bewertung des Faktizitätsbewertungsbenchmarks für LLMs.
FinEval	FinEval ist ein Benchmark zur Bewertung des Finanzwissens in LLMs.
Feinabstimmung der Bestenliste	Fine-Tuning Leaderboard ist eine Plattform zum Ranking und Präsentieren von Modellen, die mithilfe von Open-Source-Datensätzen oder Frameworks verfeinert wurden.
Flammen	Flames ist ein äußerst kontroverser chinesischer Maßstab für die Bewertung der Werteausrichtung von LLMs in den Bereichen Fairness, Sicherheit, Moral, Legalität und Datenschutz.
FollowBench	FollowBench ist ein mehrstufiger, feinkörniger Constraint-Following-Benchmark zur Bewertung der Befehlsfolgefähigkeit von LLMs.
Datensatz mit verbotenen Fragen	Der Datensatz „Verbotene Fragen“ ist ein Benchmark, der 160 Fragen aus 160 verletzten Kategorien mit entsprechenden Zielen für die Bewertung von Jailbreak-Methoden enthält.
FuseReviews	FuseReviews zielt darauf ab, fundierte Textgenerierungsaufgaben voranzutreiben, einschließlich der Beantwortung und Zusammenfassung langer Fragen.
GAIA	GAIA zielt darauf ab, grundlegende Fähigkeiten zu testen, die ein KI-Assistent besitzen sollte.
GAVIE	GAVIE ist ein GPT-4-gestützter Benchmark zur Bewertung von Halluzinationen bei LMMs durch Bewertung von Genauigkeit und Relevanz, ohne sich auf von Menschen kommentierte Grundwahrheiten zu verlassen.
GPT-Fathom	GPT-Fathom ist eine LLM-Evaluierungssuite, die mehr als 10 führende LLMs sowie die Legacy-Modelle von OpenAI anhand von mehr als 20 kuratierten Benchmarks in 7 Fähigkeitskategorien vergleicht, alle unter abgestimmten Einstellungen.
GrailQA	Strongly Generalizable Question Answering (GrailQA) ist ein umfangreicher, qualitativ hochwertiger Benchmark für die Beantwortung von Fragen in Wissensdatenbanken (KBQA) auf Freebase mit 64.331 Fragen, die mit beiden Antworten und entsprechenden logischen Formen in unterschiedlicher Syntax (z. B. SPARQL, S-Ausdruck) kommentiert sind , usw.).
GTBench	GTBench ist ein Benchmark zur Bewertung und Einstufung der Denkfähigkeiten von LLMs in Wettbewerbsumgebungen anhand spieltheoretischer Aufgaben, z. B. Brett- und Kartenspiele.
Guerra LLM KI-Bestenliste	Das Guerra LLM AI Leaderboard vergleicht und bewertet die Leistung von LLMs in Bezug auf Qualität, Preis, Leistung, Kontextfenster und andere.
Bestenliste für Halluzinationen	Das Hallucinations Leaderboard zielt darauf ab, Halluzinationen bei LLMs zu verfolgen, einzustufen und zu bewerten.
HalluQA	HalluQA ist ein Benchmark zur Bewertung des Phänomens der Halluzinationen bei chinesischen LLMs.
Hebräische LLM-Rangliste	Das Hebrew LLM Leaderboard verfolgt und ordnet Sprachmodelle entsprechend ihrem Erfolg bei verschiedenen Aufgaben im Hebräischen.
HellaSwag	HellaSwag ist ein Benchmark zur Bewertung des gesunden Menschenverstandes in LLMs.
Rangliste des Hughes-Halluzinationsbewertungsmodells	Das Hughes Hallucination Evaluation Model Leaderboard ist eine Plattform zur Bewertung, wie oft ein Sprachmodell beim Zusammenfassen eines Dokuments Halluzinationen hervorruft.
Isländische LLM-Rangliste	Die isländische LLM-Bestenliste verfolgt und vergleicht Modelle für isländischsprachige Aufgaben.
IFEval	IFEval ist ein Benchmark zur Bewertung der Fähigkeit von LLMs, Anweisungen anhand überprüfbarer Anweisungen zu befolgen.
IL-TUR	IL-TUR ist ein Maßstab für die Bewertung von Sprachmodellen für einsprachige und mehrsprachige Aufgaben, die sich auf das Verständnis und die Begründung indischer Rechtsdokumente konzentrieren.
Indische LLM-Rangliste	Das Indic LLM Leaderboard ist eine Plattform zum Verfolgen und Vergleichen der Leistung indischer LLMs.
Indico LLM-Rangliste	Das Indico LLM Leaderboard bewertet und vergleicht die Genauigkeit verschiedener Sprachmodelle über Anbieter, Datensätze und Funktionen wie Textklassifizierung, Extraktion wichtiger Informationen und generative Zusammenfassung.
InstructEval	InstructEval ist eine Suite zur Bewertung von Methoden zur Befehlsauswahl im Kontext von LLMs.
Italienische LLM-Rangliste	Das Italian LLM-Leaderboard verfolgt und vergleicht LLMs in italienischsprachigen Aufgaben.
JailbreakBench	JailbreakBench ist ein Benchmark zur Bewertung von LLM-Schwachstellen durch gegnerische Eingabeaufforderungen.
Japanische Chatbot-Arena	Die Japanese Chatbot Arena beherbergt die Chatbot-Arena, in der verschiedene LLMs auf der Grundlage ihrer Leistungen auf Japanisch gegeneinander antreten.
Finanzielles Bewertungsgeschirr für japanische Sprachmodelle	Das japanische Sprachmodell-Finanzbewertungsgeschirr ist ein Geschirr für die Bewertung japanischer Sprachmodelle im Finanzbereich.
Japanischer LLM-Rollenspiel-Benchmark	Der Japanese LLM Roleplay Benchmark ist ein Benchmark zur Bewertung der Leistung japanischer LLMs im Charakter-Rollenspiel.
JMED-LLM	JMED-LLM (Japanese Medical Evaluation Dataset for Large Language Models) ist ein Maßstab für die Bewertung von LLMs im medizinischen Bereich Japanisch.
JMMMU	JMMMU (japanisches MMMU) ist ein multimodaler Benchmark zur Bewertung der LMM-Leistung auf Japanisch.
JustEval	JustEval ist ein leistungsstarkes Tool zur detaillierten Bewertung von LLMs.
KoLA	KoLA ist ein Maßstab zur Bewertung des weltweiten Wissens über LLMs.
Lampe	LaMP (Language Models Personalization) ist ein Benchmark zur Bewertung der Personalisierungsfähigkeiten von Sprachmodellen.
Sprachmodellrat	Der Language Model Council (LMC) ist ein Maßstab zur Bewertung von Aufgaben, die sehr subjektiv sind und denen es oft an der Zustimmung der Mehrheit der Menschen mangelt.
LawBench	LawBench ist ein Benchmark zur Bewertung der rechtlichen Leistungsfähigkeit von LLMs.
La Bestenliste	La Leaderboard bewertet und verfolgt LLM-Auswendiglernen, Argumentations- und Sprachfähigkeiten in Spanien, Lateinamerika und der Karibik.
LogicKor	LogicKor ist ein Benchmark zur Bewertung der multidisziplinären Denkfähigkeiten koreanischer LLMs.
LongICL-Rangliste	LongICL Leaderboard ist eine Plattform zur Auswertung langer kontextbezogener Lernbewertungen für LLMs.
LooGLE	LooGLE ist ein Benchmark zur Bewertung der Langzeitkontextverständnisfähigkeiten von LLMs.
LAiW	LAiW ist ein Maßstab zur Bewertung des Verständnisses und der Argumentation der chinesischen Rechtssprache.
LLM Benchmarker Suite	Die LLM Benchmarker Suite ist ein Benchmark zur Bewertung der umfassenden Fähigkeiten von LLMs.
Bewertung großer Sprachmodelle in englischen Kontexten	Large Language Model Assessment in English Contexts ist eine Plattform zur Bewertung von LLMs im englischen Kontext.
Bewertung großer Sprachmodelle im chinesischen Kontext	Large Language Model Assessment in the Chinese Context ist eine Plattform zur Bewertung von LLMs im chinesischen Kontext.
WAAGE	LIBRA ist ein Maßstab für die Bewertung der Fähigkeiten von LLMs, lange russische Texte zu verstehen und zu verarbeiten.
LibrAI-Eval GenAI-Bestenliste	Das LibrAI-Eval GenAI Leaderboard konzentriert sich auf das Gleichgewicht zwischen den LLM-Fähigkeiten und der Sicherheit in Englisch.
LiveBench	LiveBench ist ein Benchmark für LLMs, um die Kontamination von Testsätzen zu minimieren und eine objektive, automatisierte Bewertung verschiedener, regelmäßig aktualisierter Aufgaben zu ermöglichen.
LLMEval	LLMEval ist ein Benchmark zur Bewertung der Qualität von Open-Domain-Gesprächen mit LLMs.
Llmeval-Gaokao2024-Math	Llmeval-Gaokao2024-Math ist ein Maßstab für die Bewertung von LLMs zu Mathematikproblemen auf Chinesisch auf Gaokao-Niveau 2024.
LLMHallucination-Rangliste	Das Hallucinations Leaderboard bewertet LLMs anhand einer Reihe halluzinationsbezogener Benchmarks.
LLMPerf	LLMPerf ist ein Tool zur Bewertung der Leistung von LLMs mithilfe von Last- und Korrektheitstests.
Rangliste zur Vorhersage des Krankheitsrisikos des LLM	Das LLMs Disease Risk Prediction Leaderboard ist eine Plattform zur Bewertung von LLMs hinsichtlich der Vorhersage des Krankheitsrisikos.
LLM-Bestenliste	Das LLM Leaderboard verfolgt und bewertet LLM-Anbieter und ermöglicht so die Auswahl der optimalen API und des optimalen Modells für die Benutzeranforderungen.
LLM-Bestenliste für CRM	Das CRM LLM Leaderboard ist eine Plattform zur Bewertung der Wirksamkeit von LLMs für Geschäftsanwendungen.
LLM-Observatorium	Das LLM Observatory ist ein Benchmark, der LLMs anhand ihrer Leistung bei der Vermeidung sozialer Vorurteile in Kategorien wie LGBTIQ+-Ausrichtung, Alter, Geschlecht, Politik, Rasse, Religion und Fremdenfeindlichkeit bewertet und einordnet.
LLM-Preis-Rangliste	Das LLM Price Leaderboard verfolgt und vergleicht die LLM-Kosten basierend auf einer Million Token.
LLM-Rankings	LLM Rankings bietet einen Echtzeitvergleich von Sprachmodellen basierend auf der normalisierten Token-Nutzung für Eingabeaufforderungen und Vervollständigungen, der regelmäßig aktualisiert wird.
LLM-Rollenspiel-Rangliste	Das LLM Roleplay Leaderboard bewertet die Leistung von Menschen und KI in einem sozialen Werwolfspiel für die NPC-Entwicklung.
LLM-Sicherheits-Rangliste	Ziel des LLM Safety Leaderboard ist es, eine einheitliche Bewertung der Sicherheit von Sprachmodellen bereitzustellen.
LLM-Anwendungsfall-Rangliste	Das LLM Use Case Leaderboard verfolgt und bewertet LLMs in Geschäftsanwendungsfällen.
LLM-AggreFact	LLM-AggreFact ist ein Benchmark zur Faktenprüfung, der die aktuellsten öffentlich verfügbaren Datensätze auf der Grundlage einer fundierten Faktenbewertung aggregiert.
LLM-Rangliste	LLM-Leaderboard ist eine gemeinsame Gemeinschaftsinitiative zur Erstellung einer zentralen Bestenliste für LLMs.
LLM-Perf-Rangliste	Das LLM-Perf Leaderboard zielt darauf ab, die Leistung von LLMs mit unterschiedlicher Hardware, Backends und Optimierungen zu vergleichen.
LMExamQA	LMExamQA ist ein Benchmarking-Framework, bei dem ein Sprachmodell als Prüfer fungiert, um Fragen zu generieren und Antworten auf referenzfreie, automatisierte Weise für eine umfassende, gerechte Bewertung zu bewerten.
LongBench	LongBench ist ein Benchmark zur Bewertung der Langzeitkontextverständnisfähigkeiten von LLMs.
Loong	Loong ist ein langfristiger Benchmark zur Bewertung der Qualitätssicherungsfähigkeiten von LLMs für mehrere Dokumente in finanziellen, rechtlichen und akademischen Szenarien.
Low-Bit-quantisierte Open-LLM-Bestenliste	Das Low-Bit Quantized Open LLM Leaderboard verfolgt und vergleicht Quantisierungs-LLMs mit verschiedenen Quantisierungsalgorithmen.
LV-Eval	LV-Eval ist ein Long-Context-Benchmark mit fünf Längenstufen und fortschrittlichen Techniken zur genauen Bewertung von LLMs bei Single-Hop- und Multi-Hop-QA-Aufgaben in zweisprachigen Datensätzen.
LucyEval	LucyEval bietet eine gründliche Bewertung der Leistung von LLMs in verschiedenen chinesischen Kontexten.
L-Bewertung	L-Eval ist ein LCLM-Bewertungsbenchmark (Long Context Language Model) zur Bewertung der Leistung bei der Verarbeitung umfangreicher Kontexte.
M3KE	M3KE ist ein umfangreicher mehrstufiger Wissensbewertungsbenchmark für mehrere Fächer, um das von chinesischen LLMs erworbene Wissen zu messen.
Metakritik	MetaCritique ist ein Richter, der von Menschen verfasste oder von LLMs generierte Kritik bewerten kann, indem er Kritik generiert.
MINZE	MINT ist ein Benchmark zur Bewertung der Fähigkeit von LLMs, Aufgaben mit Multi-Turn-Interaktionen mithilfe von Tools und der Nutzung von Feedback in natürlicher Sprache zu lösen.
Fata Morgana	Mirage ist ein Maßstab für die erweiterte Generierung medizinischer Informationsabrufe. Es enthält 7.663 Fragen aus fünf medizinischen QS-Datensätzen und wurde mit 41 Konfigurationen unter Verwendung des MedRag-Toolkits getestet.
MedBench	MedBench ist ein Benchmark zur Bewertung der Beherrschung von Wissen und Argumentationsfähigkeiten in medizinischen LLMs.
MedS-Bank	MedS-Bench ist ein medizinischer Benchmark, der LLMs in 11 Aufgabenkategorien anhand von 39 verschiedenen Datensätzen bewertet.
Meta Open LLM-Rangliste	Die Meta Open LLM-Bestenliste dient als zentraler Knotenpunkt für die Konsolidierung von Daten aus verschiedenen offenen LLM-Bestenlisten auf einer einzigen, benutzerfreundlichen Visualisierungsseite.
MIMIC-Rangliste für klinische Entscheidungsfindung	Das MIMIC Clinical Decision Making Leaderboard verfolgt und bewertet LLms in realistischer klinischer Entscheidungsfindung für abdominale Pathologien.
MixEval	MixEval ist ein Benchmark zur Bewertung von LLMs durch die strategische Mischung handelsüblicher Benchmarks.
ML.ENERGY-Rangliste	Das ML.ENERGY Leaderboard bewertet den Energieverbrauch von LLMs.
MMedBench	MMedBench ist ein medizinischer Benchmark zur Bewertung von LLMs im mehrsprachigen Verständnis.
MMLU	MMLU ist ein Benchmark zur Bewertung der Leistung von LLMs bei einer Vielzahl von Aufgaben zum Verstehen natürlicher Sprache.
MMLU-Bestenliste nach Aufgaben	Das MMLU-by-task Leaderboard bietet eine Plattform zum Bewerten und Vergleichen verschiedener ML-Modelle für verschiedene Sprachverständnisaufgaben.
MMLU-Pro	MMLU-Pro ist eine anspruchsvollere Version von MMLU zur Bewertung der Argumentationsfähigkeiten von LLMs.
ModelScope LLM-Rangliste	ModelScope LLM Leaderboard ist eine Plattform zur objektiven und umfassenden Bewertung von LLMs.
Modellbewertungs-Rangliste	Das Model Evaluation Leaderboard verfolgt und bewertet Textgenerierungsmodelle basierend auf ihrer Leistung in verschiedenen Benchmarks mithilfe des Mosaik-Eval-Gauntlet-Frameworks.
MSNP-Bestenliste	Das MSNP Leaderboard verfolgt und bewertet die Leistung quantisierter GGUF-Modelle auf verschiedenen GPU- und CPU-Kombinationen mithilfe von Einzelknoten-Setups über Ollama.
MSTEB	MSTEB ist ein Maßstab zur Messung der Leistung von Texteinbettungsmodellen auf Spanisch.
MTBB	MTEB ist ein wichtiger Maßstab für die Messung der Leistung von Texteinbettungsmodellen bei verschiedenen Einbettungsaufgaben in 112 Sprachen.
MTB-Arena	MTEB Arena beherbergt eine Modellarena für die dynamische, reale Bewertung von Einbettungsmodellen durch benutzerbasierte Abfrage- und Abrufvergleiche.
MT-Bench-101	MT-Bench-101 ist ein feinkörniger Benchmark zur Bewertung von LLMs in Multi-Turn-Dialogen.
MEINE malaiische LLM-Bestenliste	MY Malay LLM Leaderboard zielt darauf ab, offene LLMs zu malaiischen Aufgaben zu verfolgen, zu bewerten und zu bewerten.
NoCha	NoCha ist ein Benchmark zur Bewertung, wie gut Langzeitkontext-Sprachmodelle Behauptungen über fiktionale Bücher überprüfen können.
NPHardeval	NPHardEval ist ein Benchmark zur Bewertung der Argumentationsfähigkeiten von LLMs durch die Linse rechnerischer Komplexitätsklassen.
Occiglot Euro LLM-Rangliste	Das Occiglot Euro LLM Leaderboard vergleicht LLMs in vier Hauptsprachen aus dem Okapi-Benchmark und Belebele (Französisch, Italienisch, Deutsch, Spanisch und Niederländisch).
OlympiadeBank	OlympiadBench ist ein zweisprachiger multimodaler wissenschaftlicher Benchmark mit 8.476 Mathematik- und Physikproblemen auf Olympia-Niveau mit schrittweisen Argumentationsanmerkungen auf Expertenniveau.
OlympicArena	OlympicArena ist ein Maßstab zur Bewertung der fortgeschrittenen Fähigkeiten von LLMs in einem breiten Spektrum von Herausforderungen auf olympischem Niveau.
oobabooga	Oobabooga ist ein Benchmark zur Durchführung wiederholbarer Leistungstests von LLMs mit der oobabooga-Web-Benutzeroberfläche.
OpenEval	OpenEval ist eine Plattformbewertung zur Bewertung chinesischer LLMs.
OpenLLM türkische Bestenliste	Die OpenLLM-Bestenliste für Türkisch verfolgt den Fortschritt und bewertet die Leistung von LLMs auf Türkisch.
Offenheits-Rangliste	Openness Leaderboard verfolgt und bewertet die Transparenz von Modellen im Hinblick auf den offenen Zugriff auf Gewichte, Daten und Lizenzen und deckt Modelle auf, die nicht den Offenheitsstandards entsprechen.
Offenheits-Rangliste	Openness Leaderboard ist ein Tool, das die Offenheit von anweisungsgesteuerten LLMs verfolgt und deren Transparenz, Daten und Modellverfügbarkeit bewertet.
OpenResearcher	OpenResearcher enthält die Benchmarking-Ergebnisse zu verschiedenen RAG-bezogenen Systemen als Bestenliste.
Öffnen Sie die arabische LLM-Bestenliste	Das Open Arabic LLM Leaderboard verfolgt den Fortschritt und bewertet die Leistung von LLMs auf Arabisch.
Öffnen Sie die chinesische LLM-Bestenliste	Das Open Chinese LLM Leaderboard zielt darauf ab, offene chinesische LLMs zu verfolgen, zu bewerten und zu bewerten.
Öffnen Sie die CoT-Bestenliste	Das Open CoT Leaderboard verfolgt die Fähigkeiten von LLMs, effektive Gedankenketten-Argumentationsspuren zu generieren.
Öffnen Sie die niederländische LLM-Bewertungs-Rangliste	Das Open Dutch LLM Evaluation Leaderboard verfolgt den Fortschritt und bewertet die Leistung von LLMs auf Niederländisch.
Öffnen Sie das Financial LLM Leaderboard	Ziel des Open Financial LLM Leaderboard ist es, die Leistung von Finanz-LLMs zu bewerten und zu vergleichen.
Öffnen Sie die ITA LLM-Bestenliste	Das Open ITA LLM Leaderboard verfolgt den Fortschritt und bewertet die Leistung von LLMs auf Italienisch.
Öffnen Sie die Ko-LLM-Bestenliste	Das Open Ko-LLM Leaderboard verfolgt den Fortschritt und bewertet die Leistung von LLMs auf Koreanisch.
Öffnen Sie die LLM-Bestenliste	Das Open LLM Leaderboard verfolgt den Fortschritt und bewertet die Leistung von LLMs auf Englisch.
Öffnen Sie die Medical-LLM-Bestenliste	Das Open Medical-LLM Leaderboard zielt darauf ab, offene LLMs im medizinischen Bereich zu verfolgen, zu bewerten und zu bewerten.
Öffnen Sie die MLLM-Bestenliste	Open MLLM Leaderboard zielt darauf ab, LLMs und Chatbots zu verfolgen, zu bewerten und zu bewerten.
Öffnen Sie die MOE LLM-Bestenliste	Das OPEN MOE LLM Leaderboard bewertet die Leistung und Effizienz verschiedener Mixture of Experts (MoE) LLMs.
Öffnen Sie die Bestenliste für die mehrsprachige LLM-Bewertung	Das Open Multilingual LLM Evaluation Leaderboard verfolgt den Fortschritt und bewertet die Leistung von LLMs in mehreren Sprachen.
Öffnen Sie die PL LLM-Bestenliste	Open PL LLM Leaderboard ist eine Plattform zur Bewertung der Leistung verschiedener LLMs auf Polnisch.
Öffnen Sie die portugiesische LLM-Bestenliste	Das Open PT LLM Leaderboard zielt darauf ab, LLMs in den portugiesischsprachigen Aufgaben zu bewerten und zu vergleichen.
Öffnen Sie die LLM-Rangliste für Taiwan	Die Open Taiwan LLM-Bestenliste zeigt die Leistung von LLMs bei verschiedenen Aufgaben zum Verstehen der taiwanesischen Mandarin-Sprache.
Open-LLM-Bestenliste	Open-LLM-Leaderboard bewertet LLMs in Bezug auf Sprachverständnis und Argumentation durch den Übergang von Multiple-Choice-Fragen (MCQs) zu Fragen im offenen Stil.
OPUS-MT-Dashboard	OPUS-MT Dashboard ist eine Plattform zum Verfolgen und Vergleichen maschineller Übersetzungsmodelle über mehrere Sprachpaare und Metriken hinweg.
OP-Bank	OR-Bench ist ein Benchmark zur Bewertung der übermäßigen Ablehnung erhöhter Sicherheit in LLMs.
ParsBench	ParsBench bietet Toolkits zum Benchmarking von LLMs basierend auf der persischen Sprache.
Persische LLM-Rangliste	Das „Persian LLM Leaderboard“ bietet eine zuverlässige Bewertung von LLMs in persischer Sprache.
Pinocchio ITA-Rangliste	Die Pinocchio ITA-Bestenliste verfolgt und bewertet LLMs in italienischer Sprache.
PL-MTEB	PL-MTEB (Polish Massive Text Embedding Benchmark) ist ein Benchmark für die Bewertung von Texteinbettungen in Polnisch in 28 NLP-Aufgaben.
Polnische medizinische Rangliste	Das Polish Medical Leaderboard bewertet Sprachmodelle bei polnischen Zertifizierungsprüfungen.
Powered-by-Intel LLM-Bestenliste	Das Powered-by-Intel LLM Leaderboard bewertet, bewertet und ordnet LLMs, die auf Intel-Hardware vorab trainiert oder optimiert wurden.
PubMedQA	PubMedQA ist ein Benchmark zur Bewertung der Beantwortung biomedizinischer Forschungsfragen.
PromptBench	PromptBench ist ein Benchmark zur Bewertung der Robustheit von LLMs bei kontroversen Eingabeaufforderungen.
QAConv	QAConv ist ein Benchmark für die Beantwortung von Fragen unter Verwendung komplexer, domänenspezifischer und asynchroner Konversationen als Wissensquelle.
Qualität	QUALITÄT ist ein Maßstab für die Bewertung der Beantwortung von Multiple-Choice-Fragen mit einem langen Kontext.
KANINCHEN	RABBITS ist ein Benchmark zur Bewertung der Robustheit von LLMs, indem der Umgang mit Synonymen, insbesondere Marken- und generischen Arzneimittelnamen, bewertet wird.
Rakuda	Rakuda ist ein Benchmark, um LLMs zu bewerten, basierend darauf, wie gut sie eine Reihe offener Fragen zu japanischen Themen beantworten.
Redteam Arena	Die Redteam Arena ist eine Red-Team-Plattform für LLMs.
RED -Teaming Resistance Benchmark	Red Teaming Resistance Benchmark ist ein Maßstab, um die Robustheit von LLMs gegen Red -Teaming -Eingaben zu bewerten.
REST-MCTS*	REST-MCTS* ist eine verstärkte Selbsttraining-Methode, die die Inferenz für Baumsuche und -prozessbelohnungen verwendet, um qualitativ hochwertige Argumentationsspuren für Schulungsrichtlinien und Belohnungsmodelle ohne manuelle Schrittanmerkungen zu sammeln.
Rezensent Arena	Die Rezensent -Arena veranstaltet die Rezensentser Arena, in der verschiedene LLMs aufgrund ihrer Leistung bei der Kritik von akademischen Papieren konkurrieren.
Roleeval	Roleeval ist ein zweisprachiger Benchmark, um die Fähigkeiten des Auswendiglernens, der Nutzung und der Argumentation des Rollenkenntnisses von LLMs zu bewerten.
Rpbench Rangliste	Rpbench-Auto ist eine automatisierte Pipeline für die Bewertung von LLMs mit 80 Personae für charakterbasierte und 80 Szenen für das szenenbasierte Rollenspiel.
Russische Chatbot Arena	Die Chatbot Arena veranstaltet eine Chatbot -Arena, in der verschiedene LLMs auf der Grundlage der Benutzerzufriedenheit in Russisch konkurrieren.
Russischer Sprungkleber	Russian Seclue ist ein Benchmark für russische Sprachmodelle, der sich auf Logik-, Gemeinden- und Argumentationsaufgaben konzentriert.
R-Judge	R-Judge ist ein Benchmark, um die Kompetenz von LLMs bei der Beurteilung und Identifizierung von Sicherheitsrisiken mit den Aufzeichnungen zwischen Agenten zu bewerten.
Sicherheitsaufforderungen	Sicherheitsanträge sind ein Maßstab zur Bewertung der Sicherheit chinesischer LLMs.
SafetyBench	SafetyBench ist ein Benchmark, um die Sicherheit von LLMs zu bewerten.
Salatbank	Salatbank ist ein Maßstab für die Bewertung der Sicherheit und Sicherheit von LLMs.
Skandalisch	Scandeval ist ein Maßstab für die Bewertung von LLMs bei Aufgaben in skandinavischen Sprachen sowie Deutsch, Niederländisch und Englisch.
Wissenschaftsrangliste	Science Boaderboard ist eine Plattform, um die Funktionen von LLMs zu bewerten, um wissenschaftliche Probleme zu lösen.
Sciglm	ScigLM ist eine Reihe wissenschaftlicher Sprachmodelle, die einen selbstreflektierenden Annotationsrahmen für den Anmerkungsanschlag verwenden, um wissenschaftliche Argumentation zu verbessern, indem sie Schritt-für-Schritt-Lösungen für unbeschreibete Fragen generiert und überarbeitet.
Sciknoweval	Sciknoweval ist ein Maßstab für die Bewertung von LLMs auf der Grundlage ihrer Kenntnisse, um ausgiebig zu untersuchen, ernsthaft nachzudenken, zutiefst nachzudenken, klar zu erkennen und sie angenehm zu praktizieren.
Schriftrollen	Scrolls ist ein Benchmark, um die Argumentationsfunktionen von LLMs über lange Texte zu bewerten.
Seseexam	SeaExam ist ein Maßstab für die Bewertung von LLMs für südostasiatische Sprachen (Sea).
Seal LLM -Bestenlisten	Seal LLM Bestelisten ist eine kompetent motivierte private Bewertungsplattform für LLMs.
Meereseel	Seeeval ist ein Benchmark, um die Leistung von mehrsprachigen LLMs im Verständnis und zum Denken mit natürlicher Sprache zu bewerten und kulturelle Praktiken, Nuancen und Werte zu verstehen.
See Helm	Sea Helm ist eine Benchmark, um die Leistung von LLMs in englischen und südostasiatischen Aufgaben zu bewerten und sich auf Chat, Anweisungen und sprachliche Fähigkeiten zu konzentrieren.
SECVAL	SECEVAL ist ein Benchmark, um das Wissen über Cybersicherheit über Grundmodelle zu bewerten.
Selbstverbesserte Rangliste	Die Selbstverträglichkeit (SIL) ist eine dynamische Plattform, die Testdatensätze und Ranglisten kontinuierlich aktualisiert, um Echtzeit-Leistungserkenntnisse für Open-Source-LLMs und Chatbots bereitzustellen.
Spec-Bench	Spec-Bench ist ein Benchmark, um spekulative Decodierungsmethoden in verschiedenen Szenarien zu bewerten.
Strukturval	Strukturval ist ein Maßstab zur Bewertung von LLMs, indem strukturierte Bewertungen über mehrere kognitive Ebenen und kritische Konzepte hinweg durchgeführt werden.
Subquadratische LLM -Rangliste	Die subquadratische LLM-Rangliste bewertet LLMs mit subquadratischen/aufmerksamkeitsfreien Architekturen (IE RWKV & Mamba).
Superbench	Superbench ist ein umfassendes System von Aufgaben und Abmessungen, um die Gesamtkapazitäten von LLMs zu bewerten.
Superklebe	SuperGlue ist ein Benchmark, um die Leistung von LLMs an einer Reihe herausfordernder Aufgaben des Sprachverständnisses zu bewerten.
Superlim	Superlim ist ein Benchmark, um die Funktionen des Sprachverständnisses von LLMs auf Schwedisch zu bewerten.
Swahili LLM-Leaderboard	Swahili LLM-Leaderboard ist eine gemeinsame Gemeinschaftsanstrengung, um eine zentrale Rangliste für LLMs zu schaffen.
S-eval	S-EVAL ist ein umfassender, mehrdimensionaler Sicherheitsbenchmark mit 220.000 Eingabeaufforderungen, die die LLM-Sicherheit über verschiedene Risikoabmessungen hinweg bewerten sollen.
TableQaEval	TableQaEVAL ist ein Benchmark, um die LLM-Leistung in der Modellierung langer Tabellen und Verständnisfunktionen wie numerisches und Multi-Hop-Denken zu bewerten.
Tat-dqa	TAT-DQA ist ein Maßstab zur Bewertung von LLMs in der diskreten Argumentation über Dokumente, die sowohl strukturierte als auch unstrukturierte Informationen kombinieren.
Tat-qa	TAT-QA ist ein Maßstab zur Bewertung von LLMs im diskreten Denken über Dokumente, die sowohl tabellarische als auch textbezogene Inhalte kombinieren.
Thai LLM Rangliste	Thai LLM Langoupboard zielt darauf ab, LLMs in den thailändischsprachigen Aufgaben zu verfolgen und zu bewerten.
Der Stapel	Der Stapel ist ein Benchmark, um die Fähigkeit des Weltwissens und der Argumentation von LLMs zu bewerten.
TOFU	Tofu ist ein Benchmark, um die Verurnungsleistung von LLMs in realistischen Szenarien zu bewerten.
Toloka LLM Rangliste	Die Toloka LLM -Rangliste ist ein Maßstab zur Bewertung von LLMs auf der Grundlage authentischer Benutzeraufforderungen und der Experten -Humanbewertung.
ToolBench	ToolBench ist eine Plattform zum Training, Servieren und Bewertung von LLMs speziell zum Tool -Lernen.
Toxizitätsgrenze	Die Toxizitätsgrenze bewertet die Toxizität von LLMs.
Trustbit LLM Bestenlisten	Trustbit LLM Bestaderboards ist eine Plattform, die Benchmarks für den Bau und den Versand von Produkten mit LLMs bietet.
Trustllm	Trustllm ist eine Benchmark, um die Vertrauenswürdigkeit von LLMs zu bewerten.
Turingadvice	Turingadvice ist ein Maßstab für die Bewertung der Fähigkeit der Sprachmodelle, hilfreiche Ratschläge für reale, offene Situationen zu generieren.
Tutoreval	Tutoreval ist eine Fragen zur Beantwortung, die bewertet, wie gut ein LLM-Tutor einem Benutzer helfen kann, ein Kapitel aus einem wissenschaftlichen Lehrbuch zu verstehen.
T-Eval	T-Eval ist ein Benchmark für die Bewertung der Werkzeugauslastungsfähigkeit von LLMs.
UGI Rangliste	UGI Langlöhe misst und vergleicht die unzensierten und kontroversen Informationen, die von LLMs bekannt sind.
Ultraeval	Ultraeval ist ein Open-Source-Framework für transparente und reproduzierbare Benchmarking von LLMs über verschiedene Leistungsabmessungen hinweg.
VALS AI	VALS AI ist eine Plattform, die generative AI-Genauigkeit und Wirksamkeit bei realen Rechtsaufgaben bewertet.
Videorecorder	Visual Commonsense-Argumentation (VCR) ist ein Benchmark für das visuelle Verständnis auf Kognitionsebene, wodurch Modelle zur Beantwortung visueller Fragen und zur Bereitstellung von Rationalen für ihre Antworten erforderlich sind.
Vidore	Vidore ist ein Maßstab für die Bewertung von Abrufmodellen für ihre Kapazität, um Abfragen auf relevante Dokumente auf Seitenebene abzustimmen.
Vllms Rangliste	Vllms Bohrlochboard zielt darauf ab, offene LLMs und Chatbots zu verfolgen, zu rangieren und zu bewerten.
VMLU	VMLU ist ein Benchmark, um die Gesamtkapazitäten von Fundamentmodellen auf Vietnamesisch zu bewerten.
Wildbench	Wildbench ist ein Benchmark für die Bewertung von Sprachmodellen für herausfordernde Aufgaben, die realen Anwendungen ähneln.
Xiezhi	Xiezhi ist ein Benchmark für eine ganzheitliche Domänenwissenbewertung von LLMs.
Yanolja Arena	Yanolja Arena veranstalten eine Modellarena, um die Fähigkeiten von LLMs bei der Zusammenfassung und Übersetzung von Text zu bewerten.
Noch eine LLM -Rangliste	Eine weitere LLM -Rangliste ist eine Plattform zum Verfolgen, Ranking und Bewerten von offenen LLMs und Chatbots.
Zebralogie	Zebralogisch ist ein Benchmark, das die logische Argumentation von LLMs unter Verwendung von Logic Grid -Rätseln, eine Art von Einschränkungszufriedenheitsproblemen (CSP), bewertet.
Nullenumzeiten	Zerosumeval ist ein Wettbewerbsbewertungsrahmen für LLMs unter Verwendung von Multiplayer -Simulationen mit klaren Gewinnbedingungen.

Bild

Name	Beschreibung
Zusammenfassung Bild	Abstract Image ist ein Maßstab zur Bewertung multimodaler LLMs (MLLM) im Verständnis und visuell argumentieren über abstrakte Bilder wie Karten, Diagramme und Layouts.
Aesbench	Aesbench ist ein Benchmark, um MLLMS auf die Wahrnehmung der Bildästhetik zu bewerten.
BLINKEN	Blink ist ein Benchmark, um die visuellen Wahrnehmungsfähigkeiten von MLLMs zu bewerten.
Blinkcode	Blinkcode ist ein Maßstab zur Bewertung von MLLMS über 15 Sichtsprachmodelle (VLMs) und 9 Aufgaben, die Genauigkeit und Bildrekonstruktionsleistung messen.
Kümmert sich	Cares ist eine Benchmark, um die Vertrauenswürdigkeit von Med-LVLMs über Vertrauen, Fairness, Sicherheit, Privatsphäre und Robustheit unter Verwendung von 41K-Fragen-Antwortenpaaren aus 16 medizinischen Bildmodalitäten und 27 anatomischen Regionen zu bewerten.
Chartmimie	Chartmimic ist ein Benchmark, um die visuell gegründeten Coding-Erzeugungsfunktionen großer multimodaler Modelle mithilfe von Diagrammen und Textanweisungen zu bewerten.
Charxiv	Charxiv ist ein Benchmark, um die Funktionen des Diagramms von MLLMs zu bewerten.
Kontext	Kontext ist ein Benchmark, um MLLMs über kontextsensitive textreiche visuelle Argumentationsaufgaben zu bewerten.
Kernmm	Core-MM ist ein Benchmark, um die VQA-Funktionen der offenen visuellen Fragen zu bewerten.
DreamBench ++	DreamBench ++ ist ein von Menschen ausgerichteter Benchmark, das von multimodalen Modellen für die personalisierte Bildgenerierung automatisiert wurde.
Egoplan-Bank	Egoplan-Bank ist ein Maßstab für die Bewertung der Planungsfähigkeiten von MLLMs in realen, egozentrischen Szenarien.
Glitchbench	Glitchbench ist ein Benchmark, um die Argumentationsfunktionen von MLLMs im Zusammenhang mit der Erkennung von Videospielfehlern zu bewerten.
HallusionBench	HallusionBench ist ein Benchmark, um die Bildkontext-Argumentationsfunktionen von MLLMs zu bewerten.
Infimm-Eval	Infimm-Eval ist ein Maßstab zur Bewertung der offenen VQA-Funktionen von Mllms.
LRVSF -Rangliste	Die LRVSF -Rangliste ist eine Plattform zur Bewertung von LLMs in Bezug auf Bildähnlichkeitssuche in der Mode.
LVLM -Rangliste	Die LVLM -Rangliste ist eine Plattform zur Bewertung der visuellen Argumentationsfunktionen von MLLMs.
M3COT	M3COT ist ein Benchmark für Multi-Domänen-Multi-Step-Multi-Modal-Kette von MLLMs.
Erinnerungsstück	Mementos ist ein Benchmark, um die Argumentationsfunktionen von MLLMs über Bildsequenzen zu bewerten.
MJ-Bench	MJ-Bench ist ein Maßstab für die Bewertung multimodaler Richter bei der Bereitstellung von Feedback für Bildgenerierungsmodelle in vier wichtigen Perspektiven: Ausrichtung, Sicherheit, Bildqualität und Verzerrung.
Mllm-as-a-richter	Mllm-as-a-Judge ist ein Maßstab mit menschlichen Anmerkungen zur Bewertung von MLLMS-Beurteilungsfähigkeiten für Bewertungs-, Paarvergleichs- und Batch-Ranking-Aufgaben über multimodale Domänen hinweg.
Mllm-Bank	MLLM-Bench ist ein Benchmark, um die visuellen Argumentationsfunktionen von MLVMs zu bewerten.
Mmbench Rangliste	MMBench Bohrlochboard ist eine Plattform, um die visuellen Argumentationsfunktionen von MLLMs zu bewerten.
Mme	MME ist ein Benchmark, um die visuellen Argumentationsfunktionen von MLLMs zu bewerten.
Mme-realworld	MME-Realworld ist ein großflächiger, hochauflösender Benchmark mit 29.429 QA-Paaren mit menschlichem Anbieter bei 43 Aufgaben.
Mmiu	MMIU (Ultimodal Multi-Image-Verständnis) ist ein Benchmark, um MLLMS über 7 Multi-Image-Beziehungen, 52 Aufgaben, 77K-Bilder und 11K-kuratierte Multiple-Choice-Fragen zu bewerten.
MMMU	MMMU ist ein Benchmark, um die Leistung multimodaler Modelle für Aufgaben zu bewerten, die Fachwissen und Expertengründen auf College-Ebene in verschiedenen Disziplinen fordern.
MMR	MMR ist ein Benchmark, um die Robustheit von MLLMs im visuellen Verständnis zu bewerten, indem sie ihre Fähigkeit bewertet, führende Fragen zu bearbeiten, und nicht nur die Genauigkeit bei der Beantwortung.
Mmssearch	MMSearch ist ein Benchmark, um die multimodale Suchleistung von LMMs zu bewerten.
Mmstar	MMSTAR ist ein Benchmark, um die multimodalen Kapazitäten von MLLMs zu bewerten.
MMT-Bench	MMT-Bench ist ein Benchmark, um MLLMs in einer Vielzahl multimodaler Aufgaben zu bewerten, für die Expertenkenntnisse sowie absichtliche visuelle Erkennung, Lokalisierung, Argumentation und Planung erforderlich sind.
Mm-niah	MM-NIAH (Nadel in einem multimodalen Heuhaufen) ist ein Benchmark, um die Fähigkeit von MLLMS zu bewerten, lange multimodale Dokumente durch Abruf-, Zähl- und Argumentationsaufgaben mit Text- und Bilddaten zu verstehen.
MTVQA	MTVQA ist eine mehrsprachige Benchmark für visuelles Textverständnis zur Bewertung von MLLMs.
Multimodal Halluzination Rangliste	Die multimodale Halluzinations -Rangliste vergleicht MLLMs auf der Grundlage der Halluzinationsniveaus in verschiedenen Aufgaben.
Multi-Benchmark	Multi-Benchmark ist ein Benchmark, um MLLMs zum Verständnis komplexer Tabellen und Bilder zu bewerten und mit langem Kontext zu argumentieren.
Multitrust	Multitrust ist ein Benchmark, um die Vertrauenswürdigkeit von MLLMs über fünf Hauptaspekte hinweg zu bewerten: Wahrhaftigkeit, Sicherheit, Robustheit, Fairness und Privatsphäre.
NPhardeVal4V	NPhardeVal4V ist ein Maßstab zur Bewertung der Argumentationsfähigkeiten von MLLMs durch die Linse der Rechenkomplexitätsklassen.
Anbieter -Rangliste	LLM API -Anbieter Ranglastboard ist eine Plattform, um die Leistung der API -Anbieter für über LLM -Endpunkte über die Leistungsschlüsselmetriken hinweg zu vergleichen.
Ocrbench	Ocrbench ist ein Benchmark, um die OCR -Funktionen multimodaler Modelle zu bewerten.
PCA-Bank	PCA-Bench ist ein Benchmark, um die verkörperten Entscheidungsfunktionen multimodaler Modelle zu bewerten.
Q-Bench	Q-Bench ist ein Benchmark, um die visuellen Argumentationsfunktionen von MLLMs zu bewerten.
Belohnung	Belohnung ist ein Benchmark, um die Fähigkeiten und die Sicherheit von Belohnungsmodellen zu bewerten.
Scienceqa	ScienceQA ist ein Benchmark, der zur Bewertung der Fähigkeit und Interpretierbarkeit von AI-Systemen in mehreren Hop-Argumenten im Zusammenhang mit der Beantwortung wissenschaftlicher Fragen verwendet wird.
Scigraphqa	Scigraphqa ist ein Benchmark, um die MLLMs in der Frage zu bewerten.
Samenbank	Saatgutbank ist ein Benchmark, um den Text und die Bilderzeugung multimodaler Modelle zu bewerten.
Urial	URIAL ist ein Benchmark, um die Kapazität von Sprachmodellen für die Ausrichtung zu bewerten, ohne die Faktoren der Feinabstimmung (Lernrate, Daten usw.) einzuführen, die für faire Vergleiche schwer zu kontrollieren sind.
Upda -Rangliste	Upda Boaderboard ist eine Plattform, um die Vertrauenswürdigkeit von MLLMs bei unlösbarer Problemerkennung zu bewerten.
Vibe-Eval	Vibe-Eval ist ein Benchmark, um MLLMs für herausfordernde Fälle zu bewerten.
Videohallucer	Videohallucer ist ein Maßstab für die Erkennung von Halluzinationen in Mllms.
Besuchen Sie die Bank	Visit Bench ist ein Benchmark, um die Anweisungsfunktionen von MLLMS für die Verwendung von realer Welt zu bewerten.
Waymo Open Dataset Challenges	Waymo Open Dataset Challenges sind verschiedene selbstfahrende Datensätze zur Bewertung von ML-Modellen.
HOPPLA!	HOPPLA! ist eine Benchmark, um die visuellen Argumentationsfähigkeiten von Mllms zu bewerten.
Wildvision-Bank	Wildvision-Bench ist ein Benchmark, um VLMs in freier Wildbahn mit menschlichen Vorlieben zu bewerten.
Wildvision Arena	Die Wildvision Arena moderiert die Chatbot -Arena, in der verschiedene MLLMs basierend auf ihrer Leistung im visuellen Verständnis konkurrieren.

Code

Name	Beschreibung
Aider LLM Bestenlisten	Aider LLM Bestenlisten bewerten die Fähigkeit von LLM, Systemaufforderungen zum Bearbeiten von Code zu befolgen.
Appworld	AppWorld ist eine hochwertige Ausführungsumgebung von 9 täglichen Apps, die über 457 APIs betrieben werden und mit digitalen Aktivitäten von ~ 100 Menschen in einer simulierten Welt bevölkert werden.
Berkeley Function Calling Ranglastboard	Die Berkeley-Funktionshalle-Ahrförderung bewertet die Fähigkeit von LLMs, Funktionen (auch als Tools bezeichnet) genau aufzurufen.
BigcodeBench	BigCodeBench ist ein Benchmark für die Codegenerierung mit praktischen und herausfordernden Programmieraufgaben.
Big Code Models Rangliste	Big Code-Models Rangliste ist eine Plattform, um die Leistung von LLMs bei Code-bezogenen Aufgaben zu verfolgen und zu bewerten.
VOGEL	Bird ist ein Benchmark, um die Leistung von Text-to-SQL-Parsing-Systemen zu bewerten.
Booksql	Booksql ist ein Maßstab für die Bewertung von Text-to-SQL-Systemen im Finanz- und Buchhaltungsbereich in verschiedenen Branchen mit einem Datensatz von 1 Million Transaktionen von 27 Unternehmen.
Canaicode -Rangliste	Canaicode Bohrlochboard ist eine Plattform zur Bewertung der Coding -Erzeugungsfunktionen von LLMs.
Klasseval	Classeval ist ein Maßstab für die Bewertung von LLMs auf Codegenerierung auf Klassenebene.
Codeapex	CodeApex ist ein Benchmark, um das Programmierverständnis von LLMs durch Multiple-Choice-Fragen und die Codegenerierung mit C ++-Algorithmusproblemen zu bewerten.
Codescope	Codescope ist ein Benchmark, um die LLM -Codierungsfunktionen in 43 Sprachen und 8 Aufgaben zu bewerten, unter Berücksichtigung von Schwierigkeiten, Effizienz und Länge.
CodetRansocean	CodetRansocean ist ein Benchmark, um die Codeübersetzung in einer Vielzahl von Programmiersprachen zu bewerten, darunter populäre, Nischen- und LLM-translatierte Code.
Code Lingua	Code Lingua ist ein Benchmark, um die Fähigkeit von Codemodellen zu vergleichen, zu verstehen, was der Code in Quellsprachen implementiert, und die gleiche Semantik in Zielsprachen zu übersetzen.
Codierung von LLMs Rangliste	Coding LLMS Bohrloch ist eine Plattform, um LLMs in verschiedenen Programmieraufgaben zu bewerten und zu rangieren.
Commit-0	Commit-0 ist eine Herausforderung für die KI-Codierung aus der Ki, um 54 Kernpython-Bibliotheken wieder aufzubauen, um sicherzustellen, dass sie Unit-Tests mit signifikanter Testabdeckung, Lint-/Typ-Überprüfung und Cloud-basierter verteilter Entwicklung bestehen.
Kernkreuze	Cruxeval ist ein Maßstab zur Bewertung von Codes -Argumentations-, Verständnis- und Ausführungsfunktionen von LLMs.
Cspider	Cspider ist ein Benchmark, um die Fähigkeit der Systeme zu bewerten, SQL-Abfragen aus chinesischen natürlichen Sprache in verschiedenen Datenbanken in verschiedenen, komplexen und Cross-Domain-Datenbanken zu erzeugen.
Cyberseceval	Cyberseceval ist ein Benchmark, um die Cybersicherheit von LLMs als Codierungsassistenten zu bewerten.
DevOps AI Assistent Offene Rangliste	DevOps AI Assistent Open Bohrlochboard Tracks, Ranglisten und Bewertungen von DevOps AI Assistenten über Wissensbereiche hinweg.
DevOps-Eval	DevOps-Eval ist ein Benchmark, um Codemodelle im Bereich DevOps/AIOPS zu bewerten.
Domaine	DomaineVal ist ein automatisch konstruierter Benchmark für die Erzeugung von Multi-Domänen-Code.
Dr.spider	Dr.Spider ist ein Benchmark, um die Robustheit von Text-zu-SQL-Modellen anhand verschiedener Störungstestsätze zu bewerten.
Effichenen	Effiberch ist ein Benchmark, um die Effizienz von LLMs in der Codegenerierung zu bewerten.
Evalplus	EvalPlus ist ein Benchmark, um die Coding -Erzeugungsleistung von LLMs zu bewerten.
EvocodeBench	EvocodeBench ist ein Benchmark für evolutionäre Codegenerierung, der mit realen Code-Repositorys ausgerichtet ist.
Evoeval	Evoeval ist ein Benchmark, um die Codierungsfähigkeiten von LLMs zu bewerten, die durch die Entwicklung vorhandener Benchmarks in verschiedene gezielte Domänen erzeugt werden.
Infiby	InfiBench ist ein Maßstab für die Bewertung von Codemodellen zur Beantwortung von Code-bezogenen Fragen der Freiform.
Intercode	Intercode ist ein Benchmark, um die interaktive Codierung mit Ausführungsfeedback zu standardisieren und zu bewerten.
Julia LLM Rangliste	Julia LLM Bohrlochboard ist eine Plattform, um die Fähigkeiten von Codemodellen bei der Generierung syntaktisch korrekter Julia -Code zu vergleichen, wobei strukturierte Tests und automatisierte Bewertungen für einfache und kollaborative Benchmarking vorgestellt werden.
LivecodeBench	LiveCodeBench ist ein Benchmark, um Codemodelle über die Code-bezogenen Szenarien hinweg zu bewerten.
Lange Codearena	Long Code Arena ist eine Reihe von Benchmarks für Code-bezogene Aufgaben mit großen Kontexten bis zu einem ganzen Code-Repository.
McEval	MCEVAL ist ein massiv mehrsprachiger Code -Bewertungsbenchmark für 40 Sprachen (16K -Beispiele in 44 insgesamt), das mehrsprachige Codegenerierung, mehrsprachige Codeerklärung und mehrsprachige Code -Abschlussaufgaben umfasst.
Auswendiglernen oder Erzeugung großer Codemodelle Rangliste	Auswendigart oder Generierung von Big Code -Modellen Rangliste Tracks und Vergleiche der Leistung der Codegenerierung.
Multi-Swee-Bench	Multi-Swee-Bench ist ein Multi-Lingual-Github-Problem, das Benchmark für Code-Agenten auflöst.
NaturalcodeBench	NaturalcodeBench ist ein Benchmark, um die Komplexität und Vielfalt der Szenarien bei realen Codierungsaufgaben zu widerspiegeln.
Nexus -Funktion rufen Rangliste an	Nexus Function Calling Ranging Boardboard ist eine Plattform, um Codemodelle zum Aufrufen von Funktionen und API -Verwendung zu bewerten.
NL2SQL360	NL2SQL360 ist ein umfassendes Bewertungsrahmen zum Vergleich und Optimieren von NL2SQL -Methoden in verschiedenen Anwendungsszenarien.
PECC	PECC ist ein Benchmark, der die Codegenerierung bewertet, indem Modelle erforderlich sind, um Problemanforderungen aus narrativbasierten Beschreibungen zur Erzeugung syntaktisch genauer Lösungen zu erfassen und zu extrahieren.
Prollm -Benchmarks	Prollm Benchmarks ist ein praktischer und zuverlässiger LLM-Benchmark, der für reale Unternehmensanwendungsfälle in mehreren Branchen und Programmiersprachen entwickelt wurde.
Pybench	PyBench ist ein Benchmark, das LLM bei realen Codierungsaufgaben bewertet, einschließlich Diagrammanalyse, Textanalyse, Bild-/ Audiobearbeitung, komplexer Mathematik- und Software-/ Website-Entwicklung.
WETTRENNEN	Race ist ein Maßstab, um die Fähigkeit von LLMs zu bewerten, Code zu generieren, der korrekt ist und die Anforderungen der realen Entwicklungsszenarien entspricht.
Repoqa	Repoqa ist ein Benchmark, um die Fähigkeit des lang kontextkodischen Codeverständnisses von LLMs zu bewerten.
Scicode	Scicode ist ein Benchmark, mit dem Sprachmodelle bei der Generierung von Code zur Lösung realistischer wissenschaftlicher Forschungsprobleme bewertet werden.
SolidityBench	SolidityBench ist ein Benchmark, um die Fähigkeit von LLMs bei der Generierung und Prüfung von intelligenten Verträgen zu bewerten und zu bewerten.
Spinne	Spider ist ein Benchmark, um die Leistung natürlicher Sprachschnittstellen für Cross-Domain-Datenbanken zu bewerten.
Stabletoolbench	Stabletoolbench ist ein Benchmark, um das Tool-Lernen zu bewerten, das darauf abzielt, eine ausgewogene Kombination aus Stabilität und Realität zu bieten.
Sween-Bench	SWE-Bench ist ein Benchmark für die Bewertung von LLMs auf von GitHub gesammelten realen Softwareproblemen.
WebApp1k	WebApp1K ist ein Maßstab, um LLMs auf ihre Fähigkeiten zur Entwicklung realer Webanwendungen zu bewerten.
Webdev Arena	Die Webdev Arena veranstaltet eine Chatbot -Arena, in der verschiedene LLMs basierend auf der Website -Entwicklung konkurrieren.
Wildnis	Wilds ist ein Benchmark für Verteilungen in der Wilde Verteilung, die sich über verschiedene Datenmodalitäten und -anwendungen erstrecken, von der Identifizierung von Tumoren über die Überwachung der Wildtiere bis hin zur Armutskartierung.

Video

Name	Beschreibung
Chronomagische Bank	Chronomagic-Bench ist ein Benchmark, um die Fähigkeit der Videomodelle zu bewerten, Zeitraffervideos mit hoher metamorpher Amplitude und zeitlicher Kohärenz in den Bereichen Physik-, Biologie- und Chemie-Domänen unter Verwendung der freien Textkontrolle zu erzeugen.
Traum-1k	Dream-1K ist eine Benchmark, um die Leistung der Videobeschreibung auf 1.000 verschiedenen Videoclips mit reichen Ereignissen, Aktionen und Anträgen aus Filmen, Animationen, Aktienvideos, YouTube und Short-Videos im Tiktok-Stil zu bewerten.
Longvideobench	LongvideoBench ist ein Benchmark, um die Funktionen von Videomodellen bei der Beantwortung bezeichneter Argumentationsfragen zu bewerten, die von Langrahmeneingaben abhängig sind und nicht durch einen einzelnen Rahmen oder einige spärliche Frames gut angefertigt werden können.
Lvbench	Lvbench ist ein Benchmark, um multimodale Modelle für lange Videoverständnisaufgaben zu bewerten, die erweiterte Speicher- und Verständnisfunktionen erfordern.
MLVU	MLVU ist ein Benchmark, um Videomodelle im langen Videoverständnis von mehreren Aufgaben zu bewerten.
MMTOM-QA	MMTOM-QA ist ein multimodaler Benchmark, um die Maschinentheorie des Geistes (TOM) zu bewerten, die Fähigkeit, die Gedanken der Menschen zu verstehen.
Mvbench	MVBench ist ein Benchmark, um die zeitlichen Verständnisfunktionen von Videomodellen in dynamischen Videoaufgaben zu bewerten.
OpenVLM Video Rangliste	OpenVLM Video Ranglastboard ist eine Plattform, die die Bewertungsergebnisse von 30 verschiedenen VLMs für Videoverständnis -Benchmarks mithilfe des VLMevalkit -Frameworks zeigt.
Temperatur	TempCass ist ein Benchmark, um die zeitliche Wahrnehmung der Video -LLMs mit 410 Videos und 7.540 Taskanweisungen in 11 zeitlichen Aspekten und 4 Task -Typen zu bewerten.
VBench	VBench ist ein Maßstab für die Bewertung der Videogenerierungsfunktionen von Videomodellen.
Videoniah	Videoniah ist ein Benchmark, um das feinkörnige Verständnis und die räumlich-zeitlichen Modellierungsfunktionen von Videomodellen zu bewerten.
Videophy	Videophy ist ein Benchmark, um generierte Videos für die Einhaltung physischer Menschenverstand in realen materiellen Wechselwirkungen zu bewerten.
Videoscore	Videoscore ist ein Benchmark, um Text-to-Video-Generativmodelle in fünf wichtigen Dimensionen zu bewerten.
Videovista	Videovista ist ein Benchmark mit 25.000 Fragen aus 3.400 Videos in 14 Kategorien, die 19 Verständnis und 8 Argumentationsaufgaben abdecken.
Video-Bank	Die Video-Bench ist ein Benchmark, um das Video-exklusive Verständnis, die Vorkenntnissen und die Video-basierten Entscheidungsfähigkeiten von Videomodellen zu bewerten.
Video-Mme	Video-Mme ist ein Benchmark, um die Videoanalysefunktionen von Videomodellen zu bewerten.

Mathe

Name	Beschreibung
Abel	Abel ist eine Plattform zur Bewertung der mathematischen Funktionen von LLMs.
MathBench	MathBench ist ein Multi-Level-Schwierigkeitsgrad der Mathematik-Bewertungsbenchmark für LLMs.
MatheVal	MathEval ist ein Benchmark, um die mathematischen Fähigkeiten von LLMs zu bewerten.
Mathusereval	MathuSereval ist ein Benchmark mit Fragen der Universitätsprüfung und Mathematikfragen, die aus simulierten Gesprächen mit erfahrenen Annotatoren abgeleitet wurden.
Matheverse	Mathverse ist ein Maßstab für die Bewertung von Visionsprachmodellen bei der Interpretation und Begründung mit visuellen Informationen in mathematischen Problemen.
Mathvista	Mathvista ist ein Benchmark, um mathematisches Denken in visuellen Kontexten zu bewerten.
Math-V	Math-Vision (Math-V) ist ein Maßstab von 3.040 visuell kontextualisierten mathematischen Problemen aus Wettbewerben, abdeckt 16 Disziplinen und 5 Schwierigkeitsgrade, um die mathematische Argumentation von LMMS zu bewerten.
Offene mehrsprachige Argumentation	Offene mehrsprachige Argumentation, die Rangliste der Rangliste der LLMs auf mehrsprachige mathematische Argumentations -Benchmarks eröffnet.
Putnallench	Putnallench ist ein Benchmark, um die formellen mathematischen Argumentationsfähigkeiten von LLMs für den Putnam -Wettbewerb zu bewerten.
Schione	Scibench ist ein Benchmark, um die Argumentationsfähigkeiten von LLMs zur Lösung komplexer wissenschaftlicher Probleme zu bewerten.
Tabmwp	TABMWP ist ein Benchmark, um LLMs in mathematischen Argumentationsaufgaben zu bewerten, bei denen sowohl Text- als auch tabellarische Daten beteiligt sind.
Wir-math	We-Math ist ein Benchmark, um die menschlichen mathematischen Argumentationsfähigkeiten von LLMs mit Problemlösungsprinzipien zu bewerten, die über die End-to-End-Leistung hinausgehen.

Agent

Name	Beschreibung
Agentbench	Agentbench ist der Benchmark für die Bewertung von Sprachmodell-As-Agent in einem vielfältigen Spektrum verschiedener Umgebungen.
Agentstudio	AgentStudio ist eine integrierte Lösung mit ausführlichen Benchmark-Suiten, realistischen Umgebungen und umfassenden Toolkits.
Charakterval	CharakterVal ist ein Benchmark, um Rollenspiele (RPCAs) unter Verwendung von Dialogen und Charakterprofilen mit mehreren Drehungen zu bewerten, wobei Metriken vier Dimensionen überschritten haben.
GTA	GTA ist ein Benchmark, um die Werkzeugnutzungsfähigkeit von LLM-basierten Agenten in realen Szenarien zu bewerten.
Leetcode-Hard-Fitnessstudio	Das Leetcode-Hard-Fitnessstudio ist eine RL-Umgebungsschnittstelle zum Submission Server von Leetcode zur Bewertung von CodeGen-Agenten.
LLM Colosseum Rangliste	LLM Colosseum Ranglawboard ist eine Plattform zur Bewertung von LLMs, indem sie in Street Fighter 3 kämpft.
Magie	Magic ist ein Benchmark, um die Fähigkeiten von Kognition, Anpassungsfähigkeit, Rationalität und Zusammenarbeit von LLMs in Multi-Agent-SYTEMS zu messen.
Olas prognostiziert Benchmark	Olas sagt voraus, dass Benchmark ein Benchmark für die Bewertung von Agenten für die prognostizierte Ereignisereignisse ist.
Reiseplaner	TravelPlanner ist ein Maßstab zur Bewertung von LLM -Agenten bei der Verwendung von Werkzeugen und komplexer Planung innerhalb mehrerer Einschränkungen.
Vab	VisualAgentbench (VAB) ist ein Maßstab zur Bewertung und Entwicklung von LMMs als visuelle Fundamentagenten, die 5 verschiedene Umgebungen in drei Arten von repräsentativen visuellen Agentenaufgaben umfasst.
Visualwebarena	Visualwebarena ist ein Benchmark, um die Leistung multimodaler Webagenten bei realistischen visuell geerdeten Aufgaben zu bewerten.
Webagent -Rangliste	Webagent Bohrlochboard verfolgt und bewertet LLMs, VLMs und Agenten bei Webnavigationsaufgaben.
Webarena	Webarena ist eine eigenständige, selbsthostbare Webumgebung, um autonome Agenten zu bewerten.
γ-Bank	γ-Bench ist ein Rahmen für die Bewertung der Spielfähigkeiten von LLMs in Umgebungen mit mehreren Agenten unter Verwendung von acht klassischen Spieltheorieszenarien und einem dynamischen Bewertungsschema.
τ-Bank	τ-Bench ist ein Benchmark, der dynamische Konversationen zwischen einem sprachmodell-simulierten Benutzer und einem Sprachagenten emuliert, der mit domänenspezifischen API-Tools und Richtlinienrichtlinien ausgestattet ist.

Audio

Name	Beschreibung
Luftbank	Air-Bench ist ein Benchmark, um die Fähigkeit von Audiomodellen zu bewerten, verschiedene Arten von Audiosignalen (einschließlich menschlicher Sprache, natürliche Klänge und Musik) zu verstehen und darüber hinaus mit Menschen im Textformat zu interagieren.
Hörbuch	AudioBench ist ein Benchmark für allgemeine Anweisungen für Audiomodelle.
Offene ASR -Rangliste	Open ASR Langohring bietet eine Plattform für die Verfolgung, Rangliste und Bewertung automatischer Spracherkennungsmodelle (ASR).
Polnische ASR -Rangliste	Die polnische ASR -Rangliste zielt darauf ab, einen umfassenden Überblick über die Leistung von ASR/STT -Systemen für Politur zu bieten.
Lachs	Salmon ist eine Bewertungssuite, die Sprachsprachenmodelle zu Konsistenz, Hintergrundrauschen, Emotionen, Lautsprecheridentität und Raumimpulsreaktion bezeichnet.
TTS Arena	Die TTS-Arena veranstaltet den Text zur Sprache (TTS), in dem verschiedene TTS-Modelle basierend auf ihrer Leistung bei der Erzeugung von Sprache konkurrieren.
Flüche Rangliste	Whisper Boaderboard ist eine Plattformverfolgung und Vergleiche der Spracherkennungsleistung von Audiomodellen auf verschiedenen Datensätzen.

3D

Name	Beschreibung
3D -Arena	Die 3D -Arena beherbergt die 3D -Generation Arena, in der verschiedene 3D -Generativmodelle basierend auf ihrer Leistung bei der Generierung von 3D -Modellen konkurrieren.
3D-POPE	3D-Pope ist ein Benchmark, um die Objekthalluzination in 3D-Generativmodellen zu bewerten.
3Dgen Arena	Die 3DGen Arena beherbergt die Arena der 3D -Generation, in der verschiedene 3D -Generativmodelle basierend auf ihrer Leistung bei der Generierung von 3D -Modellen konkurrieren.
BOP	BOP ist ein Benchmark für die 6D-POSE-Schätzung eines starren Objekts aus einem einzelnen RGB-D-Eingangsbild.
Gpteval3d	Gpteval3d ist ein Maßstab zur Bewertung von MLLMS 'Kapabiltiies des 3D-Inhaltsverständnisses über Multi-View-Bilder als Eingabe.

Multimodal

Name	Beschreibung
Genai Arena	Die Genai Arena veranstaltet die Arena der visuellen Generation, in der verschiedene Visionsmodelle auf der Grundlage ihrer Leistung in der Bildgenerierung, der Bildausgabe und der Videogenerierung konkurrieren.
Labelbox -Bestenlisten	Labelbox Besten
Mega-Bank	Mega-Bench ist ein Benchmark für die multimodale Bewertung mit verschiedenen Aufgaben über 8 Anwendungsarten, 7 Eingangsformate, 6 Ausgangsformate und 10 multimodale Fähigkeiten, Spanning-Einzelbild-, Mehrzeit- und Videoaufgaben.

Datenbankranking

Name	Beschreibung
VectordBbench	VectordBbench ist ein Maßstab zur Bewertung der Leistung, Kosteneffizienz und Skalierbarkeit verschiedener Vektor-Datenbanken und Cloud-basierter Vektor-Datenbankdienste.

Datensatzranking

Name	Beschreibung
DataComp	DataComp ist ein Benchmark, um die Leistung verschiedener Datensätze mit einer festen Modellarchitektur zu bewerten.

Metrische Rangliste

Name	Beschreibung
Ausrichtung	AlignScore bewertet die Leistung verschiedener Metriken bei der Bewertung der sachlichen Konsistenz.

Papierranking

Name	Beschreibung
Papiere Rangliste	Papers Bohrlochboard ist eine Plattform, um die Beliebtheit von Papieren für maschinelles Lernen zu bewerten.

Rangliste Rangliste

Name	Beschreibung
Offene Bestenlisten -Rangliste	Offene Rangliste Ranglawboard ist ein Meta-Leaderboard, das menschliche Vorlieben nutzt, um maschinelle Lernen zu vergleichen.

Expandieren