awesome foundation model leaderboards Télécharger - awesome foundation model leaderboards Téléchargement du code source

Classement impressionnant des modèles de fondation

Awesome Foundation Model Leaderboard est une liste organisée de superbes classements de modèles de fondation (pour une explication de ce qu'est un classement, veuillez vous référer à ce didacticiel), ainsi que divers outils de développement et organisations d'évaluation selon notre enquête :

Sur les flux de travail et les odeurs des opérations de classement (LBOps) :
Une étude exploratoire des classements des modèles de fondation

Zhimin (Jimmy) Zhao, Abdul Ali Bangash, Filipe Roseiro Côgo, Bram Adams, Ahmed E. Hassan

Laboratoire d'analyse et d'intelligence logicielle (SAIL)

Si vous trouvez ce référentiel utile, pensez à nous attribuer une étoile et une citation :

 @article{zhao2024workflows,
  title={On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards},
  author={Zhao, Zhimin and Bangash, Abdul Ali and C{^o}go, Filipe Roseiro and Adams, Bram and Hassan, Ahmed E},
  journal={arXiv preprint arXiv:2407.04065},
  year={2024}
}

De plus, nous fournissons une boîte à outils de recherche qui vous aide à naviguer rapidement dans les classements.

Si vous souhaitez contribuer à cette liste (veuillez le faire), n'hésitez pas à proposer une pull request.

Si vous avez des suggestions, des critiques ou des questions concernant cette liste, n'hésitez pas à soulever un problème.

En outre, un classement doit être inclus si seulement :

Il est activement entretenu.
Cela est lié aux modèles de fondation.

Table des matières

Outils
Défis
Classements
- Classement des modèles
  - Complet
  - Texte
  - Image
  - Code
  - Vidéo
  - Mathématiques
  - Agent
  - Audio
  - 3D
  - Multimodal
- Classement de la base de données
- Classement des ensembles de données
- Classement métrique
- Classement des articles
- Classement du classement

Outils

Nom	Description
Classement de la démo	Le classement de démonstration aide les utilisateurs à déployer facilement leurs classements avec un modèle standardisé.
Backend du classement de la démo	Le backend du classement de démonstration aide les utilisateurs à gérer le classement et à gérer les demandes de soumission, vérifiez ceci pour plus de détails.
Création de concours Kaggle	Kaggle Competition Creation vous permet de concevoir et de lancer des compétitions personnalisées, en exploitant vos ensembles de données pour impliquer la communauté de la science des données.
Explorateur de classement	Leaderboard Explorer aide les utilisateurs à naviguer dans la gamme diversifiée de classements disponibles sur Hugging Face Spaces.
Ouvrir le renamer du classement LLM	open-llm-leaderboard-renamer aide les utilisateurs à renommer facilement leurs modèles dans Open LLM Leaderboard.
Résultats du classement Open LLM Ouverture des relations publiques	Résultats du classement Open LLM PR Opener aide les utilisateurs à présenter les résultats du classement Open LLM dans leurs cartes de modèle.
Ouvrir le grattoir du classement LLM	Open LLM Leaderboard Scraper aide les utilisateurs à récupérer et à exporter des données à partir d'Open LLM Leaderboard.
Suivi des progrès	Cette application visualise la progression des LLM propriétaires et open source au fil du temps, telle que notée par LMSYS Chatbot Arena.

Défis

Nom	Description
AIcrowd	AIcrowd organise des défis et des compétitions d'apprentissage automatique dans des domaines tels que la vision par ordinateur, la PNL et l'apprentissage par renforcement, destinés à la fois aux chercheurs et aux praticiens.
Centre d'IA	AI Hub propose une variété de concours pour encourager les solutions d'IA à des problèmes du monde réel, en mettant l'accent sur l'innovation et la collaboration.
Studio d'IA	AI Studio propose des concours d'IA principalement pour la vision par ordinateur, la PNL et d'autres tâches basées sur les données, permettant aux utilisateurs de développer et de mettre en valeur leurs compétences en IA.
Institut Allen pour l'IA	L'Allen Institute for AI fournit des classements et des références sur les tâches liées à la compréhension du langage naturel, au raisonnement de bon sens et à d'autres domaines de la recherche sur l'IA.
Codabench	Codabench est une plate-forme open source pour l'analyse comparative des modèles d'IA, permettant de relever des défis personnalisables et pilotés par les utilisateurs dans divers domaines de l'IA.
Fontaine de données	DataFountain est une plateforme chinoise de compétition d'IA présentant des défis dans les domaines de la finance, de la santé et des villes intelligentes, encourageant les solutions aux problèmes liés à l'industrie.
Données pilotées	DrivenData héberge des défis d'apprentissage automatique ayant un impact social, visant à résoudre des problèmes dans des domaines tels que la santé publique, les secours en cas de catastrophe et le développement durable.
Banc Dynamique	Dynabench propose des benchmarks dynamiques où les modèles sont évalués en continu, impliquant souvent une interaction humaine, pour garantir la robustesse des tâches d'IA en évolution.
Évaluer l'IA	EvalAI est une plateforme d'hébergement et de participation à des défis d'IA, largement utilisée par les chercheurs pour comparer des modèles dans des tâches telles que la classification d'images, la PNL et l'apprentissage par renforcement.
Grand défi	Grand Challenge fournit une plate-forme pour les défis de l'imagerie médicale, soutenant les progrès de l'IA médicale, en particulier dans des domaines tels que la radiologie et la pathologie.
Hilti	Hilti organise des défis visant à faire progresser l'IA et l'apprentissage automatique dans le secteur de la construction, en mettant l'accent sur des applications pratiques et pertinentes pour l'industrie.
InsightFace	InsightFace se concentre sur les défis de l'IA liés à la reconnaissance, à la vérification et à l'analyse des visages, soutenant les progrès en matière de vérification d'identité et de sécurité.
Kaggle	Kaggle est l'une des plus grandes plateformes de concours de science des données et d'apprentissage automatique, couvrant un large éventail de sujets allant de la classification d'images à la PNL et à la modélisation prédictive.
nuScènes	nuScenes permet aux chercheurs d'étudier des situations de conduite urbaine difficiles à l'aide de la suite complète de capteurs d'une véritable voiture autonome, facilitant ainsi la recherche sur la conduite autonome.
Concours de lecture robuste	La lecture robuste fait référence au domaine de recherche sur l'interprétation de la communication écrite dans des contextes sans contraintes, avec des concours axés sur la reconnaissance de texte dans des environnements du monde réel.
Tianchi	Tianchi, hébergé par Alibaba, propose une gamme de concours d'IA, particulièrement populaires en Asie, axés sur le commerce, la santé et la logistique.

Classements

Classement des modèles

Complet

Nom	Description
Analyse artificielle	Artificial Analysis est une plate-forme pour aider les utilisateurs à prendre des décisions éclairées sur la sélection des modèles d'IA et les fournisseurs d'hébergement.
CompassRang	CompassRank est une plate-forme visant à offrir une référence d'évaluation complète, objective et neutre des modèles de base pour l'industrie et la recherche.
FlagEval	FlagEval est une plateforme complète d'évaluation des modèles de fondation.
Classements d'IA générative	Generative AI Leaderboard classe les modèles d'IA générative les plus performants en fonction de diverses mesures.
Évaluation holistique des modèles de langage	L'évaluation holistique des modèles de langage (HELM) est un cadre reproductible et transparent pour évaluer les modèles de base.
Papiers avec code	Papers With Code fournit des classements et des références open source, reliant les articles de recherche sur l'IA au code pour favoriser la transparence et la reproductibilité de l'apprentissage automatique.
SuperCLUE	SuperCLUE est une série de critères permettant d'évaluer les modèles de fondations chinois.
Classement LLM Vellum	Vellum LLM Leaderboard montre une comparaison des capacités, du prix et de la fenêtre contextuelle des principaux LLM commerciaux et open source.

Texte

Nom	Description
ACCLUE	ACLUE est une référence d'évaluation pour la compréhension de la langue chinoise ancienne.
Classement de l'évaluation LLM des langues africaines	Le classement LLM Eval des langues africaines suit les progrès et classe les performances des LLM sur les langues africaines.
Tableau des agents	AgentBoard est une référence pour les agents LLM multi-tours, complétée par un tableau d'évaluation analytique pour une évaluation détaillée du modèle au-delà des taux de réussite finaux.
AGIEval	AGIEval est une référence centrée sur l'humain pour évaluer les capacités générales des modèles de base dans des tâches pertinentes à la cognition humaine et à la résolution de problèmes.
Classement d'Aiera	Aiera Leaderboard évalue les performances du LLM sur les tâches de renseignement financier, y compris l'affectation des intervenants, l'identification des changements d'intervenants, les résumés abstraits, les questions et réponses basées sur des calculs et l'étiquetage des sentiments financiers.
Banc AIR	AIR-Bench est une référence pour évaluer les capacités de récupération d'informations hétérogènes des modèles de langage.
Classement du score énergétique de l'IA	AI Energy Score Leaderboard suit et compare différents modèles en matière d’efficacité énergétique.
IA-benchmarks	ai-benchmarks contient une poignée de résultats d’évaluation de la latence de réponse des services d’IA populaires.
Aligner le banc	AlignBench est une référence multidimensionnelle pour évaluer l'alignement des LLM en chinois.
AlpagaEval	AlpacaEval est un évaluateur automatique conçu pour les LLM qui suivent des instructions.
ANGÉ	ANGO est une référence d'évaluation de modèles de langue chinoise orientée génération.
Classement des jetons arabes	Arabic Tokenizers Leaderboard compare l'efficacité des LLM dans l'analyse de l'arabe dans ses différents dialectes et formes.
Arena-Hard-Auto	Arena-Hard-Auto est une référence pour les LLM orientés vers l'instruction.
Course automatique	AutoRace se concentre sur l'évaluation directe des chaînes de raisonnement LLM avec la métrique AutoRace (Automated Reasoning Chain Evaluation).
Arène automobile	Auto Arena est une référence dans laquelle divers agents de modèles de langage s'engagent dans des batailles entre pairs pour évaluer leurs performances.
Auto-J	Auto-J héberge les résultats d'évaluation sur les tâches de comparaison de réponses par paires et de génération de critiques.
BABILong	BABILong est une référence pour évaluer les performances des modèles de langage dans le traitement de documents arbitrairement longs avec des faits distribués.
BBL	BBL (BIG-bench Lite) est un petit sous-ensemble de 24 tâches JSON diverses de BIG-bench. Il est conçu pour fournir une mesure canonique des performances du modèle, tout en étant beaucoup moins cher à évaluer que l'ensemble complet de plus de 200 tâches programmatiques et JSON dans BIG-bench.
Soyez honnête	BeHonest est une référence pour évaluer l'honnêteté - conscience des limites des connaissances (connaissance de soi), évitement de la tromperie (non-tromperie) et cohérence dans les réponses (cohérence) - dans les LLM.
BenBanc	BenBench est une référence pour évaluer dans quelle mesure les LLM effectuent une formation textuelle sur l'ensemble de formation d'un benchmark sur l'ensemble de tests pour améliorer les capacités.
BenTchèqueMark	BenCzechMark (BCM) est une référence multitâche et multimétrique en langue tchèque pour les LLM avec un système de notation unique qui utilise la théorie de la signification statistique.
Banc BiGGen	BiGGen-Bench est une référence complète pour évaluer les LLM sur une grande variété de tâches.
BotChat	BotChat est une référence pour évaluer les capacités de discussion en plusieurs tours des LLM via une tâche proxy.
JurisprudenceQA	CaselawQA est un référentiel comprenant des tâches de classification juridique dérivées des bases de données juridiques de la Cour suprême et de la Cour d'appel de Songer.
CFLUE	CFLUE est une référence pour évaluer les capacités de compréhension et de traitement des LLM dans le domaine financier chinois.
Ch3Ef	Ch3Ef est une référence pour évaluer l'alignement avec les attentes humaines à l'aide de 1 002 échantillons annotés par des humains dans 12 domaines et 46 tâches basées sur le principe hhh.
Centre de chaîne de pensée	Chain-of-Thought Hub est une référence pour évaluer les capacités de raisonnement des LLM.
Arène des chatbots	Chatbot Arena héberge une arène de chatbots où différents LLM s'affrontent en fonction de la satisfaction des utilisateurs.
Banc chimique	ChemBench est une référence pour évaluer les connaissances chimiques et les capacités de raisonnement des LLM.
Chinois SimpleQA	Chinese SimpleQA est une référence chinoise pour évaluer la capacité factuelle des modèles linguistiques à répondre à des questions courtes.
Classement CLEM	CLEM est un cadre conçu pour l'évaluation systématique des LLM optimisés pour le chat en tant qu'agents conversationnels.
CLÉVA	CLEVA est une référence pour évaluer les LLM sur 31 tâches utilisant 370 000 requêtes chinoises provenant de 84 ensembles de données divers et 9 métriques.
Classement des grands modèles chinois	Chinese Large Model Leaderboard est une plateforme pour évaluer les performances des LLM chinois.
CMB	CMB est une référence médicale à plusieurs niveaux en chinois.
CMMLU	CMMLU est une référence pour évaluer les performances des LLM dans diverses matières dans le contexte culturel chinois.
CMMMU	CMMMU est une référence pour évaluer les LMM sur des tâches exigeant des connaissances dans une matière de niveau universitaire et un raisonnement délibéré dans un contexte chinois.
Génération commune	CommonGen est une référence pour évaluer le raisonnement génératif de bon sens en testant les machines sur leur capacité à composer des phrases cohérentes en utilisant un ensemble donné de concepts communs.
CompMix	CompMix est une référence pour la réponse à des questions hétérogènes.
Classement du taux de compression	Le classement du taux de compression vise à évaluer les performances du tokenizer dans différentes langues.
Classement des compressions	Compression Leaderboard est une plate-forme pour évaluer les performances de compression des LLM.
CopierBanc	CopyBench est une référence pour évaluer le comportement de copie et l'utilité des modèles de langage ainsi que l'efficacité des méthodes permettant d'atténuer les risques liés aux droits d'auteur.
CoTaEval	CoTaEval est une référence pour évaluer la faisabilité et les effets secondaires des méthodes de retrait des droits d'auteur pour les LLM.
ConvRe	ConvRe est une référence pour évaluer la capacité des LLM à comprendre les relations inverses.
CritiqueEval	CriticEval est une référence pour évaluer la capacité des LLM à formuler des réponses critiques.
Banc CS	CS-Bench est un benchmark bilingue conçu pour évaluer les performances des LLM dans 26 sous-domaines de l'informatique, en se concentrant sur les connaissances et le raisonnement.
MIGNON	CUTE est une référence pour tester les connaissances orthographiques des LLM.
Cybermétrique	CyberMetric est une référence pour évaluer les connaissances en cybersécurité des LLM.
TchèqueBanc	CzechBench est une référence pour évaluer les modèles de langue tchèque.
Évaluation C	C-Eval est une suite d'évaluation chinoise pour les LLM.
Classement des arènes décentralisées	Decentralized Arena héberge une plate-forme décentralisée et démocratique pour l'évaluation LLM, automatisant et mettant à l'échelle les évaluations dans diverses dimensions définies par l'utilisateur, notamment les mathématiques, la logique et les sciences.
DécodageConfiance	DecodingTrust est une plateforme pour évaluer la fiabilité des LLM.
Classement LLM du domaine	Domain LLM Leaderboard est une plate-forme pour évaluer la popularité des LLM spécifiques à un domaine.
Classement des scénarios d'entreprise	Enterprise Scenarios Leaderboard suit et évalue les performances des LLM sur des cas d'utilisation réels en entreprise.
Banc d'égalisation	EQ-Bench est une référence pour évaluer les aspects de l'intelligence émotionnelle dans les LLM.
Classement européen LLM	Le classement européen LLM suit et compare les performances des LLM dans les langues européennes.
EvalGPT.ai	EvalGPT.ai héberge une arène de chatbot pour comparer et classer les performances des LLM.
Arène d'évaluation	Eval Arena mesure les niveaux de bruit, la qualité du modèle et la qualité des références en comparant des paires de modèles sur plusieurs références d'évaluation LLM avec une analyse au niveau de l'exemple et des comparaisons par paires.
Classement de réalité	Factuality Leaderboard compare les capacités factuelles des LLM.
FanOutQA	FanOutQA est une référence multi-sauts et multi-documents de haute qualité pour les LLM utilisant Wikipedia anglais comme base de connaissances.
Évaluation rapide	FastEval est une boîte à outils permettant d'évaluer rapidement les modèles de langage de suivi d'instructions et de chat sur divers benchmarks avec une inférence rapide et des informations détaillées sur les performances.
FELM	FELM est un méta-benchmark pour évaluer le benchmark d'évaluation de la factualité pour les LLM.
FinEval	FinEval est une référence pour évaluer les connaissances du domaine financier dans les LLM.
Classement peaufiné	Fine-tuning Leaderboard est une plate-forme permettant de classer et de présenter des modèles qui ont été affinés à l'aide d'ensembles de données ou de frameworks open source.
Flammes	Flames est une référence chinoise très contradictoire pour évaluer l'alignement des valeurs des LLM en matière d'équité, de sécurité, de moralité, de légalité et de protection des données.
SuivreBench	FollowBench est un benchmark de suivi de contraintes à granularité fine à plusieurs niveaux pour évaluer la capacité de suivi d'instructions des LLM.
Ensemble de données de questions interdites	Forbidden Question Dataset est un benchmark contenant 160 questions provenant de 160 catégories violées, avec des cibles correspondantes pour évaluer les méthodes de jailbreak.
FuseReviews	FuseReviews vise à faire progresser les tâches de génération de texte fondées, y compris la réponse aux questions longues et le résumé.
Gaïa	GAIA vise à tester les capacités fondamentales qu'un assistant IA devrait posséder.
GAVIÉ	GAVIE est une référence assistée par GPT-4 pour évaluer les hallucinations dans les LMM en notant l'exactitude et la pertinence sans s'appuyer sur la vérité de terrain annotée par l'homme.
GPT-Bathom	GPT-Fathom est une suite d'évaluation LLM, évaluant plus de 10 principaux LLM ainsi que les anciens modèles d'OpenAI sur plus de 20 benchmarks organisés dans 7 catégories de capacités, le tout dans des paramètres alignés.
GraalQA	La réponse aux questions fortement généralisables (GrailQA) est une référence à grande échelle et de haute qualité pour la réponse aux questions sur les bases de connaissances (KBQA) sur Freebase avec 64 331 questions annotées avec les réponses et les formes logiques correspondantes dans différentes syntaxes (c'est-à-dire SPARQL, S-expression , etc.).
Banc GT	GTBench est une référence pour évaluer et classer les capacités de raisonnement des LLM dans des environnements compétitifs à travers des tâches de théorie des jeux, par exemple des jeux de société et de cartes.
Classement Guerra LLM IA	Guerra LLM AI Leaderboard compare et classe les performances des LLM en termes de qualité, de prix, de performances, de fenêtre de contexte et autres.
Classement des hallucinations	Hallucinations Leaderboard vise à suivre, classer et évaluer les hallucinations dans les LLM.
HalluQA	HalluQA est une référence pour évaluer le phénomène des hallucinations dans les LLM chinois.
Classement LLM en hébreu	Hebrew LLM Leaderboard suit et classe les modèles linguistiques en fonction de leur réussite dans diverses tâches en hébreu.
HellaSwag	HellaSwag est une référence pour évaluer le raisonnement de bon sens dans les LLM.
Classement du modèle d'évaluation des hallucinations Hughes	Le classement du modèle d'évaluation des hallucinations Hughes est une plate-forme permettant d'évaluer la fréquence à laquelle un modèle de langage introduit des hallucinations lors de la synthèse d'un document.
Classement LLM islandais	Le classement islandais LLM suit et compare les modèles sur les tâches en langue islandaise.
IFEval	IFEval est une référence pour évaluer les capacités de suivi des instructions des LLM avec des instructions vérifiables.
IL-TUR	IL-TUR est une référence pour évaluer les modèles linguistiques sur des tâches monolingues et multilingues axées sur la compréhension et le raisonnement sur les documents juridiques indiens.
Classement indien LLM	Indic LLM Leaderboard est une plate-forme permettant de suivre et de comparer les performances des Indic LLM.
Classement Indico LLM	Indico LLM Leaderboard évalue et compare l'exactitude de divers modèles de langage parmi les fournisseurs, les ensembles de données et les fonctionnalités telles que la classification de texte, l'extraction d'informations clés et la synthèse générative.
InstruireEval	InstructEval est une suite permettant d'évaluer les méthodes de sélection d'instructions dans le contexte des LLM.
Classement LLM italien	Le LLM-Leaderboard italien suit et compare les LLM dans les tâches en langue italienne.
JailbreakBanc	JailbreakBench est une référence pour évaluer les vulnérabilités LLM via des invites contradictoires.
Arène de chatbot japonais	La Chatbot Arena japonaise héberge l'arène des chatbots, où divers LLM s'affrontent en fonction de leurs performances en japonais.
Harnais d'évaluation financière du modèle de langue japonaise	Le harnais d'évaluation financière du modèle de langue japonaise est un harnais pour l'évaluation du modèle de langue japonaise dans le domaine financier.
Benchmark japonais de jeu de rôle LLM	Japanese LLM Roleplay Benchmark est une référence pour évaluer les performances des LLM japonais dans le jeu de rôle de personnages.
JMED-LLM	JMED-LLM (Japanese Medical Evaluation Dataset for Large Language Models) est une référence pour l'évaluation des LLM dans le domaine médical du japonais.
JMMMU	JMMMU (Japanese MMMU) est une référence multimodale pour évaluer les performances LMM en japonais.
JusteEval	JustEval est un outil puissant conçu pour une évaluation fine des LLM.
KoLA	KoLA est une référence pour évaluer la connaissance mondiale des LLM.
Lampe	LaMP (Language Models Personality) est une référence pour évaluer les capacités de personnalisation des modèles de langage.
Conseil des modèles linguistiques	Language Model Council (LMC) est une référence pour évaluer des tâches hautement subjectives et qui manquent souvent d'accord humain majoritaire.
Banc de droit	LawBench est une référence pour évaluer les capacités juridiques des LLM.
Le classement	La Leaderboard évalue et suit les capacités de mémorisation, de raisonnement et de langues LLM en Espagne, LATAM et Caraïbes.
LogicKor	LogicKor est une référence pour évaluer les capacités de réflexion multidisciplinaire des LLM coréens.
Classement LongICL	LongICL Leaderboard est une plate-forme permettant d'évaluer les évaluations d'apprentissage longues en contexte pour les LLM.
Regardez	LooGLE est une référence pour évaluer les capacités de compréhension de contexte long des LLM.
LAiW	LAiW est une référence pour évaluer la compréhension et le raisonnement du langage juridique chinois.
Suite d'analyse comparative LLM	LLM Benchmarker Suite est une référence pour évaluer les capacités complètes des LLM.
Évaluation d'un grand modèle linguistique dans des contextes anglais	Large Language Model Assessment in English Contexts est une plateforme pour évaluer les LLM dans le contexte anglais.
Évaluation d'un grand modèle linguistique dans le contexte chinois	Large Language Model Assessment in the Chinese Context est une plateforme pour évaluer les LLM dans le contexte chinois.
BALANCE	LIBRA est une référence pour évaluer les capacités des LLM à comprendre et à traiter de longs textes russes.
Classement LibrAI-Eval GenAI	Le classement LibrAI-Eval GenAI se concentre sur l'équilibre entre la capacité du LLM et la sécurité en anglais.
LiveBench	LiveBench est une référence pour les LLM visant à minimiser la contamination des ensembles de tests et à permettre une évaluation objective et automatisée de diverses tâches régulièrement mises à jour.
LLMEval	LLMEval est une référence pour évaluer la qualité des conversations en domaine ouvert avec les LLM.
Llmeval-Gaokao2024-Math	Llmeval-Gaokao2024-Math est une référence pour évaluer les LLM sur les problèmes mathématiques de niveau Gaokao 2024 en chinois.
Classement LLM Hallucination	Hallucinations Leaderboard évalue les LLM sur la base d'un ensemble de critères liés aux hallucinations.
LLMPerf	LLMPerf est un outil permettant d'évaluer les performances des LLM à l'aide de tests de charge et d'exactitude.
Classement de prévision des risques de maladie des LLM	Le classement des prédictions des risques de maladie des LLM est une plateforme permettant d'évaluer les LLM sur la prédiction des risques de maladie.
Classement LLM	LLM Leaderboard suit et évalue les fournisseurs LLM, permettant la sélection de l'API et du modèle optimaux pour les besoins des utilisateurs.
Classement LLM pour CRM	CRM LLM Leaderboard est une plateforme permettant d'évaluer l'efficacité des LLM pour les applications métiers.
Observatoire LLM	LLM Observatory est une référence qui évalue et classe les LLM en fonction de leur performance à éviter les préjugés sociaux dans des catégories telles que l'orientation LGBTIQ+, l'âge, le sexe, la politique, la race, la religion et la xénophobie.
Classement des prix LLM	LLM Price Leaderboard suit et compare les coûts LLM sur la base d'un million de jetons.
Classements LLM	LLM Rankings propose une comparaison en temps réel des modèles de langage basée sur l'utilisation normalisée des jetons pour les invites et les complétions, mise à jour fréquemment.
Classement du jeu de rôle LLM	LLM Roleplay Leaderboard évalue les performances humaines et IA dans un jeu social de loup-garou pour le développement de PNJ.
Classement de sécurité LLM	LLM Safety Leaderboard vise à fournir une évaluation unifiée de la sécurité des modèles de langage.
Classement des cas d'utilisation LLM	Le classement des cas d'utilisation LLM suit et évalue les LLM dans les cas d'utilisation professionnels.
LLM-AggreFact	LLM-AggreFact est une référence de vérification des faits qui regroupe les ensembles de données les plus récents accessibles au public sur une évaluation factuelle fondée.
Classement LLM	LLM-Leaderboard est un effort communautaire conjoint visant à créer un classement central pour les LLM.
Classement LLM-Perf	LLM-Perf Leaderboard vise à comparer les performances des LLM avec différents matériels, backends et optimisations.
LMExamQA	LMExamQA est un cadre d'analyse comparative dans lequel un modèle de langage agit comme un examinateur pour générer des questions et évaluer les réponses de manière automatisée et sans référence pour une évaluation complète et équitable.
Banc long	LongBench est une référence pour évaluer les capacités de compréhension du contexte long des LLM.
Loon	Loong est une référence à long contexte pour évaluer les capacités d'assurance qualité multi-documents des LLM dans des scénarios financiers, juridiques et académiques.
Classement LLM ouvert quantifié à faible bit	Le classement LLM ouvert quantifié à faible bit suit et compare les LLM de quantification avec différents algorithmes de quantification.
Évaluation LV	LV-Eval est une référence à contexte long avec cinq niveaux de longueur et des techniques avancées pour une évaluation précise des LLM sur des tâches d'assurance qualité à un seul saut et à plusieurs sauts sur des ensembles de données bilingues.
LucyEval	LucyEval propose une évaluation approfondie des performances des LLM dans divers contextes chinois.
L-Eval	L-Eval est un benchmark d'évaluation LCLM (Long Context Language Model) permettant d'évaluer les performances de gestion d'un contexte étendu.
M3KE	M3KE est un référentiel d'évaluation des connaissances multi-niveaux et multi-sujets pour mesurer les connaissances acquises par les LLM chinois.
MétaCritique	MetaCritique est un juge qui peut évaluer les critiques écrites par des humains ou générées par des LLM en générant des critiques.
MENTHE	MINT est une référence pour évaluer la capacité des LLM à résoudre des tâches avec des interactions à plusieurs tours en utilisant des outils et en tirant parti du feedback en langage naturel.
Mirage	Mirage est une référence en matière de génération augmentée de recherche d'informations médicales, comprenant 7 663 questions provenant de cinq ensembles de données d'assurance qualité médicale et testées avec 41 configurations à l'aide de la boîte à outils MedRag.
Banc médical	MedBench est une référence pour évaluer la maîtrise des connaissances et les capacités de raisonnement dans les LLM médicaux.
Banc MedS	MedS-Bench est une référence médicale qui évalue les LLM dans 11 catégories de tâches à l'aide de 39 ensembles de données divers.
Classement Meta Open LLM	Le classement Meta Open LLM sert de plate-forme centrale pour consolider les données de divers classements LLM ouverts en une seule page de visualisation conviviale.
Classement de prise de décision clinique MIMIC	MIMIC Clinical Decision Making Leaderboard suit et évalue les LLms dans une prise de décision clinique réaliste pour les pathologies abdominales.
MixEval	MixEval est une référence pour évaluer les LLM via un mélange stratégique de références prêtes à l'emploi.
Classement ML.ENERGY	ML.ENERGY Leaderboard évalue la consommation énergétique des LLM.
MMedBench	MMedBench est un référentiel médical pour évaluer les LLM en compréhension multilingue.
MMLU	MMLU est une référence pour évaluer les performances des LLM sur un large éventail de tâches de compréhension du langage naturel.
Classement MMLU par tâche	MMLU-by-task Leaderboard fournit une plate-forme permettant d'évaluer et de comparer divers modèles de ML pour différentes tâches de compréhension du langage.
MMLU-Pro	MMLU-Pro est une version plus difficile de MMLU pour évaluer les capacités de raisonnement des LLM.
Classement ModelScope LLM	ModelScope LLM Leaderboard est une plate-forme pour évaluer les LLM de manière objective et complète.
Classement de l'évaluation du modèle	Model Evaluation Leaderboard suit et évalue les modèles de génération de texte en fonction de leurs performances sur divers points de référence à l'aide du cadre Mosaic Eval Gauntlet.
Classement MSNP	MSNP Leaderboard suit et évalue les performances quantifiées des modèles GGUF sur diverses combinaisons de GPU et de CPU à l'aide de configurations à nœud unique via Ollama.
MSTEB	MSTEB est une référence pour mesurer les performances des modèles d'intégration de texte en espagnol.
MTEB	MTEB est une référence massive pour mesurer les performances des modèles d'intégration de texte sur diverses tâches d'intégration dans 112 langues.
Arène MTEB	MTEB Arena héberge une arène de modèles pour une évaluation dynamique et réelle des modèles d'intégration via des comparaisons de requêtes et de récupération basées sur l'utilisateur.
MT-Banc-101	MT-Bench-101 est une référence fine pour évaluer les LLM dans les dialogues multi-tours.
Classement MY Malay LLM	MY Malay LLM Leaderboard vise à suivre, classer et évaluer les LLM ouverts sur les tâches en malais.
NoCha	NoCha est une référence pour évaluer dans quelle mesure les modèles de langage à contexte long peuvent vérifier les affirmations écrites sur des livres de fiction.
NPHardEval	NPHardEval est une référence pour évaluer les capacités de raisonnement des LLM à travers le prisme des classes de complexité informatique.
Classement Occiglot Euro LLM	Occiglot Euro LLM Leaderboard compare les LLM dans quatre langues principales du benchmark Okapi et Belebele (français, italien, allemand, espagnol et néerlandais).
Banc de l'Olympiade	OlympiadBench est une référence scientifique multimodale bilingue présentant 8 476 problèmes de mathématiques et de physique de niveau Olympiade avec des annotations de raisonnement étape par étape de niveau expert.
Arène olympique	OlympicArena est une référence pour évaluer les capacités avancées des LLM sur un large éventail de défis de niveau olympique.
oobaboooga	Oobabooga est une référence pour effectuer des tests de performances reproductibles des LLM avec l'interface utilisateur Web d'oobabooga.
OuvrirEval	OpenEval est une plateforme d'évaluation pour évaluer les LLM chinois.
Classement turc OpenLLM	Le classement OpenLLM turc suit les progrès et classe les performances des LLM en turc.
Classement de l'ouverture	Openness Leaderboard suit et évalue la transparence des modèles en termes d'accès ouvert aux pondérations, aux données et aux licences, exposant ainsi les modèles qui ne répondent pas aux normes d'ouverture.
Classement de l'ouverture	Openness Leaderboard est un outil qui suit l'ouverture des LLM adaptés aux instructions, en évaluant leur transparence, leurs données et la disponibilité des modèles.
Chercheur ouvert	OpenResearcher contient les résultats de l'analyse comparative sur divers systèmes liés à RAG en tant que classement.
Classement LLM arabe ouvert	Le classement Open Arabic LLM suit les progrès et classe les performances des LLM en arabe.
Classement LLM chinois ouvert	Le classement LLM chinois ouvert vise à suivre, classer et évaluer les LLM chinois ouverts.
Classement Open CoT	Open CoT Leaderboard suit les capacités des LLM à générer des traces de raisonnement efficaces en chaîne de pensée.
Classement des évaluations LLM néerlandais ouvert	Le classement Open Dutch LLM Evaluation suit les progrès et classe les performances des LLM en néerlandais.
Classement Open Financial LLM	Open Financial LLM Leaderboard vise à évaluer et comparer les performances des LLM financiers.
Classement Open ITA LLM	Open ITA LLM Leaderboard suit les progrès et classe les performances des LLM en italien.
Classement ouvert Ko-LLM	Open Ko-LLM Leaderboard suit les progrès et classe les performances des LLM en coréen.
Classement ouvert LLM	Open LLM Leaderboard suit les progrès et classe les performances des LLM en anglais.
Classement Open Medical-LLM	Open Medical-LLM Leaderboard vise à suivre, classer et évaluer les LLM ouverts dans le domaine médical.
Classement MLLM ouvert	Open MLLM Leaderboard vise à suivre, classer et évaluer les LLM et les chatbots.
Classement ouvert MOE LLM	OPEN MOE LLM Leaderboard évalue les performances et l’efficacité de divers LLM Mixture of Experts (MoE).
Classement d'évaluation LLM multilingue ouvert	Le classement ouvert d'évaluation LLM multilingue suit les progrès et classe les performances des LLM dans plusieurs langues.
Classement ouvert PL LLM	Open PL LLM Leaderboard est une plateforme permettant d'évaluer les performances de divers LLM en polonais.
Classement LLM en portugais ouvert	Open PT LLM Leaderboard vise à évaluer et comparer les LLM dans les tâches en langue portugaise.
Classement Open Taiwan LLM	Le classement Open Taiwan LLM présente les performances des LLM sur diverses tâches de compréhension de la langue mandarin taïwanaise.
Classement Open-LLM	Open-LLM-Leaderboard évalue les LLM en compréhension et raisonnement linguistiques en passant des questions à choix multiples (QCM) aux questions ouvertes.
Tableau de bord OPUS-MT	OPUS-MT Dashboard est une plate-forme permettant de suivre et de comparer des modèles de traduction automatique sur plusieurs paires de langues et mesures.
Banc d'opération	OR-Bench est une référence pour évaluer le refus excessif de la sécurité renforcée dans les LLM.
Banc Pars	ParsBench fournit des boîtes à outils pour évaluer les LLM basés sur la langue persane.
Classement LLM persan	Le classement LLM persan fournit une évaluation fiable des LLM en langue persane.
Classement Pinocchio ITA	Le classement Pinocchio ITA suit et évalue les LLM en langue italienne.
PL-MTEB	PL-MTEB (Polish Massive Text Embedding Benchmark) est une référence pour évaluer les intégrations de texte en polonais dans 28 tâches NLP.
Classement médical polonais	Le classement médical polonais évalue les modèles linguistiques lors des examens de certification du conseil polonais.
Classement LLM optimisé par Intel	Le classement LLM optimisé par Intel évalue, note et classe les LLM qui ont été pré-entraînés ou affinés sur le matériel Intel.
PubMedQA	PubMedQA est une référence pour évaluer les réponses aux questions de recherche biomédicale.
Banc d'invite	PromptBench est une référence pour évaluer la robustesse des LLM sur les invites contradictoires.
QAConv	QAConv est une référence pour la réponse aux questions utilisant des conversations complexes, spécifiques à un domaine et asynchrones comme source de connaissances.
Qualité	QuALITY est une référence pour évaluer les questions-réponses à choix multiples dans un contexte long.
LAPIN	RABBITS est une référence pour évaluer la robustesse des LLM en évaluant leur gestion des synonymes, en particulier des noms de marque et des médicaments génériques.
Rakuda	Rakuda est une référence pour évaluer les LLM en fonction de leur capacité à répondre à un ensemble de questions ouvertes sur des sujets japonais.
Arena Redteam	RedTeam Arena est une plate-forme en équipe rouge pour les LLM.
Benchmark de résistance à l'équipe rouge	La référence de la résistance à l'équipe Red est une référence pour évaluer la robustesse des LLM contre les invites en équipe rouge.
REST-MCTS *	REST-MCTS * est une méthode d'auto-entraînement renforcée qui utilise l'inférence de recherche d'arbres et de récompense de processus pour collecter des traces de raisonnement de haute qualité pour la formation de politique et les modèles de récompense sans annotations manuelles.
Arena de la critique	La critique Arena accueille la critique Arena, où divers LLM sont en concurrence en fonction de leurs performances dans la critique des articles académiques.
Roleeval	Roleeval est une référence bilingue pour évaluer la mémorisation, l'utilisation et les capacités de raisonnement de la connaissance des rôles des LLM.
Classement RPBench	RPBench-Auto est un pipeline automatisé pour évaluer les LLM en utilisant 80 Personae pour les scènes basées sur des personnages et 80 scènes pour un jeu de rôle basé sur des scènes.
Arena de chatbot russe	Chatbot Arena héberge une arène de chatbot où divers LLM sont en concurrence en russe en fonction de la satisfaction des utilisateurs.
Superglue russe	La superglue russe est une référence pour les modèles de langue russe, en se concentrant sur la logique, le bon sens et les tâches de raisonnement.
R-juge	R-Judge est une référence pour évaluer la compétence des LLM pour juger et identifier les risques de sécurité compte tenu des enregistrements d'interaction des agents.
Invites de sécurité	Les invites de sécurité sont une référence pour évaluer la sécurité des LLM chinois.
Sécurité	SafetyBench est une référence pour évaluer la sécurité des LLM.
Banc de salade	Le banc de salade est une référence pour évaluer la sécurité et la sécurité des LLM.
Scandalem	Scandeval est une référence pour évaluer les LLM sur les tâches dans les langues scandinaves ainsi que l'allemand, le néerlandais et l'anglais.
Classement scientifique	Science Leadboard est une plate-forme pour évaluer les capacités des LLMS pour résoudre les problèmes scientifiques.
Sciglm	Sciglm est une suite de modèles de langage scientifique qui utilisent un cadre d'annotation d'instructions auto-réflexive pour améliorer le raisonnement scientifique en générant et en révisant des solutions étape par étape pour des questions non étiquetées.
Sciknoweval	ScikNoweval est une référence pour évaluer les LLM en fonction de leur maîtrise de l'étude de manière approfondie, devenant sérieusement, de pensée profondément, de discerner clairement et de pratiquer assidûment.
Rouleaux	Scrolls est une référence pour évaluer les capacités de raisonnement des LLM sur de longs textes.
Seexam	SeaExam est une référence pour évaluer les LLM pour les langues d'Asie du Sud-Est (SEA).
SEAL LLM CARTEBOIKS	SEAL LLM Leditboards est une plate-forme d'évaluation privée axée sur les experts pour les LLM.
Marin	Seaeval est une référence pour évaluer les performances des LLM multilingues dans la compréhension et le raisonnement avec le langage naturel, ainsi que la compréhension des pratiques culturelles, des nuances et des valeurs.
Barre de mer	Sea Helm est une référence pour évaluer les performances des LLMS à travers les tâches anglaises et d'Asie du Sud-Est, en se concentrant sur les capacités de chat, de suivi des instructions et linguistiques.
Seccouvre	SecEval est une référence pour évaluer la connaissance de la cybersécurité des modèles de fondation.
Classement autonome	Le classement auto-améliorant (SIL) est une plate-forme dynamique qui met en continu les ensembles de données et les classements de test pour fournir des informations sur les performances en temps réel pour les LLM et les chatbots open source.
Banc de spécification	Spec-Bench est une référence pour évaluer les méthodes de décodage spéculatif dans divers scénarios.
Structeval	Structeval est une référence pour évaluer les LLM en effectuant des évaluations structurées à travers plusieurs niveaux cognitifs et des concepts critiques.
Classement LLM sous-quadratique	Le classement LLM sous-quadratique évalue les LLM avec des architectures sous-quadratiques / sans attention (c.-à-d. RWKV & MAMBA).
Superbech	Superbench est un système complet de tâches et de dimensions pour évaluer les capacités globales des LLM.
Superglue	Superglue est une référence pour évaluer les performances des LLM sur un ensemble de tâches de compréhension du langage difficile.
Superlime	Superlim est une référence pour évaluer les capacités de compréhension linguistique des LLM en suédois.
Swahili llm-leader	Swahili LLM-Leaderboard est un effort communautaire conjoint pour créer un classement central pour les LLM.
S-Eval	S-Eval est une référence complète de sécurité multidimensionnelle avec 220 000 invites conçues pour évaluer la sécurité LLM à travers les différentes dimensions de risque.
TableQaeval	TableQaeval est une référence pour évaluer les performances de LLM dans la modélisation des tables longues et des capacités de compréhension, telles que le raisonnement numérique et multi-hop.
Tat-dqa	TAT-DQA est une référence pour évaluer les LLM sur le raisonnement discret sur les documents qui combinent des informations structurées et non structurées.
Tat-qa	TAT-QA est une référence pour évaluer les LLM sur le raisonnement discret sur les documents qui combinent du contenu tabulaire et textuel.
Classement thaï LLM	Le classement Thai LLM vise à suivre et à évaluer les LLM dans les tâches de langue thaïlandaise.
La pile	La pile est une référence pour évaluer les connaissances mondiales et la capacité de raisonnement des LLM.
TOFU	Le tofu est une référence pour évaluer les performances désapprentissage des LLM dans des scénarios réalistes.
Classement Toloka LLM	Le classement Toloka LLM est une référence pour évaluer les LLM basées sur des invites utilisateur authentiques et une évaluation humaine experte.
Bouchage d'outils	Toolbench est une plate-forme pour la formation, le service et l'évaluation des LLM spécifiquement pour l'apprentissage des outils.
Classement de toxicité	Le classement de la toxicité évalue la toxicité des LLM.
LA LABEAUX DE TRUSTBIT LLM	Trustbit LLM Leditboards est une plate-forme qui fournit des repères pour la construction et l'expédition de produits avec LLMS.
Trustllm	Trustllm est une référence pour évaluer la fiabilité des LLM.
Turingadvice	TuringAdvice est une référence pour évaluer la capacité des modèles de langue à générer des conseils utiles pour des situations réelles et ouvertes.
Tutoreval	TutoreVal est une référence de répondage à des questions qui évalue la façon dont un tuteur LLM peut aider un utilisateur à comprendre un chapitre d'un manuel scientifique.
T-eval	T-Eval est une référence pour évaluer la capacité d'utilisation de l'outil de LLMS.
Classement UGI	UGI Leadboard mesure et compare les informations non censurées et controversées connues par LLMS.
Ultra -val	Ultraeval est un cadre open source pour une analyse comparative transparente et reproductible des LLM à travers diverses dimensions de performance.
Vals ai	Vals AI est une plate-forme évaluant la précision et l'efficacité génératrices de l'IA sur les tâches juridiques du monde réel.
Magnétoscope	Le raisonnement visuel de bon sens (magnétoscope) est une référence pour la compréhension visuelle au niveau de la cognition, nécessitant des modèles pour répondre aux questions visuelles et fournir des justifications pour leurs réponses.
Vidore	Vidore est une référence pour évaluer les modèles de récupération sur leur capacité à faire correspondre les requêtes à des documents pertinents au niveau de la page.
Vllms Cleader	Vllms Leadboard vise à suivre, classer et évaluer les LLM et les chatbots ouverts.
VMLU	VMLU est une référence pour évaluer les capacités globales des modèles de fondation en vietnamien.
Sauvage	Wildbench est une référence pour évaluer les modèles de langue sur des tâches difficiles qui ressemblent étroitement aux applications du monde réel.
Xiezhi	Xiezhi est une référence pour l'évaluation des connaissances du domaine holistique des LLM.
Yanolja Arena	Yanolja Arena héberge une arène modèle pour évaluer les capacités de LLMS dans la résumé et la traduction du texte.
Encore un autre classement LLM	Un autre classement LLM est une plate-forme pour suivre, classement et évaluer les LLM et les chatbots ouverts.
Zèbre	Zebralogic est une référence évaluant le raisonnement logique de LLMS à l'aide de puzzles de grille logique, un type de problème de satisfaction de contraintes (CSP).
Zérosumval	Zerosumeval est un cadre d'évaluation compétitif pour les LLM en utilisant des simulations multijoueurs avec des conditions de victoire claires.

Image

Nom	Description
Image abstraite	L'image abstraite est une référence pour évaluer les LLM multimodales (MLLM) dans la compréhension et le raisonnement visuellement sur les images abstraites, telles que les cartes, les graphiques et les dispositions.
Aesbench	Aesbench est une référence pour évaluer les MLLM sur la perception de l'esthétique de l'image.
CLIGNOTER	Blink est une référence pour évaluer les principales capacités de perception visuelle des MLLM.
Clignotant	Blinkcode est une référence pour évaluer les MLLM sur 15 modèles de vision (VLM) et 9 tâches, mesurant la précision et les performances de reconstruction de l'image.
Souci	Cares est une référence pour évaluer la fiabilité des MED-LVMM à travers la confiance, l'équité, la sécurité, la vie privée et la robustesse en utilisant 41k de paires de questions de questions à partir de 16 modalités d'image médicale et 27 régions anatomiques.
Cartmimique	ChartMimic est une référence pour évaluer les capacités de génération de code visuellement fondées sur les grands modèles multimodaux en utilisant des graphiques et des instructions textuelles.
Charxiv	Charxiv est une référence pour évaluer les capacités de compréhension des graphiques du MLLMS.
Contextuel	Contextual est une référence pour évaluer les MLLM à travers les tâches de raisonnement visuel riche en texte sensible au contexte.
Noyau-mm	Core-MM est une référence pour évaluer les capacités de réponses visuelles ouvertes (VQA) de MLLMS.
Dreambench ++	Dreambench ++ est une référence alignée sur l'homme automatisée par des modèles multimodaux pour la génération d'images personnalisée.
Banc d'Egoplan	Egoplan-Bench est une référence pour évaluer les capacités de planification des MLLM dans les scénarios égocentriques du monde réel.
Glitchbanc	Glitchbench est une référence pour évaluer les capacités de raisonnement des MLLM dans le contexte de la détection des problèmes de jeux vidéo.
Salon	HallushingBench est une référence pour évaluer les capacités de raisonnement d'image-contexte des MLLM.
Infimm-Eval	INFIMM-EVAL est une référence pour évaluer les capacités VQA ouvertes de MLLMS.
Classement LRVSF	LRVSF Leaderboard est une plate-forme pour évaluer les LLM concernant la recherche de similitude d'image dans la mode.
Classement LVLM	LVLM Leadboard est une plate-forme pour évaluer les capacités de raisonnement visuel des MLLM.
M3cot	M3COT est une référence pour la chaîne multi-modale multi-étapes multi-domaines des MLLMS.
Souvenir	Les souvenirs sont une référence pour évaluer les capacités de raisonnement des MLLM sur les séquences d'image.
MJ-Bench	MJ-Bench est une référence pour évaluer les juges multimodaux en fournissant des commentaires pour les modèles de génération d'images sur quatre perspectives clés: l'alignement, la sécurité, la qualité de l'image et le biais.
Mllm-as-a-judge	MLLM-AS-A-A-Judge est une référence avec des annotations humaines pour évaluer les capacités de jugement des MLLMS dans le score, la comparaison des paires et les tâches de classement par lots dans les domaines multimodaux.
Mllm banc	MLLM-Bench est une référence pour évaluer les capacités de raisonnement visuel des MLVM.
Classement mmbench	MMBENCH LABEBOOD est une plate-forme pour évaluer les capacités de raisonnement visuel des MLLM.
MME	MME est une référence pour évaluer les capacités de raisonnement visuel des MLLM.
MME-REALWORLD	MME-Realworld est une référence haute résolution à grande échelle avec 29 429 paires d'AQ d'annulation humaine sur 43 tâches.
Mmiu	MMIU (compréhension ultimodale multi-images) est une référence pour évaluer les MLLM à travers 7 relations multi-images, 52 tâches, 77k d'images et 11k questions multiples organisées.
MMMU	MMMU est une référence pour évaluer les performances des modèles multimodaux sur des tâches qui exigent des connaissances au niveau collégial et un raisonnement de niveau expert dans diverses disciplines.
ROR	Le MMR est une référence pour évaluer la robustesse des MLLM dans la compréhension visuelle en évaluant leur capacité à gérer les questions principales, plutôt que la précision de la réponse.
Mmsearch	MMSearch est une référence pour évaluer les performances de recherche multimodales de LMMS.
Mmstar	MMSTAR est une référence pour évaluer les capacités multimodales des MLLM.
Banc de mmt	MMT-Bench est une référence pour évaluer les MLLM sur un large éventail de tâches multimodales qui nécessitent des connaissances expertes ainsi qu'une reconnaissance visuelle, une localisation, un raisonnement et une planification délibérés.
MM-NIAH	MM-NIAH (aiguille dans une botte de foin multimodale) est une référence pour évaluer la capacité des MLLMS à comprendre de longs documents multimodaux par des tâches de récupération, de comptage et de raisonnement impliquant à la fois des données de texte et d'image.
Mtvqa	MTVQA est une référence de compréhension du texte visuel multilingue pour évaluer les MLLM.
Classement des hallucinations multimodales	Le classement multimodal d'hallucination compare les MLLM basés sur les niveaux d'hallucination dans diverses tâches.
Multi-benchmark	Multi-Benchmark est une référence pour évaluer les MLLM sur la compréhension des tables et des images complexes, et le raisonnement avec un contexte long.
Multitrust	Multitrust est une référence pour évaluer la fiabilité des MLLM à travers cinq aspects principaux: véracité, sécurité, robustesse, équité et intimité.
Nphardeval4v	Nphardeval4v est une référence pour évaluer les capacités de raisonnement des MLLM à travers la lentille des classes de complexité de calcul.
Classeur du fournisseur	LLM API Providers Leaderboard est une plate-forme pour comparer les performances des fournisseurs d'API pour les points de terminaison LLM sur les mesures de clés de performance.
Ocrbench	OCRBENCH est une référence pour évaluer les capacités OCR des modèles multimodaux.
Banc PCA	PCA-Bench est une référence pour évaluer les capacités de prise de décision incarnées des modèles multimodaux.
Banc Q	Q-Bench est une référence pour évaluer les capacités de raisonnement visuel des MLLM.
Récompense	Rewardbench est une référence pour évaluer les capacités et la sécurité des modèles de récompense.
Scienceqa	ScienceQA est une référence utilisée pour évaluer la capacité de raisonnement multi-HOP et l'interprétabilité des systèmes d'IA dans le contexte de la réponse aux questions scientifiques.
Scigraphqa	SCIGRAPHQA est une référence pour évaluer les MLLM dans le réponses de questions de graphe scientifique.
Banc de graines	Le banc de graines est une référence pour évaluer la génération de texte et d'image de modèles multimodaux.
Urial	Urial est une référence pour évaluer la capacité des modèles linguistiques d'alignement sans introduire les facteurs de réglage fin (taux d'apprentissage, données, etc.), qui sont difficiles à contrôler pour des comparaisons équitables.
Classement à la mise à jour	Upd Leaderboard est une plate-forme pour évaluer la fiabilité des MLLM dans la détection de problèmes insolubles.
Ambiance	Vibe-Eval est une référence pour évaluer les MLLM pour les cas difficiles.
Vidéos	VideoHallucer est une référence pour détecter les hallucinations en MLLMS.
Banc de visite	Visit-Bench est une référence pour évaluer les capacités de suivi des instructions des MLLM pour une utilisation réelle.
Les défis de l'ensemble de données Open Waymo	Les défis de l'ensemble de données Open Waymo contiennent divers ensembles de données autonomes pour évaluer les modèles ML.
OUPS !	OUPS ! est une référence pour évaluer les capacités de raisonnement visuel de bon sens des MLLM.
Banc sauvage	WildVision Bench est une référence pour évaluer les VLM dans la nature avec des préférences humaines.
Arena WildVision	WildVision Arena héberge le Chatbot Arena où divers MLLM sont en concurrence en fonction de leurs performances dans la compréhension visuelle.

Code

Nom	Description
Classement Aider LLM	Les classements Aider LLM évaluent la capacité de LLM à suivre les invites système pour modifier le code.
AppWorld	AppWorld est un environnement d'exécution à haute fidélité de 9 applications quotidiennes, opérationnelles via 457 API, peuplées d'activités numériques d'environ 100 personnes vivant dans un monde simulé.
Classeur de Berkeley	Berkeley Fonction-appelant le classement évalue la capacité des LLM à appeler les fonctions (également appelées outils) avec précision.
Bigcodebench	BigCodeBench est une référence pour la génération de code avec des tâches de programmation pratiques et difficiles.
Big Code Modèles de classement	Big Code Models Leaderboard est une plate-forme pour suivre et évaluer les performances des LLM sur les tâches liées au code.
OISEAU	Bird est une référence pour évaluer les performances des systèmes d'analyse de texte à SQL.
Booksql	BookSQL est une référence pour évaluer les systèmes de texte à SQL dans le domaine financier et comptable dans diverses industries avec un ensemble de données de 1 million de transactions de 27 entreprises.
Canacode Cavier	CanaCode Leadboard est une plate-forme pour évaluer les capacités de génération de code de LLMS.
Classeval	Classeval est une référence pour évaluer les LLM sur la génération de code au niveau de la classe.
Codeapex	CodeapEx est une référence pour évaluer la compréhension de la programmation de LLMS par des questions à choix multiples et la génération de code avec des problèmes d'algorithme C ++.
Codéscope	Le codescope est une référence pour évaluer les capacités de codage LLM dans 43 langues et 8 tâches, en considérant la difficulté, l'efficacité et la longueur.
Codétransocean	Codetransocean est une référence pour évaluer la traduction du code à travers une grande variété de langages de programmation, notamment le code populaire, le niche et le code translaté par LLM.
Code lingua	Code Lingua est une référence pour comparer la capacité des modèles de code à comprendre ce que le code implémente dans les langues source et à traduire la même sémantique dans les langues cibles.
CODING LLMS LABEALBOED	Coding LLMS Leaderboard est une plate-forme pour évaluer et classer les LLM à travers diverses tâches de programmation.
Commit-0	Le commit-0 est un défi de codage AI de Scratch pour reconstruire 54 bibliothèques Python de base, en veillant à passer des tests unitaires avec une couverture de test significative, une vérification de la peluche / type et un développement distribué basé sur le cloud.
Crucifique	Cruxeval est une référence pour évaluer le raisonnement de code, la compréhension et les capacités d'exécution des LLM.
Cship	CSpider est une référence pour évaluer la capacité des systèmes à générer des requêtes SQL à partir du langage naturel chinois à travers les bases de données diverses, complexes et inter-domaines.
Cybersecval	Cyberseceval est une référence pour évaluer la cybersécurité des LLM en tant qu'assistants codants.
DevOps AI Assistant Open HEARDBOOD	DevOps AI Assistant Open Leadboard Tracks, classe et évalue DevOps AI assistants dans les domaines de la connaissance.
DevOps-Eval	DevOps-Eval est une référence pour évaluer les modèles de code dans le champ DevOps / AIOPS.
Domaineval	DomaineVal est une référence automatiquement construite pour la génération de code multi-domaines.
Docteur	Dr.Spider est une référence pour évaluer la robustesse des modèles de texte à SQL à l'aide de différents ensembles de tests de perturbation.
Effibench	Effibench est une référence pour évaluer l'efficacité des LLM dans la génération de code.
Évaluation	EvalPlus est une référence pour évaluer les performances de génération de code de LLMS.
Évoquage	EvocodeBench est un benchmark de génération de code évolutif aligné avec les référentiels de code réel.
Évoval	EVOeval est une référence pour évaluer les capacités de codage des LLM, créées en évoluant des repères existants en différents domaines ciblés.
Infibanch	Infibench est une référence pour évaluer les modèles de code sur la réponse aux questions liées au code réel.
Intercoder	Intercoce est une référence pour normaliser et évaluer le codage interactif avec une rétroaction d'exécution.
Classeur Julia LLM	Julia LLM Leadboard est une plate-forme pour comparer les capacités des modèles de code à générer du code Julia syntaxiquement correct, avec des tests structurés et des évaluations automatisées pour une analyse comparative facile et collaborative.
Livecodebench	LiveCodeBench est une référence pour évaluer les modèles de code dans les scénarios liés au code au fil du temps.
Arène de code long	Long Code Arena est une suite de repères pour les tâches liées au code avec de grands contextes, jusqu'à un référentiel de code entier.
Mceval	McEval est une référence d'évaluation de code massivement multilingue couvrant 40 langues (16k échantillons en 44 au total), englobant la génération de code multilingue, l'explication de code multilingue et les tâches de complétion du code multilingue.
Mémorisation ou génération de modèles Big Code Leader	Mémorisation ou génération de modèles de code Big Code Tracks et compare les performances des modèles de génération de code.
Multi-swe-banc	Multi-SWE-Bench est un problème de github multilingue résolvant pour les agents de code.
NaturalCodebench	NaturalCodeBench est une référence pour refléter la complexité et la variété des scénarios dans les tâches de codage réelles.
Fonction Nexus appelant le classement	Nexus Function Calling Leadboard est une plate-forme pour évaluer les modèles de code lors de l'appel de la fonction et de l'utilisation de l'API.
Nl2sql360	NL2SQL360 est un cadre d'évaluation complet pour comparer et optimiser les méthodes NL2SQL dans divers scénarios d'application.
Pec	PECC est une référence qui évalue la génération de code en nécessitant des modèles pour comprendre et extraire les exigences des problèmes des descriptions narratives pour produire des solutions syntaxiquement précises.
Benchmarks Prollm	Prollm Benchmarks est une référence LLM pratique et fiable conçue pour les cas d'utilisation du monde réel dans plusieurs industries et langages de programmation.
Pybanch	Pybench est une référence évaluant LLM sur les tâches de codage réel, y compris l'analyse des graphiques, l'analyse de texte, l'édition d'image / audio, les mathématiques complexes et le développement logiciel / site Web.
COURSE	La race est une référence pour évaluer la capacité des LLM à générer du code qui est correct et répond aux exigences des scénarios de développement du monde réel.
Repoqa	Repoqa est une référence pour évaluer la capacité de compréhension du code à long contexte des LLM.
Scicode	Scicode est une référence conçue pour évaluer les modèles de langage dans la génération de code pour résoudre des problèmes de recherche scientifique réalistes.
Soliditybench	SolidityBench est une référence pour évaluer et classer la capacité des LLM dans la génération et la vérification des contrats intelligents.
Araignée	Spider est une référence pour évaluer les performances des interfaces en langage naturel pour les bases de données inter-domaines.
Banc de galet	StableToolbench est une référence pour évaluer l'apprentissage des outils qui vise à fournir une combinaison bien équilibrée de stabilité et de réalité.
Banc de swe	Swe-Bench est une référence pour évaluer les LLM sur les problèmes logiciels du monde réel collectés auprès de GitHub.
Webapp1k	WebApp1k est une référence pour évaluer les LLM sur leurs capacités pour développer des applications Web du monde réel.
WEBDEV ARENA	WebDev Arena héberge une arène de chatbot où divers LLM sont en concurrence en fonction du développement de sites Web.
Sauvage	Wilds est une référence de déplacements de distribution dans les ventes couvrant diverses modalités et applications de données, de l'identification tumorale à la surveillance de la faune à la cartographie de la pauvreté.

Vidéo

Nom	Description
Chronomagique	Chronomagic Bench est une référence pour évaluer la capacité des modèles vidéo à générer des vidéos en accéléré avec une amplitude métamorphique élevée et une cohérence temporelle à travers les domaines de la physique, de la biologie et de la chimie en utilisant le contrôle de texte de forme libre.
Rêve-1	Dream-1k est une référence pour évaluer les performances de description vidéo sur 1000 clips vidéo divers mettant en vedette des événements riches, des actions et des mouvements de films, d'animations, de vidéos de stock, YouTube et de courtes vidéos de style tiktok.
Longvideobench	LongVideObench est une référence pour évaluer les capacités des modèles vidéo pour répondre aux questions de raisonnement référées, qui dépendent des entrées de trame longues et ne peuvent pas être bien traitées par un seul cadre ou quelques cadres clairsemés.
Lvbench	LVBench est une référence pour évaluer les modèles multimodaux sur de longues tâches de compréhension vidéo nécessitant des capacités de mémoire et de compréhension prolongées.
MLVU	MLVU est une référence pour évaluer les modèles vidéo dans la compréhension vidéo longue multi-tâches.
MMTOM-QA	MMTOM-QA est une référence multimodale pour évaluer la théorie de l'esprit de la machine (TOM), la capacité de comprendre l'esprit des gens.
Mvbench	MVBench est une référence pour évaluer les capacités de compréhension temporelle des modèles vidéo dans des tâches vidéo dynamiques.
Classement vidéo openvlm	OpenVLM Video Leaderboard est une plate-forme présentant les résultats d'évaluation de 30 VLM différents sur les références de compréhension vidéo à l'aide du cadre VLMEVALKIT.
Tempcompasse	TempCompass est une référence pour évaluer la perception temporelle des LLMS vidéo en utilisant 410 vidéos et 7 540 instructions de tâche sur 11 aspects temporels et 4 types de tâches.
Vbench	VBench est une référence pour évaluer les capacités de génération de vidéos des modèles vidéo.
Vidéocon	Videoniah est une référence pour évaluer les capacités de modélisation spatio-temporelle à grains fins des modèles vidéo.
Vidéophyme	La vidéophy est une référence pour évaluer les vidéos générées pour l'adhésion au bon sens physique dans les interactions matérielles réelles.
Vidéoscore	Videoscore est une référence pour évaluer les modèles génératifs de texte à vidéo sur cinq dimensions clés.
Vidéovista	Videovista est une référence avec 25 000 questions de 3 400 vidéos dans 14 catégories, couvrant 19 compréhension et 8 tâches de raisonnement.
Banc vidéo	La vidéo-banc est une référence pour évaluer la compréhension exclusive vidéo, l'incorporation antérieure des connaissances et les capacités de prise de décision vidéo des modèles vidéo.
Vidéo-MME	La vidéo-MME est une référence pour évaluer les capacités d'analyse vidéo des modèles vidéo.

Mathématiques

Nom	Description
Abel	Abel est une plate-forme pour évaluer les capacités mathématiques des LLM.
Mathbench	Mathbench est une référence d'évaluation des mathématiques à difficulté à plusieurs niveaux pour les LLM.
Mathématique	Matheval est une référence pour évaluer les capacités mathématiques des LLM.
Mathusereval	MathuseReval est une référence posée sur des questions d'examen universitaire et des requêtes liées aux mathématiques dérivées de conversations simulées avec des annotateurs expérimentés.
Mathverse	Mathverse est une référence pour évaluer les modèles de langue visuelle dans l'interprétation et le raisonnement avec des informations visuelles dans les problèmes mathématiques.
Mathvista	Mathvista est une référence pour évaluer le raisonnement mathématique dans des contextes visuels.
Math-V	Math-Vision (Math-V) est une référence de 3 040 problèmes mathématiques visuellement contextualisés des compétitions, couvrant 16 disciplines et 5 niveaux de difficulté pour évaluer le raisonnement mathématique des LMMS.
Open multilingue Response de classement	Open Mulilingual Reasoning Tistes et classe les performances de raisonnement des LLM sur des références de raisonnement mathématique multilingues.
Putnambench	Putnambench est une référence pour évaluer les capacités de raisonnement mathématique formelles des LLM sur la compétition Putnam.
Scibench	Scibench est une référence pour évaluer les capacités de raisonnement des LLM pour résoudre des problèmes scientifiques complexes.
Tabmwp	TABMWP est une référence pour évaluer les LLM dans les tâches de raisonnement mathématique qui impliquent des données textuelles et tabulaires.
We-math	We-Math est une référence pour évaluer les capacités de raisonnement mathématique de type humain des LLM avec des principes de résolution de problèmes au-delà de la performance de bout en bout.

Agent

Nom	Description
Agent	AgentBench est l'indice de référence pour évaluer le modèle de langue en tant qu'agent à travers un spectre diversifié d'environnements différents.
Agentstudio	AgentStudio est une solution intégrée avec des suites de référence approfondies, des environnements réalistes et des kits d'outils complets.
Personnage	ChecomeetEval est une référence pour évaluer les agents conversationnels (RPCA) à l'aide de dialogues et de profils de caractères multi-tours, avec des métriques couvrant quatre dimensions.
RGT	GTA est une référence pour évaluer la capacité d'utilisation des outils des agents basés sur LLM dans des scénarios du monde réel.
Gymnase de LEETCODE-DUR	Leetcode-hard gym est une interface d'environnement RL au serveur de soumission de Leetcode pour évaluer les agents CodeGen.
LLM COLOSSION CADEFFORM	LLM COLOSSEUM LABEBOOD est une plate-forme pour évaluer les LLM en se battant dans Street Fighter 3.
Magie	La magie est une référence pour mesurer les capacités de la cognition, de l'adaptabilité, de la rationalité et de la collaboration des LLM dans des systèmes multi-agents.
Olas prédire la référence	OLAS prédit que la référence est une référence pour évaluer les agents sur les prévisions d'événements historiques et futures.
Troupeau	TravelPlanner est une référence pour évaluer les agents LLM dans l'utilisation des outils et la planification complexe dans plusieurs contraintes.
Vab	VisualAgentBench (VAB) est une référence pour évaluer et développer le LMMS en tant qu'agents de fondation visuelle, qui comprend 5 environnements distincts à travers 3 types de tâches d'agent visuel représentatives.
Visualwebarena	Visualwebarena est une référence pour évaluer les performances des agents Web multimodaux sur des tâches réalistes visuellement fondées.
Chasse WebAgent	WebAgent Leadboard suit et évalue les LLM, les VLM et les agents sur les tâches de navigation Web.
Webarena	La webarena est un environnement Web autonome et auto-hébercable pour évaluer les agents autonomes.
banc γ	γ-Bench est un cadre pour évaluer les capacités de jeu des LLMS dans des environnements multi-agents en utilisant huit scénarios de théorie des jeux classiques et un schéma de notation dynamique.
banc τ	τ-bench est une référence qui émule les conversations dynamiques entre un utilisateur simulé par modèle de langue et un agent linguistique équipé d'outils API spécifiques au domaine et de directives de politique.

Audio

Nom	Description
Banc d'air	Air Bench est une référence pour évaluer la capacité des modèles audio à comprendre divers types de signaux audio (y compris la parole humaine, les sons naturels et la musique), et en outre, à interagir avec les humains au format textuel.
Audio	Audiobench est une référence pour les modèles audio généraux de suivi des instructions.
Ouvrir le classement ASR	Open ASR Leadboard fournit une plate-forme pour le suivi, le classement et l'évaluation des modèles de reconnaissance vocale automatique (ASR).
Classe ASR polonaise	POSITION ASR LABEBOOD vise à fournir un aperçu complet des performances des systèmes ASR / STT pour le polonais.
Saumon	Le saumon est une suite d'évaluation qui compose les modèles de langage vocal sur la cohérence, le bruit de fond, l'émotion, l'identité des haut-parleurs et la réponse à l'impulsion de la pièce.
Arène TTS	TTS-Arena héberge le Text to Speech (TTS) Arena, où divers modèles TTS rivalisent en fonction de leurs performances dans la génération de la parole.
Chuchoteur de chuchotement	Whisper Leaderboard est un suivi de plate-forme et de comparer les performances de reconnaissance de la parole des modèles audio sur divers ensembles de données.

3D

Nom	Description
Arène 3D	3D Arena héberge 3D Generation Arena, où divers modèles génératifs 3D sont en concurrence en fonction de leurs performances dans la génération de modèles 3D.
3D-Pope	3D-Pope est une référence pour évaluer l'hallucination des objets dans les modèles génératifs 3D.
Arène en 3DGEN	3DGEN ARENA héberge l'arène de génération 3D, où divers modèles génératifs 3D sont en concurrence en fonction de leurs performances dans la génération de modèles 3D.
BOP	BOP est une référence pour l'estimation de la pose 6D d'un objet rigide à partir d'une seule image d'entrée RVB-D.
Gpteval3d	GPTeval3d est une référence pour évaluer les capabitiies de MLLMS de compréhension du contenu 3D via des images multi-visualités en entrée.

Multimodal

Nom	Description
Genai Arena	Genai Arena héberge le Visual Generation Arena, où divers modèles de vision rivalisent en fonction de leurs performances dans la génération d'images, l'édition d'images et la génération de vidéos.
LABEAUX LABOX	Les classements Labelbox évaluent les performances des modèles d'IA génératifs à l'aide de leur usine de données: plate-forme, processus scientifique et humains experts.
Méga-banc	Mega-Bench est une référence pour l'évaluation multimodale avec diverses tâches sur 8 types d'applications, 7 formats d'entrée, 6 formats de sortie et 10 compétences multimodales, couvrant des tâches à image unique, multi-images et vidéo.

Classement de la base de données

Nom	Description
Vectordbbench	VectordBbench est une référence pour évaluer les performances, la rentabilité et l'évolutivité de diverses bases de données vectorielles et des services de base de données vectoriels basés sur le cloud.

Classement de l'ensemble de données

Nom	Description
Datacomp	DataComp est une référence pour évaluer les performances de divers ensembles de données avec une architecture de modèle fixe.

Classement métrique

Nom	Description
Alignement	AligneScore évalue les performances de différentes mesures dans l'évaluation de la cohérence factuelle.

Classement en papier

Nom	Description
Papiers CEAGARGE	Le classement des papiers est une plate-forme pour évaluer la popularité des papiers d'apprentissage automatique.

Classement de classement

Nom	Description
Classement des classements ouverts	Le classement des classements ouverts est un méta-leader qui tire parti des préférences humaines pour comparer les classements d'apprentissage automatique.

Développer