ACCLUE | ACLUE est une référence d'évaluation pour la compréhension de la langue chinoise ancienne. |
Classement de l'évaluation LLM des langues africaines | Le classement LLM Eval des langues africaines suit les progrès et classe les performances des LLM sur les langues africaines. |
Tableau des agents | AgentBoard est une référence pour les agents LLM multi-tours, complétée par un tableau d'évaluation analytique pour une évaluation détaillée du modèle au-delà des taux de réussite finaux. |
AGIEval | AGIEval est une référence centrée sur l'humain pour évaluer les capacités générales des modèles de base dans des tâches pertinentes à la cognition humaine et à la résolution de problèmes. |
Classement d'Aiera | Aiera Leaderboard évalue les performances du LLM sur les tâches de renseignement financier, y compris l'affectation des intervenants, l'identification des changements d'intervenants, les résumés abstraits, les questions et réponses basées sur des calculs et l'étiquetage des sentiments financiers. |
Banc AIR | AIR-Bench est une référence pour évaluer les capacités de récupération d'informations hétérogènes des modèles de langage. |
Classement du score énergétique de l'IA | AI Energy Score Leaderboard suit et compare différents modèles en matière d’efficacité énergétique. |
IA-benchmarks | ai-benchmarks contient une poignée de résultats d’évaluation de la latence de réponse des services d’IA populaires. |
Aligner le banc | AlignBench est une référence multidimensionnelle pour évaluer l'alignement des LLM en chinois. |
AlpagaEval | AlpacaEval est un évaluateur automatique conçu pour les LLM qui suivent des instructions. |
ANGÉ | ANGO est une référence d'évaluation de modèles de langue chinoise orientée génération. |
Classement des jetons arabes | Arabic Tokenizers Leaderboard compare l'efficacité des LLM dans l'analyse de l'arabe dans ses différents dialectes et formes. |
Arena-Hard-Auto | Arena-Hard-Auto est une référence pour les LLM orientés vers l'instruction. |
Course automatique | AutoRace se concentre sur l'évaluation directe des chaînes de raisonnement LLM avec la métrique AutoRace (Automated Reasoning Chain Evaluation). |
Arène automobile | Auto Arena est une référence dans laquelle divers agents de modèles de langage s'engagent dans des batailles entre pairs pour évaluer leurs performances. |
Auto-J | Auto-J héberge les résultats d'évaluation sur les tâches de comparaison de réponses par paires et de génération de critiques. |
BABILong | BABILong est une référence pour évaluer les performances des modèles de langage dans le traitement de documents arbitrairement longs avec des faits distribués. |
BBL | BBL (BIG-bench Lite) est un petit sous-ensemble de 24 tâches JSON diverses de BIG-bench. Il est conçu pour fournir une mesure canonique des performances du modèle, tout en étant beaucoup moins cher à évaluer que l'ensemble complet de plus de 200 tâches programmatiques et JSON dans BIG-bench. |
Soyez honnête | BeHonest est une référence pour évaluer l'honnêteté - conscience des limites des connaissances (connaissance de soi), évitement de la tromperie (non-tromperie) et cohérence dans les réponses (cohérence) - dans les LLM. |
BenBanc | BenBench est une référence pour évaluer dans quelle mesure les LLM effectuent une formation textuelle sur l'ensemble de formation d'un benchmark sur l'ensemble de tests pour améliorer les capacités. |
BenTchèqueMark | BenCzechMark (BCM) est une référence multitâche et multimétrique en langue tchèque pour les LLM avec un système de notation unique qui utilise la théorie de la signification statistique. |
Banc BiGGen | BiGGen-Bench est une référence complète pour évaluer les LLM sur une grande variété de tâches. |
BotChat | BotChat est une référence pour évaluer les capacités de discussion en plusieurs tours des LLM via une tâche proxy. |
JurisprudenceQA | CaselawQA est un référentiel comprenant des tâches de classification juridique dérivées des bases de données juridiques de la Cour suprême et de la Cour d'appel de Songer. |
CFLUE | CFLUE est une référence pour évaluer les capacités de compréhension et de traitement des LLM dans le domaine financier chinois. |
Ch3Ef | Ch3Ef est une référence pour évaluer l'alignement avec les attentes humaines à l'aide de 1 002 échantillons annotés par des humains dans 12 domaines et 46 tâches basées sur le principe hhh. |
Centre de chaîne de pensée | Chain-of-Thought Hub est une référence pour évaluer les capacités de raisonnement des LLM. |
Arène des chatbots | Chatbot Arena héberge une arène de chatbots où différents LLM s'affrontent en fonction de la satisfaction des utilisateurs. |
Banc chimique | ChemBench est une référence pour évaluer les connaissances chimiques et les capacités de raisonnement des LLM. |
Chinois SimpleQA | Chinese SimpleQA est une référence chinoise pour évaluer la capacité factuelle des modèles linguistiques à répondre à des questions courtes. |
Classement CLEM | CLEM est un cadre conçu pour l'évaluation systématique des LLM optimisés pour le chat en tant qu'agents conversationnels. |
CLÉVA | CLEVA est une référence pour évaluer les LLM sur 31 tâches utilisant 370 000 requêtes chinoises provenant de 84 ensembles de données divers et 9 métriques. |
Classement des grands modèles chinois | Chinese Large Model Leaderboard est une plateforme pour évaluer les performances des LLM chinois. |
CMB | CMB est une référence médicale à plusieurs niveaux en chinois. |
CMMLU | CMMLU est une référence pour évaluer les performances des LLM dans diverses matières dans le contexte culturel chinois. |
CMMMU | CMMMU est une référence pour évaluer les LMM sur des tâches exigeant des connaissances dans une matière de niveau universitaire et un raisonnement délibéré dans un contexte chinois. |
Génération commune | CommonGen est une référence pour évaluer le raisonnement génératif de bon sens en testant les machines sur leur capacité à composer des phrases cohérentes en utilisant un ensemble donné de concepts communs. |
CompMix | CompMix est une référence pour la réponse à des questions hétérogènes. |
Classement du taux de compression | Le classement du taux de compression vise à évaluer les performances du tokenizer dans différentes langues. |
Classement des compressions | Compression Leaderboard est une plate-forme pour évaluer les performances de compression des LLM. |
CopierBanc | CopyBench est une référence pour évaluer le comportement de copie et l'utilité des modèles de langage ainsi que l'efficacité des méthodes permettant d'atténuer les risques liés aux droits d'auteur. |
CoTaEval | CoTaEval est une référence pour évaluer la faisabilité et les effets secondaires des méthodes de retrait des droits d'auteur pour les LLM. |
ConvRe | ConvRe est une référence pour évaluer la capacité des LLM à comprendre les relations inverses. |
CritiqueEval | CriticEval est une référence pour évaluer la capacité des LLM à formuler des réponses critiques. |
Banc CS | CS-Bench est un benchmark bilingue conçu pour évaluer les performances des LLM dans 26 sous-domaines de l'informatique, en se concentrant sur les connaissances et le raisonnement. |
MIGNON | CUTE est une référence pour tester les connaissances orthographiques des LLM. |
Cybermétrique | CyberMetric est une référence pour évaluer les connaissances en cybersécurité des LLM. |
TchèqueBanc | CzechBench est une référence pour évaluer les modèles de langue tchèque. |
Évaluation C | C-Eval est une suite d'évaluation chinoise pour les LLM. |
Classement des arènes décentralisées | Decentralized Arena héberge une plate-forme décentralisée et démocratique pour l'évaluation LLM, automatisant et mettant à l'échelle les évaluations dans diverses dimensions définies par l'utilisateur, notamment les mathématiques, la logique et les sciences. |
DécodageConfiance | DecodingTrust est une plateforme pour évaluer la fiabilité des LLM. |
Classement LLM du domaine | Domain LLM Leaderboard est une plate-forme pour évaluer la popularité des LLM spécifiques à un domaine. |
Classement des scénarios d'entreprise | Enterprise Scenarios Leaderboard suit et évalue les performances des LLM sur des cas d'utilisation réels en entreprise. |
Banc d'égalisation | EQ-Bench est une référence pour évaluer les aspects de l'intelligence émotionnelle dans les LLM. |
Classement européen LLM | Le classement européen LLM suit et compare les performances des LLM dans les langues européennes. |
EvalGPT.ai | EvalGPT.ai héberge une arène de chatbot pour comparer et classer les performances des LLM. |
Arène d'évaluation | Eval Arena mesure les niveaux de bruit, la qualité du modèle et la qualité des références en comparant des paires de modèles sur plusieurs références d'évaluation LLM avec une analyse au niveau de l'exemple et des comparaisons par paires. |
Classement de réalité | Factuality Leaderboard compare les capacités factuelles des LLM. |
FanOutQA | FanOutQA est une référence multi-sauts et multi-documents de haute qualité pour les LLM utilisant Wikipedia anglais comme base de connaissances. |
Évaluation rapide | FastEval est une boîte à outils permettant d'évaluer rapidement les modèles de langage de suivi d'instructions et de chat sur divers benchmarks avec une inférence rapide et des informations détaillées sur les performances. |
FELM | FELM est un méta-benchmark pour évaluer le benchmark d'évaluation de la factualité pour les LLM. |
FinEval | FinEval est une référence pour évaluer les connaissances du domaine financier dans les LLM. |
Classement peaufiné | Fine-tuning Leaderboard est une plate-forme permettant de classer et de présenter des modèles qui ont été affinés à l'aide d'ensembles de données ou de frameworks open source. |
Flammes | Flames est une référence chinoise très contradictoire pour évaluer l'alignement des valeurs des LLM en matière d'équité, de sécurité, de moralité, de légalité et de protection des données. |
SuivreBench | FollowBench est un benchmark de suivi de contraintes à granularité fine à plusieurs niveaux pour évaluer la capacité de suivi d'instructions des LLM. |
Ensemble de données de questions interdites | Forbidden Question Dataset est un benchmark contenant 160 questions provenant de 160 catégories violées, avec des cibles correspondantes pour évaluer les méthodes de jailbreak. |
FuseReviews | FuseReviews vise à faire progresser les tâches de génération de texte fondées, y compris la réponse aux questions longues et le résumé. |
Gaïa | GAIA vise à tester les capacités fondamentales qu'un assistant IA devrait posséder. |
GAVIÉ | GAVIE est une référence assistée par GPT-4 pour évaluer les hallucinations dans les LMM en notant l'exactitude et la pertinence sans s'appuyer sur la vérité de terrain annotée par l'homme. |
GPT-Bathom | GPT-Fathom est une suite d'évaluation LLM, évaluant plus de 10 principaux LLM ainsi que les anciens modèles d'OpenAI sur plus de 20 benchmarks organisés dans 7 catégories de capacités, le tout dans des paramètres alignés. |
GraalQA | La réponse aux questions fortement généralisables (GrailQA) est une référence à grande échelle et de haute qualité pour la réponse aux questions sur les bases de connaissances (KBQA) sur Freebase avec 64 331 questions annotées avec les réponses et les formes logiques correspondantes dans différentes syntaxes (c'est-à-dire SPARQL, S-expression , etc.). |
Banc GT | GTBench est une référence pour évaluer et classer les capacités de raisonnement des LLM dans des environnements compétitifs à travers des tâches de théorie des jeux, par exemple des jeux de société et de cartes. |
Classement Guerra LLM IA | Guerra LLM AI Leaderboard compare et classe les performances des LLM en termes de qualité, de prix, de performances, de fenêtre de contexte et autres. |
Classement des hallucinations | Hallucinations Leaderboard vise à suivre, classer et évaluer les hallucinations dans les LLM. |
HalluQA | HalluQA est une référence pour évaluer le phénomène des hallucinations dans les LLM chinois. |
Classement LLM en hébreu | Hebrew LLM Leaderboard suit et classe les modèles linguistiques en fonction de leur réussite dans diverses tâches en hébreu. |
HellaSwag | HellaSwag est une référence pour évaluer le raisonnement de bon sens dans les LLM. |
Classement du modèle d'évaluation des hallucinations Hughes | Le classement du modèle d'évaluation des hallucinations Hughes est une plate-forme permettant d'évaluer la fréquence à laquelle un modèle de langage introduit des hallucinations lors de la synthèse d'un document. |
Classement LLM islandais | Le classement islandais LLM suit et compare les modèles sur les tâches en langue islandaise. |
IFEval | IFEval est une référence pour évaluer les capacités de suivi des instructions des LLM avec des instructions vérifiables. |
IL-TUR | IL-TUR est une référence pour évaluer les modèles linguistiques sur des tâches monolingues et multilingues axées sur la compréhension et le raisonnement sur les documents juridiques indiens. |
Classement indien LLM | Indic LLM Leaderboard est une plate-forme permettant de suivre et de comparer les performances des Indic LLM. |
Classement Indico LLM | Indico LLM Leaderboard évalue et compare l'exactitude de divers modèles de langage parmi les fournisseurs, les ensembles de données et les fonctionnalités telles que la classification de texte, l'extraction d'informations clés et la synthèse générative. |
InstruireEval | InstructEval est une suite permettant d'évaluer les méthodes de sélection d'instructions dans le contexte des LLM. |
Classement LLM italien | Le LLM-Leaderboard italien suit et compare les LLM dans les tâches en langue italienne. |
JailbreakBanc | JailbreakBench est une référence pour évaluer les vulnérabilités LLM via des invites contradictoires. |
Arène de chatbot japonais | La Chatbot Arena japonaise héberge l'arène des chatbots, où divers LLM s'affrontent en fonction de leurs performances en japonais. |
Harnais d'évaluation financière du modèle de langue japonaise | Le harnais d'évaluation financière du modèle de langue japonaise est un harnais pour l'évaluation du modèle de langue japonaise dans le domaine financier. |
Benchmark japonais de jeu de rôle LLM | Japanese LLM Roleplay Benchmark est une référence pour évaluer les performances des LLM japonais dans le jeu de rôle de personnages. |
JMED-LLM | JMED-LLM (Japanese Medical Evaluation Dataset for Large Language Models) est une référence pour l'évaluation des LLM dans le domaine médical du japonais. |
JMMMU | JMMMU (Japanese MMMU) est une référence multimodale pour évaluer les performances LMM en japonais. |
JusteEval | JustEval est un outil puissant conçu pour une évaluation fine des LLM. |
KoLA | KoLA est une référence pour évaluer la connaissance mondiale des LLM. |
Lampe | LaMP (Language Models Personality) est une référence pour évaluer les capacités de personnalisation des modèles de langage. |
Conseil des modèles linguistiques | Language Model Council (LMC) est une référence pour évaluer des tâches hautement subjectives et qui manquent souvent d'accord humain majoritaire. |
Banc de droit | LawBench est une référence pour évaluer les capacités juridiques des LLM. |
Le classement | La Leaderboard évalue et suit les capacités de mémorisation, de raisonnement et de langues LLM en Espagne, LATAM et Caraïbes. |
LogicKor | LogicKor est une référence pour évaluer les capacités de réflexion multidisciplinaire des LLM coréens. |
Classement LongICL | LongICL Leaderboard est une plate-forme permettant d'évaluer les évaluations d'apprentissage longues en contexte pour les LLM. |
Regardez | LooGLE est une référence pour évaluer les capacités de compréhension de contexte long des LLM. |
LAiW | LAiW est une référence pour évaluer la compréhension et le raisonnement du langage juridique chinois. |
Suite d'analyse comparative LLM | LLM Benchmarker Suite est une référence pour évaluer les capacités complètes des LLM. |
Évaluation d'un grand modèle linguistique dans des contextes anglais | Large Language Model Assessment in English Contexts est une plateforme pour évaluer les LLM dans le contexte anglais. |
Évaluation d'un grand modèle linguistique dans le contexte chinois | Large Language Model Assessment in the Chinese Context est une plateforme pour évaluer les LLM dans le contexte chinois. |
BALANCE | LIBRA est une référence pour évaluer les capacités des LLM à comprendre et à traiter de longs textes russes. |
Classement LibrAI-Eval GenAI | Le classement LibrAI-Eval GenAI se concentre sur l'équilibre entre la capacité du LLM et la sécurité en anglais. |
LiveBench | LiveBench est une référence pour les LLM visant à minimiser la contamination des ensembles de tests et à permettre une évaluation objective et automatisée de diverses tâches régulièrement mises à jour. |
LLMEval | LLMEval est une référence pour évaluer la qualité des conversations en domaine ouvert avec les LLM. |
Llmeval-Gaokao2024-Math | Llmeval-Gaokao2024-Math est une référence pour évaluer les LLM sur les problèmes mathématiques de niveau Gaokao 2024 en chinois. |
Classement LLM Hallucination | Hallucinations Leaderboard évalue les LLM sur la base d'un ensemble de critères liés aux hallucinations. |
LLMPerf | LLMPerf est un outil permettant d'évaluer les performances des LLM à l'aide de tests de charge et d'exactitude. |
Classement de prévision des risques de maladie des LLM | Le classement des prédictions des risques de maladie des LLM est une plateforme permettant d'évaluer les LLM sur la prédiction des risques de maladie. |
Classement LLM | LLM Leaderboard suit et évalue les fournisseurs LLM, permettant la sélection de l'API et du modèle optimaux pour les besoins des utilisateurs. |
Classement LLM pour CRM | CRM LLM Leaderboard est une plateforme permettant d'évaluer l'efficacité des LLM pour les applications métiers. |
Observatoire LLM | LLM Observatory est une référence qui évalue et classe les LLM en fonction de leur performance à éviter les préjugés sociaux dans des catégories telles que l'orientation LGBTIQ+, l'âge, le sexe, la politique, la race, la religion et la xénophobie. |
Classement des prix LLM | LLM Price Leaderboard suit et compare les coûts LLM sur la base d'un million de jetons. |
Classements LLM | LLM Rankings propose une comparaison en temps réel des modèles de langage basée sur l'utilisation normalisée des jetons pour les invites et les complétions, mise à jour fréquemment. |
Classement du jeu de rôle LLM | LLM Roleplay Leaderboard évalue les performances humaines et IA dans un jeu social de loup-garou pour le développement de PNJ. |
Classement de sécurité LLM | LLM Safety Leaderboard vise à fournir une évaluation unifiée de la sécurité des modèles de langage. |
Classement des cas d'utilisation LLM | Le classement des cas d'utilisation LLM suit et évalue les LLM dans les cas d'utilisation professionnels. |
LLM-AggreFact | LLM-AggreFact est une référence de vérification des faits qui regroupe les ensembles de données les plus récents accessibles au public sur une évaluation factuelle fondée. |
Classement LLM | LLM-Leaderboard est un effort communautaire conjoint visant à créer un classement central pour les LLM. |
Classement LLM-Perf | LLM-Perf Leaderboard vise à comparer les performances des LLM avec différents matériels, backends et optimisations. |
LMExamQA | LMExamQA est un cadre d'analyse comparative dans lequel un modèle de langage agit comme un examinateur pour générer des questions et évaluer les réponses de manière automatisée et sans référence pour une évaluation complète et équitable. |
Banc long | LongBench est une référence pour évaluer les capacités de compréhension du contexte long des LLM. |
Loon | Loong est une référence à long contexte pour évaluer les capacités d'assurance qualité multi-documents des LLM dans des scénarios financiers, juridiques et académiques. |
Classement LLM ouvert quantifié à faible bit | Le classement LLM ouvert quantifié à faible bit suit et compare les LLM de quantification avec différents algorithmes de quantification. |
Évaluation LV | LV-Eval est une référence à contexte long avec cinq niveaux de longueur et des techniques avancées pour une évaluation précise des LLM sur des tâches d'assurance qualité à un seul saut et à plusieurs sauts sur des ensembles de données bilingues. |
LucyEval | LucyEval propose une évaluation approfondie des performances des LLM dans divers contextes chinois. |
L-Eval | L-Eval est un benchmark d'évaluation LCLM (Long Context Language Model) permettant d'évaluer les performances de gestion d'un contexte étendu. |
M3KE | M3KE est un référentiel d'évaluation des connaissances multi-niveaux et multi-sujets pour mesurer les connaissances acquises par les LLM chinois. |
MétaCritique | MetaCritique est un juge qui peut évaluer les critiques écrites par des humains ou générées par des LLM en générant des critiques. |
MENTHE | MINT est une référence pour évaluer la capacité des LLM à résoudre des tâches avec des interactions à plusieurs tours en utilisant des outils et en tirant parti du feedback en langage naturel. |
Mirage | Mirage est une référence en matière de génération augmentée de recherche d'informations médicales, comprenant 7 663 questions provenant de cinq ensembles de données d'assurance qualité médicale et testées avec 41 configurations à l'aide de la boîte à outils MedRag. |
Banc médical | MedBench est une référence pour évaluer la maîtrise des connaissances et les capacités de raisonnement dans les LLM médicaux. |
Banc MedS | MedS-Bench est une référence médicale qui évalue les LLM dans 11 catégories de tâches à l'aide de 39 ensembles de données divers. |
Classement Meta Open LLM | Le classement Meta Open LLM sert de plate-forme centrale pour consolider les données de divers classements LLM ouverts en une seule page de visualisation conviviale. |
Classement de prise de décision clinique MIMIC | MIMIC Clinical Decision Making Leaderboard suit et évalue les LLms dans une prise de décision clinique réaliste pour les pathologies abdominales. |
MixEval | MixEval est une référence pour évaluer les LLM via un mélange stratégique de références prêtes à l'emploi. |
Classement ML.ENERGY | ML.ENERGY Leaderboard évalue la consommation énergétique des LLM. |
MMedBench | MMedBench est un référentiel médical pour évaluer les LLM en compréhension multilingue. |
MMLU | MMLU est une référence pour évaluer les performances des LLM sur un large éventail de tâches de compréhension du langage naturel. |
Classement MMLU par tâche | MMLU-by-task Leaderboard fournit une plate-forme permettant d'évaluer et de comparer divers modèles de ML pour différentes tâches de compréhension du langage. |
MMLU-Pro | MMLU-Pro est une version plus difficile de MMLU pour évaluer les capacités de raisonnement des LLM. |
Classement ModelScope LLM | ModelScope LLM Leaderboard est une plate-forme pour évaluer les LLM de manière objective et complète. |
Classement de l'évaluation du modèle | Model Evaluation Leaderboard suit et évalue les modèles de génération de texte en fonction de leurs performances sur divers points de référence à l'aide du cadre Mosaic Eval Gauntlet. |
Classement MSNP | MSNP Leaderboard suit et évalue les performances quantifiées des modèles GGUF sur diverses combinaisons de GPU et de CPU à l'aide de configurations à nœud unique via Ollama. |
MSTEB | MSTEB est une référence pour mesurer les performances des modèles d'intégration de texte en espagnol. |
MTEB | MTEB est une référence massive pour mesurer les performances des modèles d'intégration de texte sur diverses tâches d'intégration dans 112 langues. |
Arène MTEB | MTEB Arena héberge une arène de modèles pour une évaluation dynamique et réelle des modèles d'intégration via des comparaisons de requêtes et de récupération basées sur l'utilisateur. |
MT-Banc-101 | MT-Bench-101 est une référence fine pour évaluer les LLM dans les dialogues multi-tours. |
Classement MY Malay LLM | MY Malay LLM Leaderboard vise à suivre, classer et évaluer les LLM ouverts sur les tâches en malais. |
NoCha | NoCha est une référence pour évaluer dans quelle mesure les modèles de langage à contexte long peuvent vérifier les affirmations écrites sur des livres de fiction. |
NPHardEval | NPHardEval est une référence pour évaluer les capacités de raisonnement des LLM à travers le prisme des classes de complexité informatique. |
Classement Occiglot Euro LLM | Occiglot Euro LLM Leaderboard compare les LLM dans quatre langues principales du benchmark Okapi et Belebele (français, italien, allemand, espagnol et néerlandais). |
Banc de l'Olympiade | OlympiadBench est une référence scientifique multimodale bilingue présentant 8 476 problèmes de mathématiques et de physique de niveau Olympiade avec des annotations de raisonnement étape par étape de niveau expert. |
Arène olympique | OlympicArena est une référence pour évaluer les capacités avancées des LLM sur un large éventail de défis de niveau olympique. |
oobaboooga | Oobabooga est une référence pour effectuer des tests de performances reproductibles des LLM avec l'interface utilisateur Web d'oobabooga. |
OuvrirEval | OpenEval est une plateforme d'évaluation pour évaluer les LLM chinois. |
Classement turc OpenLLM | Le classement OpenLLM turc suit les progrès et classe les performances des LLM en turc. |
Classement de l'ouverture | Openness Leaderboard suit et évalue la transparence des modèles en termes d'accès ouvert aux pondérations, aux données et aux licences, exposant ainsi les modèles qui ne répondent pas aux normes d'ouverture. |
Classement de l'ouverture | Openness Leaderboard est un outil qui suit l'ouverture des LLM adaptés aux instructions, en évaluant leur transparence, leurs données et la disponibilité des modèles. |
Chercheur ouvert | OpenResearcher contient les résultats de l'analyse comparative sur divers systèmes liés à RAG en tant que classement. |
Classement LLM arabe ouvert | Le classement Open Arabic LLM suit les progrès et classe les performances des LLM en arabe. |
Classement LLM chinois ouvert | Le classement LLM chinois ouvert vise à suivre, classer et évaluer les LLM chinois ouverts. |
Classement Open CoT | Open CoT Leaderboard suit les capacités des LLM à générer des traces de raisonnement efficaces en chaîne de pensée. |
Classement des évaluations LLM néerlandais ouvert | Le classement Open Dutch LLM Evaluation suit les progrès et classe les performances des LLM en néerlandais. |
Classement Open Financial LLM | Open Financial LLM Leaderboard vise à évaluer et comparer les performances des LLM financiers. |
Classement Open ITA LLM | Open ITA LLM Leaderboard suit les progrès et classe les performances des LLM en italien. |
Classement ouvert Ko-LLM | Open Ko-LLM Leaderboard suit les progrès et classe les performances des LLM en coréen. |
Classement ouvert LLM | Open LLM Leaderboard suit les progrès et classe les performances des LLM en anglais. |
Classement Open Medical-LLM | Open Medical-LLM Leaderboard vise à suivre, classer et évaluer les LLM ouverts dans le domaine médical. |
Classement MLLM ouvert | Open MLLM Leaderboard vise à suivre, classer et évaluer les LLM et les chatbots. |
Classement ouvert MOE LLM | OPEN MOE LLM Leaderboard évalue les performances et l’efficacité de divers LLM Mixture of Experts (MoE). |
Classement d'évaluation LLM multilingue ouvert | Le classement ouvert d'évaluation LLM multilingue suit les progrès et classe les performances des LLM dans plusieurs langues. |
Classement ouvert PL LLM | Open PL LLM Leaderboard est une plateforme permettant d'évaluer les performances de divers LLM en polonais. |
Classement LLM en portugais ouvert | Open PT LLM Leaderboard vise à évaluer et comparer les LLM dans les tâches en langue portugaise. |
Classement Open Taiwan LLM | Le classement Open Taiwan LLM présente les performances des LLM sur diverses tâches de compréhension de la langue mandarin taïwanaise. |
Classement Open-LLM | Open-LLM-Leaderboard évalue les LLM en compréhension et raisonnement linguistiques en passant des questions à choix multiples (QCM) aux questions ouvertes. |
Tableau de bord OPUS-MT | OPUS-MT Dashboard est une plate-forme permettant de suivre et de comparer des modèles de traduction automatique sur plusieurs paires de langues et mesures. |
Banc d'opération | OR-Bench est une référence pour évaluer le refus excessif de la sécurité renforcée dans les LLM. |
Banc Pars | ParsBench fournit des boîtes à outils pour évaluer les LLM basés sur la langue persane. |
Classement LLM persan | Le classement LLM persan fournit une évaluation fiable des LLM en langue persane. |
Classement Pinocchio ITA | Le classement Pinocchio ITA suit et évalue les LLM en langue italienne. |
PL-MTEB | PL-MTEB (Polish Massive Text Embedding Benchmark) est une référence pour évaluer les intégrations de texte en polonais dans 28 tâches NLP. |
Classement médical polonais | Le classement médical polonais évalue les modèles linguistiques lors des examens de certification du conseil polonais. |
Classement LLM optimisé par Intel | Le classement LLM optimisé par Intel évalue, note et classe les LLM qui ont été pré-entraînés ou affinés sur le matériel Intel. |
PubMedQA | PubMedQA est une référence pour évaluer les réponses aux questions de recherche biomédicale. |
Banc d'invite | PromptBench est une référence pour évaluer la robustesse des LLM sur les invites contradictoires. |
QAConv | QAConv est une référence pour la réponse aux questions utilisant des conversations complexes, spécifiques à un domaine et asynchrones comme source de connaissances. |
Qualité | QuALITY est une référence pour évaluer les questions-réponses à choix multiples dans un contexte long. |
LAPIN | RABBITS est une référence pour évaluer la robustesse des LLM en évaluant leur gestion des synonymes, en particulier des noms de marque et des médicaments génériques. |
Rakuda | Rakuda est une référence pour évaluer les LLM en fonction de leur capacité à répondre à un ensemble de questions ouvertes sur des sujets japonais. |
Arena Redteam | RedTeam Arena est une plate-forme en équipe rouge pour les LLM. |
Benchmark de résistance à l'équipe rouge | La référence de la résistance à l'équipe Red est une référence pour évaluer la robustesse des LLM contre les invites en équipe rouge. |
REST-MCTS * | REST-MCTS * est une méthode d'auto-entraînement renforcée qui utilise l'inférence de recherche d'arbres et de récompense de processus pour collecter des traces de raisonnement de haute qualité pour la formation de politique et les modèles de récompense sans annotations manuelles. |
Arena de la critique | La critique Arena accueille la critique Arena, où divers LLM sont en concurrence en fonction de leurs performances dans la critique des articles académiques. |
Roleeval | Roleeval est une référence bilingue pour évaluer la mémorisation, l'utilisation et les capacités de raisonnement de la connaissance des rôles des LLM. |
Classement RPBench | RPBench-Auto est un pipeline automatisé pour évaluer les LLM en utilisant 80 Personae pour les scènes basées sur des personnages et 80 scènes pour un jeu de rôle basé sur des scènes. |
Arena de chatbot russe | Chatbot Arena héberge une arène de chatbot où divers LLM sont en concurrence en russe en fonction de la satisfaction des utilisateurs. |
Superglue russe | La superglue russe est une référence pour les modèles de langue russe, en se concentrant sur la logique, le bon sens et les tâches de raisonnement. |
R-juge | R-Judge est une référence pour évaluer la compétence des LLM pour juger et identifier les risques de sécurité compte tenu des enregistrements d'interaction des agents. |
Invites de sécurité | Les invites de sécurité sont une référence pour évaluer la sécurité des LLM chinois. |
Sécurité | SafetyBench est une référence pour évaluer la sécurité des LLM. |
Banc de salade | Le banc de salade est une référence pour évaluer la sécurité et la sécurité des LLM. |
Scandalem | Scandeval est une référence pour évaluer les LLM sur les tâches dans les langues scandinaves ainsi que l'allemand, le néerlandais et l'anglais. |
Classement scientifique | Science Leadboard est une plate-forme pour évaluer les capacités des LLMS pour résoudre les problèmes scientifiques. |
Sciglm | Sciglm est une suite de modèles de langage scientifique qui utilisent un cadre d'annotation d'instructions auto-réflexive pour améliorer le raisonnement scientifique en générant et en révisant des solutions étape par étape pour des questions non étiquetées. |
Sciknoweval | ScikNoweval est une référence pour évaluer les LLM en fonction de leur maîtrise de l'étude de manière approfondie, devenant sérieusement, de pensée profondément, de discerner clairement et de pratiquer assidûment. |
Rouleaux | Scrolls est une référence pour évaluer les capacités de raisonnement des LLM sur de longs textes. |
Seexam | SeaExam est une référence pour évaluer les LLM pour les langues d'Asie du Sud-Est (SEA). |
SEAL LLM CARTEBOIKS | SEAL LLM Leditboards est une plate-forme d'évaluation privée axée sur les experts pour les LLM. |
Marin | Seaeval est une référence pour évaluer les performances des LLM multilingues dans la compréhension et le raisonnement avec le langage naturel, ainsi que la compréhension des pratiques culturelles, des nuances et des valeurs. |
Barre de mer | Sea Helm est une référence pour évaluer les performances des LLMS à travers les tâches anglaises et d'Asie du Sud-Est, en se concentrant sur les capacités de chat, de suivi des instructions et linguistiques. |
Seccouvre | SecEval est une référence pour évaluer la connaissance de la cybersécurité des modèles de fondation. |
Classement autonome | Le classement auto-améliorant (SIL) est une plate-forme dynamique qui met en continu les ensembles de données et les classements de test pour fournir des informations sur les performances en temps réel pour les LLM et les chatbots open source. |
Banc de spécification | Spec-Bench est une référence pour évaluer les méthodes de décodage spéculatif dans divers scénarios. |
Structeval | Structeval est une référence pour évaluer les LLM en effectuant des évaluations structurées à travers plusieurs niveaux cognitifs et des concepts critiques. |
Classement LLM sous-quadratique | Le classement LLM sous-quadratique évalue les LLM avec des architectures sous-quadratiques / sans attention (c.-à-d. RWKV & MAMBA). |
Superbech | Superbench est un système complet de tâches et de dimensions pour évaluer les capacités globales des LLM. |
Superglue | Superglue est une référence pour évaluer les performances des LLM sur un ensemble de tâches de compréhension du langage difficile. |
Superlime | Superlim est une référence pour évaluer les capacités de compréhension linguistique des LLM en suédois. |
Swahili llm-leader | Swahili LLM-Leaderboard est un effort communautaire conjoint pour créer un classement central pour les LLM. |
S-Eval | S-Eval est une référence complète de sécurité multidimensionnelle avec 220 000 invites conçues pour évaluer la sécurité LLM à travers les différentes dimensions de risque. |
TableQaeval | TableQaeval est une référence pour évaluer les performances de LLM dans la modélisation des tables longues et des capacités de compréhension, telles que le raisonnement numérique et multi-hop. |
Tat-dqa | TAT-DQA est une référence pour évaluer les LLM sur le raisonnement discret sur les documents qui combinent des informations structurées et non structurées. |
Tat-qa | TAT-QA est une référence pour évaluer les LLM sur le raisonnement discret sur les documents qui combinent du contenu tabulaire et textuel. |
Classement thaï LLM | Le classement Thai LLM vise à suivre et à évaluer les LLM dans les tâches de langue thaïlandaise. |
La pile | La pile est une référence pour évaluer les connaissances mondiales et la capacité de raisonnement des LLM. |
TOFU | Le tofu est une référence pour évaluer les performances désapprentissage des LLM dans des scénarios réalistes. |
Classement Toloka LLM | Le classement Toloka LLM est une référence pour évaluer les LLM basées sur des invites utilisateur authentiques et une évaluation humaine experte. |
Bouchage d'outils | Toolbench est une plate-forme pour la formation, le service et l'évaluation des LLM spécifiquement pour l'apprentissage des outils. |
Classement de toxicité | Le classement de la toxicité évalue la toxicité des LLM. |
LA LABEAUX DE TRUSTBIT LLM | Trustbit LLM Leditboards est une plate-forme qui fournit des repères pour la construction et l'expédition de produits avec LLMS. |
Trustllm | Trustllm est une référence pour évaluer la fiabilité des LLM. |
Turingadvice | TuringAdvice est une référence pour évaluer la capacité des modèles de langue à générer des conseils utiles pour des situations réelles et ouvertes. |
Tutoreval | TutoreVal est une référence de répondage à des questions qui évalue la façon dont un tuteur LLM peut aider un utilisateur à comprendre un chapitre d'un manuel scientifique. |
T-eval | T-Eval est une référence pour évaluer la capacité d'utilisation de l'outil de LLMS. |
Classement UGI | UGI Leadboard mesure et compare les informations non censurées et controversées connues par LLMS. |
Ultra -val | Ultraeval est un cadre open source pour une analyse comparative transparente et reproductible des LLM à travers diverses dimensions de performance. |
Vals ai | Vals AI est une plate-forme évaluant la précision et l'efficacité génératrices de l'IA sur les tâches juridiques du monde réel. |
Magnétoscope | Le raisonnement visuel de bon sens (magnétoscope) est une référence pour la compréhension visuelle au niveau de la cognition, nécessitant des modèles pour répondre aux questions visuelles et fournir des justifications pour leurs réponses. |
Vidore | Vidore est une référence pour évaluer les modèles de récupération sur leur capacité à faire correspondre les requêtes à des documents pertinents au niveau de la page. |
Vllms Cleader | Vllms Leadboard vise à suivre, classer et évaluer les LLM et les chatbots ouverts. |
VMLU | VMLU est une référence pour évaluer les capacités globales des modèles de fondation en vietnamien. |
Sauvage | Wildbench est une référence pour évaluer les modèles de langue sur des tâches difficiles qui ressemblent étroitement aux applications du monde réel. |
Xiezhi | Xiezhi est une référence pour l'évaluation des connaissances du domaine holistique des LLM. |
Yanolja Arena | Yanolja Arena héberge une arène modèle pour évaluer les capacités de LLMS dans la résumé et la traduction du texte. |
Encore un autre classement LLM | Un autre classement LLM est une plate-forme pour suivre, classement et évaluer les LLM et les chatbots ouverts. |
Zèbre | Zebralogic est une référence évaluant le raisonnement logique de LLMS à l'aide de puzzles de grille logique, un type de problème de satisfaction de contraintes (CSP). |
Zérosumval | Zerosumeval est un cadre d'évaluation compétitif pour les LLM en utilisant des simulations multijoueurs avec des conditions de victoire claires. |