ACLUE | ACLUE é uma referência de avaliação para a compreensão da língua chinesa antiga. |
Tabela de classificação de avaliação LLM de línguas africanas | O African Languages LLM Eval Leaderboard acompanha o progresso e classifica o desempenho dos LLMs em línguas africanas. |
Painel de Agentes | AgentBoard é uma referência para agentes LLM multiturno, complementado por um quadro de avaliação analítica para avaliação detalhada do modelo além das taxas finais de sucesso. |
AGIEval | AGIEval é um benchmark centrado no ser humano para avaliar as habilidades gerais dos modelos básicos em tarefas pertinentes à cognição humana e à resolução de problemas. |
Tabela de classificação da Aiera | Aiera Leaderboard avalia o desempenho do LLM em tarefas de inteligência financeira, incluindo atribuições de palestrantes, identificação de mudança de palestrante, resumos abstrativos, perguntas e respostas baseadas em cálculos e marcação de sentimentos financeiros. |
Banco AIR | AIR-Bench é uma referência para avaliar capacidades heterogêneas de recuperação de informação de modelos de linguagem. |
Tabela de classificação de pontuação de energia de IA | O AI Energy Score Leaderboard rastreia e compara diferentes modelos de eficiência energética. |
benchmarks de IA | ai-benchmarks contém alguns resultados de avaliação para a latência de resposta de serviços populares de IA. |
AlinharBench | AlignBench é um benchmark multidimensional para avaliar o alinhamento de LLMs em chinês. |
AlpacaEval | AlpacaEval é um avaliador automático projetado para LLMs que seguem instruções. |
ANGO | ANGO é um referencial de avaliação do modelo de língua chinesa orientado para a geração. |
Tabela de classificação de tokenizadores árabes | O ranking de tokenizadores árabes compara a eficiência dos LLMs na análise do árabe em seus diferentes dialetos e formas. |
Arena-Hard-Auto | Arena-Hard-Auto é uma referência para LLMs ajustados por instrução. |
Corrida Automática | AutoRace se concentra na avaliação direta de cadeias de raciocínio LLM com métrica AutoRace (Automated Reasoning Chain Evaluation). |
Arena Automóvel | Auto Arena é uma referência em que vários agentes de modelos de linguagem se envolvem em batalhas entre pares para avaliar seu desempenho. |
Auto-J | O Auto-J hospeda resultados de avaliação nas tarefas de comparação de respostas em pares e geração de críticas. |
BABILong | BABILong é uma referência para avaliar o desempenho de modelos de linguagem no processamento de documentos arbitrariamente longos com fatos distribuídos. |
BBL | BBL (BIG-bench Lite) é um pequeno subconjunto de 24 tarefas JSON diversas do BIG-bench. Ele foi projetado para fornecer uma medida canônica do desempenho do modelo, ao mesmo tempo que é muito mais barato de avaliar do que o conjunto completo de mais de 200 tarefas programáticas e JSON no BIG-bench. |
Seja honesto | BeHonest é uma referência para avaliar a honestidade - consciência dos limites do conhecimento (autoconhecimento), evitar o engano (não engano) e consistência nas respostas (consistência) - em LLMs. |
BenBench | BenBench é uma referência para avaliar até que ponto os LLMs conduzem treinamento literal no conjunto de treinamento de uma referência em relação ao conjunto de testes para aprimorar as capacidades. |
BenTchecoMarco | BenCzechMark (BCM) é um benchmark multitarefa e multimétrico do idioma tcheco para LLMs com um sistema de pontuação exclusivo que utiliza a teoria da significância estatística. |
Banco BiGGen | BiGGen-Bench é um benchmark abrangente para avaliar LLMs em uma ampla variedade de tarefas. |
BotChat | BotChat é uma referência para avaliar os recursos de bate-papo multi-round dos LLMs por meio de uma tarefa de proxy. |
JurisprudênciaQA | CaselawQA é uma referência que compreende tarefas de classificação jurídica derivadas dos bancos de dados jurídicos da Suprema Corte e do Tribunal de Apelações de Songer. |
CFLUE | CFLUE é uma referência para avaliar as capacidades de compreensão e processamento dos LLMs no domínio financeiro chinês. |
Ch3Ef | Ch3Ef é uma referência para avaliar o alinhamento com as expectativas humanas usando 1.002 amostras anotadas por humanos em 12 domínios e 46 tarefas baseadas no princípio hhh. |
Centro de Cadeia de Pensamento | O Chain-of-Thought Hub é uma referência para avaliar as capacidades de raciocínio dos LLMs. |
Arena de chatbots | A Chatbot Arena hospeda uma arena de chatbot onde vários LLMs competem com base na satisfação do usuário. |
ChemBench | ChemBench é uma referência para avaliar o conhecimento químico e as habilidades de raciocínio dos LLMs. |
QA Simples Chinês | Chinese SimpleQA é um benchmark chinês para avaliar a capacidade factual dos modelos de linguagem para responder a perguntas curtas. |
Tabela de classificação CLEM | CLEM é uma estrutura projetada para a avaliação sistemática de LLMs otimizados para chat como agentes conversacionais. |
CLEVA | CLEVA é uma referência para avaliar LLMs em 31 tarefas usando 370 mil consultas chinesas de 84 conjuntos de dados diversos e 9 métricas. |
Tabela de classificação de modelos grandes chineses | O Chinese Large Model Leaderboard é uma plataforma para avaliar o desempenho dos LLMs chineses. |
CMB | CMB é uma referência médica multinível em chinês. |
CMMLU | O CMMLU é uma referência para avaliar o desempenho dos LLMs em diversas disciplinas do contexto cultural chinês. |
CMMU | O CMMMU é uma referência para avaliar LMMs em tarefas que exigem conhecimento de assuntos de nível universitário e raciocínio deliberado em um contexto chinês. |
CommonGen | CommonGen é uma referência para avaliar o raciocínio generativo de senso comum, testando máquinas quanto à sua capacidade de compor frases coerentes usando um determinado conjunto de conceitos comuns. |
CompMix | CompMix é uma referência para respostas heterogêneas a perguntas. |
Tabela de classificação da taxa de compactação | O Compression Rate Leaderboard visa avaliar o desempenho do tokenizer em diferentes idiomas. |
Tabela de classificação de compactação | Compression Leaderboard é uma plataforma para avaliar o desempenho de compressão de LLMs. |
Banco de cópia | CopyBench é uma referência para avaliar o comportamento de cópia e a utilidade dos modelos de linguagem, bem como a eficácia dos métodos para mitigar os riscos de direitos autorais. |
CoTaEval | CoTaEval é uma referência para avaliar a viabilidade e os efeitos colaterais dos métodos de remoção de direitos autorais para LLMs. |
ConvRe | ConvRe é uma referência para avaliar a capacidade dos LLMs de compreender relações inversas. |
Avaliação Crítica | CriticEval é uma referência para avaliar a capacidade dos LLMs de dar respostas críticas. |
Banco CS | CS-Bench é um benchmark bilíngue projetado para avaliar o desempenho dos LLMs em 26 subcampos da ciência da computação, com foco no conhecimento e no raciocínio. |
BONITINHO | CUTE é uma referência para testar o conhecimento ortográfico dos LLMs. |
Cibermétrica | CyberMetric é uma referência para avaliar o conhecimento de segurança cibernética dos LLMs. |
Banco Tcheco | CzechBench é uma referência para avaliar modelos de língua checa. |
Avaliação C | C-Eval é um conjunto de avaliação chinês para LLMs. |
Tabela de classificação da arena descentralizada | A Arena Descentralizada hospeda uma plataforma descentralizada e democrática para avaliação LLM, automatizando e dimensionando avaliações em diversas dimensões definidas pelo usuário, incluindo matemática, lógica e ciências. |
Decodificação Confiança | DecodingTrust é uma plataforma para avaliar a confiabilidade dos LLMs. |
Tabela de classificação do domínio LLM | Domain LLM Leaderboard é uma plataforma para avaliar a popularidade de LLMs específicos de domínio. |
Tabela de classificação de cenários empresariais | O Enterprise Scenarios Leaderboard rastreia e avalia o desempenho de LLMs em casos de uso corporativo do mundo real. |
Banco EQ | EQ-Bench é uma referência para avaliar aspectos de inteligência emocional em LLMs. |
Tabela de classificação europeia LLM | European LLM Leaderboard rastreia e compara o desempenho de LLMs em idiomas europeus. |
EvalGPT.ai | EvalGPT.ai hospeda uma arena de chatbot para comparar e classificar o desempenho de LLMs. |
Arena Eva | Eval Arena mede os níveis de ruído, a qualidade do modelo e a qualidade do benchmark comparando pares de modelos em vários benchmarks de avaliação LLM com análise em nível de exemplo e comparações entre pares. |
Tabela de classificação de factualidade | O Quadro de classificação de factualidade compara as capacidades factuais dos LLMs. |
FanOutQA | FanOutQA é um benchmark de alta qualidade, multi-hop e multidocumentos para LLMs usando a Wikipédia em inglês como base de conhecimento. |
Avaliação rápida | FastEval é um kit de ferramentas para avaliar rapidamente modelos de linguagem de bate-papo e acompanhamento de instruções em vários benchmarks com inferência rápida e insights detalhados de desempenho. |
FELM | FELM é um meta benchmark para avaliar benchmark de avaliação de factualidade para LLMs. |
FinEval | FinEval é uma referência para avaliar o conhecimento do domínio financeiro em LLMs. |
Tabela de classificação de ajuste fino | O Leaderboard de ajuste fino é uma plataforma para classificar e mostrar modelos que foram ajustados usando conjuntos de dados ou estruturas de código aberto. |
Chamas | Flames é uma referência chinesa altamente controversa para avaliar o alinhamento de valores dos LLMs em termos de justiça, segurança, moralidade, legalidade e proteção de dados. |
SeguirBench | FollowBench é um benchmark de seguimento de restrições refinadas de vários níveis para avaliar a capacidade de seguimento de instruções de LLMs. |
Conjunto de dados de perguntas proibidas | O conjunto de dados de perguntas proibidas é um benchmark contendo 160 perguntas de 160 categorias violadas, com metas correspondentes para avaliar métodos de jailbreak. |
Comentários sobre fusíveis | O FuseReviews visa avançar em tarefas fundamentadas de geração de texto, incluindo respostas e resumos de perguntas longas. |
GAIA | GAIA visa testar as habilidades fundamentais que um assistente de IA deve possuir. |
GAVIE | GAVIE é um benchmark assistido por GPT-4 para avaliar alucinações em LMMs, pontuando precisão e relevância sem depender de verdades anotadas por humanos. |
GPT-Fathom | GPT-Fathom é um conjunto de avaliação LLM, comparando mais de 10 LLMs líderes, bem como modelos legados da OpenAI em mais de 20 benchmarks selecionados em 7 categorias de capacidade, todos sob configurações alinhadas. |
GraalQA | Resposta a perguntas fortemente generalizáveis (GrailQA) é uma referência em larga escala e de alta qualidade para resposta a perguntas em bases de conhecimento (KBQA) no Freebase com 64.331 perguntas anotadas com respostas e formas lógicas correspondentes em sintaxe diferente (ou seja, SPARQL, expressão S , etc.). |
GTBench | GTBench é uma referência para avaliar e classificar as habilidades de raciocínio dos LLMs em ambientes competitivos através de tarefas de teoria de jogos, por exemplo, jogos de tabuleiro e cartas. |
Tabela de classificação de IA da Guerra LLM | Guerra LLM AI Leaderboard compara e classifica o desempenho dos LLMs em termos de qualidade, preço, desempenho, janela de contexto e outros. |
Tabela de classificação de alucinações | Hallucinations Leaderboard visa rastrear, classificar e avaliar alucinações em LLMs. |
HalluQA | HalluQA é uma referência para avaliar o fenômeno das alucinações em LLMs chineses. |
Tabela de classificação LLM em hebraico | O Hebrew LLM Leaderboard rastreia e classifica os modelos de idioma de acordo com seu sucesso em várias tarefas em hebraico. |
HellaSwag | HellaSwag é uma referência para avaliar o raciocínio de bom senso em LLMs. |
Tabela de classificação do modelo de avaliação de alucinações Hughes | O quadro de classificação do modelo de avaliação de alucinações Hughes é uma plataforma para avaliar com que frequência um modelo de linguagem introduz alucinações ao resumir um documento. |
Tabela de classificação LLM da Islândia | A tabela de classificação do LLM islandês rastreia e compara modelos em tarefas no idioma islandês. |
IFEval | IFEval é uma referência para avaliar as capacidades de seguimento de instruções dos LLMs com instruções verificáveis. |
IL-TUR | O IL-TUR é uma referência para avaliar modelos linguísticos em tarefas monolíngues e multilíngues focadas na compreensão e no raciocínio sobre documentos jurídicos indianos. |
Tabela de classificação LLM índica | O Indic LLM Leaderboard é uma plataforma para rastrear e comparar o desempenho dos Indic LLMs. |
Tabela de classificação do Indico LLM | O Indico LLM Leaderboard avalia e compara a precisão de vários modelos de linguagem em provedores, conjuntos de dados e recursos como classificação de texto, extração de informações importantes e resumo generativo. |
InstruirEval | InstructEval é um conjunto para avaliar métodos de seleção de instruções no contexto de LLMs. |
Tabela de classificação LLM italiana | Italian LLM-Leaderboard rastreia e compara LLMs em tarefas de língua italiana. |
Banco de Jailbreak | JailbreakBench é uma referência para avaliar vulnerabilidades LLM por meio de prompts adversários. |
Arena Japonesa de Chatbot | A Japanese Chatbot Arena hospeda a arena chatbot, onde vários LLMs competem com base em seu desempenho em japonês. |
Arnês de avaliação financeira do modelo de língua japonesa | O Arnês de Avaliação Financeira do Modelo de Língua Japonesa é um arnês para avaliação do modelo de língua japonesa no domínio financeiro. |
Referência japonesa de RPG LLM | O japonês LLM Roleplay Benchmark é uma referência para avaliar o desempenho dos LLMs japoneses na interpretação de personagens. |
JMED-LLM | JMED-LLM (conjunto de dados de avaliação médica japonesa para modelos de linguagem grande) é uma referência para avaliar LLMs na área médica japonesa. |
JMMMU | JMMMU (MMMU japonês) é um benchmark multimodal para avaliar o desempenho do LMM em japonês. |
ApenasEval | JustEval é uma ferramenta poderosa projetada para avaliação detalhada de LLMs. |
Cola | KoLA é uma referência para avaliar o conhecimento mundial dos LLMs. |
Lâmpada | LaMP (Personalização de Modelos de Linguagem) é uma referência para avaliar as capacidades de personalização de modelos de linguagem. |
Conselho de modelo de linguagem | O Language Model Council (LMC) é uma referência para avaliar tarefas que são altamente subjetivas e muitas vezes carecem de acordo humano majoritário. |
Banco de Direito | LawBench é uma referência para avaliar as capacidades jurídicas dos LLMs. |
A tabela de classificação | La Leaderboard avalia e rastreia a memorização, o raciocínio e as capacidades linguísticas do LLM na Espanha, LATAM e Caribe. |
LogicKor | LogicKor é uma referência para avaliar as capacidades de pensamento multidisciplinar dos LLMs coreanos. |
Tabela de classificação LongICL | LongICL Leaderboard é uma plataforma para avaliar longas avaliações de aprendizagem em contexto para LLMs. |
LooGLE | LooGLE é uma referência para avaliar as capacidades de compreensão de contexto longo dos LLMs. |
Lei | LAiW é uma referência para avaliar a compreensão e o raciocínio da linguagem jurídica chinesa. |
Conjunto de benchmarker LLM | LLM Benchmarker Suite é uma referência para avaliar os recursos abrangentes dos LLMs. |
Avaliação de Modelo de Grande Linguagem em Contextos Ingleses | Large Language Model Assessment in English Contexts é uma plataforma para avaliar LLMs no contexto inglês. |
Avaliação de Modelo de Grande Linguagem no Contexto Chinês | Avaliação de modelo de linguagem grande no contexto chinês é uma plataforma para avaliar LLMs no contexto chinês. |
LIBRA | LIBRA é uma referência para avaliar as capacidades dos LLMs na compreensão e processamento de textos longos em russo. |
Tabela de classificação LibrAI-Eval GenAI | LibrAI-Eval GenAI Leaderboard concentra-se no equilíbrio entre a capacidade e a segurança do LLM em inglês. |
Banco ao vivo | LiveBench é uma referência para LLMs para minimizar a contaminação do conjunto de testes e permitir avaliação objetiva e automatizada em diversas tarefas atualizadas regularmente. |
LLMEval | LLMEval é uma referência para avaliar a qualidade de conversas de domínio aberto com LLMs. |
Llmeval-Gaokao2024-Matemática | Llmeval-Gaokao2024-Math é uma referência para avaliar LLMs em problemas matemáticos de nível Gaokao 2024 em chinês. |
Tabela de classificação de alucinação LLMH | Hallucinations Leaderboard avalia LLMs com base em uma série de benchmarks relacionados a alucinações. |
LLMPerf | LLMPerf é uma ferramenta para avaliar o desempenho de LLMs usando testes de carga e de correção. |
Tabela de classificação de previsão de risco de doenças LLMs | LLMs Disease Risk Prediction Leaderboard é uma plataforma para avaliar LLMs na previsão de risco de doenças. |
Tabela de classificação LLM | O LLM Leaderboard rastreia e avalia os provedores de LLM, permitindo a seleção da API e do modelo ideais para as necessidades do usuário. |
Tabela de classificação LLM para CRM | CRM LLM Leaderboard é uma plataforma para avaliar a eficácia de LLMs para aplicações de negócios. |
Observatório LLM | O Observatório LLM é uma referência que avalia e classifica os LLMs com base no seu desempenho em evitar preconceitos sociais em categorias como orientação LGBTIQ+, idade, género, política, raça, religião e xenofobia. |
Tabela de classificação de preços LLM | O LLM Price Leaderboard rastreia e compara os custos do LLM com base em um milhão de tokens. |
Classificações LLM | O LLM Rankings oferece uma comparação em tempo real de modelos de linguagem com base no uso normalizado de tokens para prompts e conclusões, atualizados com frequência. |
Tabela de classificação de RPG LLM | LLM Roleplay Leaderboard avalia o desempenho humano e de IA em um jogo social de lobisomem para desenvolvimento de NPC. |
Tabela de classificação de segurança LLM | O LLM Safety Leaderboard visa fornecer uma avaliação unificada para a segurança do modelo de linguagem. |
Tabela de classificação de casos de uso LLM | O LLM Use Case Leaderboard rastreia e avalia LLMs em casos de uso de negócios. |
LLM-AggreFact | LLM-AggreFact é um benchmark de verificação de fatos que agrega os conjuntos de dados mais atualizados disponíveis ao público sobre avaliação fundamentada de factualidade. |
Tabela de classificação LLM | LLM-Leaderboard é um esforço conjunto da comunidade para criar uma tabela de classificação central para LLMs. |
Tabela de classificação LLM-Perf | O LLM-Perf Leaderboard visa avaliar o desempenho de LLMs com diferentes hardwares, back-ends e otimizações. |
LMExamQA | LMExamQA é uma estrutura de benchmarking onde um modelo de linguagem atua como um examinador para gerar perguntas e avaliar respostas de maneira automatizada e sem referências para uma avaliação abrangente e equitativa. |
LongBench | LongBench é uma referência para avaliar as capacidades de compreensão de contexto longo dos LLMs. |
Loong | Loong é uma referência de longo contexto para avaliar as habilidades de controle de qualidade de vários documentos dos LLMs em cenários financeiros, jurídicos e acadêmicos. |
Tabela de classificação LLM aberta quantizada de baixo bit | O placar de classificação Open LLM quantizado de baixo bit rastreia e compara LLMs de quantização com diferentes algoritmos de quantização. |
Avaliação LV | LV-Eval é um benchmark de longo contexto com cinco níveis de comprimento e técnicas avançadas para avaliação precisa de LLMs em tarefas de controle de qualidade de salto único e múltiplos saltos em conjuntos de dados bilíngues. |
LucyEval | LucyEval oferece uma avaliação completa do desempenho dos LLMs em vários contextos chineses. |
L-Eval | L-Eval é um benchmark de avaliação do Long Context Language Model (LCLM) para avaliar o desempenho do tratamento de contexto extenso. |
M3KE | M3KE é um enorme benchmark de avaliação de conhecimento multinível e multidisciplinar para medir o conhecimento adquirido por LLMs chineses. |
Metacrítica | MetaCritique é um juiz que pode avaliar críticas escritas por humanos ou geradas por LLMs, gerando críticas. |
HORTELÃ | MINT é uma referência para avaliar a capacidade dos LLMs de resolver tarefas com interações multivoltas usando ferramentas e aproveitando feedback em linguagem natural. |
Miragem | Mirage é uma referência para geração aumentada de recuperação de informações médicas, apresentando 7.663 perguntas de cinco conjuntos de dados de controle de qualidade médica e testado com 41 configurações usando o kit de ferramentas MedRag. |
MedBench | MedBench é uma referência para avaliar o domínio do conhecimento e das habilidades de raciocínio em LLMs médicos. |
Banco MedS | MedS-Bench é um benchmark médico que avalia LLMs em 11 categorias de tarefas usando 39 conjuntos de dados diversos. |
Tabela de classificação do Meta Open LLM | O placar Meta Open LLM serve como um hub central para consolidar dados de vários placares abertos do LLM em uma única página de visualização fácil de usar. |
Tabela de classificação de tomada de decisão clínica MIMIC | O MIMIC Clinical Decision Making Leaderboard rastreia e avalia LLms na tomada de decisões clínicas realistas para patologias abdominais. |
MixEval | MixEval é um benchmark para avaliar LLMs, misturando estrategicamente benchmarks prontos para uso. |
Tabela de classificação ML.ENERGY | ML.ENERGY Leaderboard avalia o consumo de energia dos LLMs. |
MMedBench | MMedBench é uma referência médica para avaliar LLMs em compreensão multilíngue. |
MMLU | MMLU é uma referência para avaliar o desempenho de LLMs em uma ampla gama de tarefas de compreensão de linguagem natural. |
Tabela de classificação MMLU por tarefa | O Leaderboard MMLU por tarefa fornece uma plataforma para avaliar e comparar vários modelos de ML em diferentes tarefas de compreensão de linguagem. |
MMLU-Pro | MMLU-Pro é uma versão mais desafiadora do MMLU para avaliar as capacidades de raciocínio dos LLMs. |
Tabela de classificação ModelScope LLM | ModelScope LLM Leaderboard é uma plataforma para avaliar LLMs de forma objetiva e abrangente. |
Tabela de classificação de avaliação de modelo | O Model Evaluation Leaderboard rastreia e avalia modelos de geração de texto com base em seu desempenho em vários benchmarks usando a estrutura Mosaic Eval Gauntlet. |
Tabela de classificação MSNP | O MSNP Leaderboard rastreia e avalia o desempenho dos modelos GGUF quantizados em várias combinações de GPU e CPU usando configurações de nó único via Ollama. |
MSTEB | MSTEB é uma referência para medir o desempenho de modelos de incorporação de texto em espanhol. |
MTEB | MTEB é uma referência massiva para medir o desempenho de modelos de incorporação de texto em diversas tarefas de incorporação em 112 idiomas. |
Arena MTEB | A MTEB Arena hospeda uma arena de modelos para avaliação dinâmica e real de modelos incorporados por meio de consultas baseadas no usuário e comparações de recuperação. |
MT-Banco-101 | MT-Bench-101 é um benchmark refinado para avaliar LLMs em diálogos multivoltas. |
MINHA tabela de classificação Malay LLM | MY Malay LLM Leaderboard visa rastrear, classificar e avaliar LLMs abertos em tarefas malaias. |
NoCha | NoCha é uma referência para avaliar quão bem os modelos de linguagem de contexto longo podem verificar afirmações escritas sobre livros de ficção. |
NPHardEval | NPHardEval é uma referência para avaliar as habilidades de raciocínio de LLMs através das lentes das classes de complexidade computacional. |
Tabela de classificação Occiglot Euro LLM | Occiglot Euro LLM Leaderboard compara LLMs em quatro idiomas principais do benchmark Okapi e Belebele (francês, italiano, alemão, espanhol e holandês). |
Bancada Olimpíada | OlympiadBench é um benchmark científico multimodal bilíngue que apresenta 8.476 problemas de matemática e física de nível olímpico com anotações de raciocínio passo a passo de nível especializado. |
Arena Olímpica | A OlympicArena é uma referência para avaliar as capacidades avançadas dos LLMs em um amplo espectro de desafios de nível olímpico. |
oobabooga | Oobabooga é uma referência para realizar testes de desempenho repetíveis de LLMs com a interface da web oobabooga. |
OpenEval | OpenEval é uma plataforma de avaliação de LLMs chineses. |
Tabela de classificação turca do OpenLLM | A tabela de classificação do OpenLLM turco acompanha o progresso e classifica o desempenho dos LLMs em turco. |
Tabela de classificação de abertura | O Openness Leaderboard rastreia e avalia a transparência dos modelos em termos de acesso aberto a pesos, dados e licenças, expondo modelos que ficam aquém dos padrões de abertura. |
Tabela de classificação de abertura | Openness Leaderboard é uma ferramenta que rastreia a abertura de LLMs ajustados à instrução, avaliando sua transparência, dados e disponibilidade de modelo. |
OpenResearcher | OpenResearcher contém os resultados de benchmarking em vários sistemas relacionados ao RAG como uma tabela de classificação. |
Tabela de classificação LLM em árabe aberto | O Open Arabic LLM Leaderboard acompanha o progresso e classifica o desempenho dos LLMs em árabe. |
Tabela de classificação LLM chinesa aberta | O Open Chinese LLM Leaderboard visa rastrear, classificar e avaliar LLMs chineses abertos. |
Tabela de classificação CoT aberta | Open CoT Leaderboard rastreia as habilidades dos LLMs para gerar traços eficazes de raciocínio em cadeia de pensamento. |
Tabela de classificação de avaliação LLM holandesa aberta | O Open Dutch LLM Evaluation Leaderboard acompanha o progresso e classifica o desempenho dos LLMs em holandês. |
Tabela de classificação LLM financeira aberta | O Open Financial LLM Leaderboard visa avaliar e comparar o desempenho dos LLMs financeiros. |
Tabela de classificação aberta do ITA LLM | Open ITA LLM Leaderboard acompanha o progresso e classifica o desempenho dos LLMs em italiano. |
Tabela de classificação Ko-LLM aberta | Open Ko-LLM Leaderboard acompanha o progresso e classifica o desempenho dos LLMs em coreano. |
Tabela de classificação LLM aberta | O Open LLM Leaderboard acompanha o progresso e classifica o desempenho dos LLMs em inglês. |
Tabela de classificação aberta do Medical-LLM | O Open Medical-LLM Leaderboard visa rastrear, classificar e avaliar LLMs abertos no domínio médico. |
Tabela de classificação MLLM aberta | O Open MLLM Leaderboard visa rastrear, classificar e avaliar LLMs e chatbots. |
Abra a tabela de classificação do MOE LLM | OPEN MOE LLM Leaderboard avalia o desempenho e a eficiência de vários LLMs Mixture of Experts (MoE). |
Tabela de avaliação de LLM multilíngue aberta | O Open Multilingual LLM Evaluation Leaderboard acompanha o progresso e classifica o desempenho dos LLMs em vários idiomas. |
Tabela de classificação Open PL LLM | Open PL LLM Leaderboard é uma plataforma para avaliar o desempenho de vários LLMs em polonês. |
Tabela de classificação LLM em português aberto | O Open PT LLM Leaderboard tem como objetivo avaliar e comparar LLMs nas tarefas de língua portuguesa. |
Tabela de classificação aberta do Taiwan LLM | A tabela de classificação do Open Taiwan LLM mostra o desempenho dos LLMs em várias tarefas de compreensão do idioma mandarim taiwanês. |
Tabela de classificação Open-LLM | Open-LLM-Leaderboard avalia LLMs em compreensão e raciocínio linguístico, fazendo a transição de questões de múltipla escolha (MCQs) para questões de estilo aberto. |
Painel OPUS-MT | OPUS-MT Dashboard é uma plataforma para rastrear e comparar modelos de tradução automática em vários pares de idiomas e métricas. |
Banco OR | OR-Bench é uma referência para avaliar a recusa excessiva de maior segurança em LLMs. |
ParsBench | ParsBench fornece kits de ferramentas para benchmarking LLMs baseados no idioma persa. |
Tabela de classificação LLM persa | O Persian LLM Leaderboard fornece uma avaliação confiável de LLMs no idioma persa. |
Tabela de classificação Pinóquio ITA | A tabela de classificação Pinóquio ITA rastreia e avalia LLMs em língua italiana. |
PL-MTEB | PL-MTEB (Polish Massive Text Embedding Benchmark) é uma referência para avaliar incorporações de texto em polonês em 28 tarefas de PNL. |
Tabela de classificação médica polonesa | O Polish Medical Leaderboard avalia modelos de idioma nos exames de certificação do conselho polonês. |
Tabela de classificação do LLM desenvolvido pela Intel | Powered-by-Intel LLM Leaderboard avalia, pontua e classifica LLMs que foram pré-treinados ou ajustados em hardware Intel. |
PubMedQA | PubMedQA é uma referência para avaliar respostas a perguntas de pesquisas biomédicas. |
PromptBench | PromptBench é uma referência para avaliar a robustez dos LLMs em prompts adversários. |
QAConv | QAConv é uma referência para resposta a perguntas usando conversas assíncronas, específicas de domínio e complexas como fonte de conhecimento. |
Qualidade | QuALITY é uma referência para avaliar respostas a perguntas de múltipla escolha com um longo contexto. |
COELHOS | RABBITS é uma referência para avaliar a robustez dos LLMs, avaliando o manuseio de sinônimos, especificamente nomes de medicamentos de marca e genéricos. |
Rakuda | Rakuda é uma referência para avaliar LLMs com base em quão bem eles respondem a um conjunto de perguntas abertas sobre tópicos japoneses. |
Redteam Arena | A Redteam Arena é uma plataforma de equipes vermelhas para o LLMS. |
Referência de resistência da equipe vermelha | A referência da Red Teaming Resistance é uma referência para avaliar a robustez do LLMS contra os avisos da Red Teaming. |
REST-MCTS* | O REST-MCTS* é um método de auto-treinamento reforçado que usa a pesquisa de pesquisa e processo de processo para coletar traços de raciocínio de alta qualidade para a política de treinamento e recompensar modelos sem anotações manuais. |
Arena de revisor | O revisor Arena hospeda a arena do revisor, onde vários LLMs competem com base em seu desempenho na crítica de trabalhos acadêmicos. |
Roleeval | O ROLEEVAL é um benchmark bilíngue para avaliar as capacidades de memorização, utilização e raciocínio do conhecimento de função do LLMS. |
RPBENCH RPBENCH | O RPBench-AUTO é um pipeline automatizado para avaliar o LLMS usando 80 personae para cenas baseadas em caracteres e 80 para interpretação baseada em cenas. |
Arena de chatbot russo | O Chatbot Arena hospeda uma arena de chatbot, onde vários LLMs competem em russo com base na satisfação do usuário. |
Supercola russa | A Supercola Russa é uma referência para os modelos de idiomas russos, com foco em tarefas de lógica, senso comum e raciocínio. |
R-Judge | R-Judge é uma referência para avaliar a proficiência do LLMS no julgamento e na identificação de riscos de segurança, dado os registros de interação do agente. |
Avisos de segurança | Os avisos de segurança são uma referência para avaliar a segurança dos LLMs chineses. |
Segurança | O SafetyBench é uma referência para avaliar a segurança do LLMS. |
Salada-banco | O banco de salada é uma referência para avaliar a segurança do LLMS. |
Escandeval | O Scandval é uma referência para avaliar o LLMS em tarefas em idiomas escandinavos, bem como alemão, holandês e inglês. |
Tabela de classificação de ciências | O Science Liderboard é uma plataforma para avaliar os recursos da LLMS para resolver problemas científicos. |
Sciglm | O SCIGLM é um conjunto de modelos de idiomas científicos que usam uma estrutura de anotação de instruções auto-reflexiva para aprimorar o raciocínio científico, gerando e revisando soluções passo a passo para perguntas não marcadas. |
Sciknoweval | A Sciknoweval é uma referência para avaliar os LLMs com base em sua proficiência em estudar extensivamente, perguntando sinceramente, pensando profundamente, discernindo claramente e praticando assiduamente. |
Rolls | A Scrolls é uma referência para avaliar os recursos de raciocínio do LLMS em textos longos. |
SeaExam | O SeaExam é uma referência para avaliar o LLMS para idiomas do Sudeste Asiático (Mar). |
Tabelas de classificação do Seal LLM | As tabelas de classificação do Seal LLM são uma plataforma de avaliação privada de especialistas para o LLMS. |
Seaeaval | O Seaeeval é uma referência para avaliar o desempenho de LLMs multilíngues no entendimento e raciocínio com a linguagem natural, além de compreender práticas culturais, nuances e valores. |
Leme do mar | O Sea Helm é uma referência para avaliar o desempenho da LLMS nas tarefas de inglês e sudeste asiático, concentrando-se no bate-papo, acompanhamento de instruções e capacidades linguísticas. |
SECEVAL | O SECEVAL é uma referência para avaliar o conhecimento de segurança cibernética dos modelos de fundação. |
Tabela de classificação auto-improvante | O Rabela de Lábia Auto-Improvante (SIL) é uma plataforma dinâmica que atualiza continuamente os conjuntos de dados e classificações de teste para fornecer informações de desempenho em tempo real para LLMs e chatbots de código aberto. |
Banco de especificações | O banco de especificações é uma referência para avaliar métodos de decodificação especulativa em diversos cenários. |
Structeval | O Structeval é uma referência para avaliar o LLMS, realizando avaliações estruturadas em vários níveis cognitivos e conceitos críticos. |
Tabela de classificação Subquadratic LLM | A tabela de classificação Subquadratic LLM avalia LLMs com arquiteturas subquadráticas/sem atenção (ou seja, RWKV e Mamba). |
Superbench | O Superbench é um sistema abrangente de tarefas e dimensões para avaliar os recursos gerais do LLMS. |
Supercola | Superclue é uma referência para avaliar o desempenho do LLMS em um conjunto de tarefas desafiadoras de compreensão de idiomas. |
Superlim | O Superlim é uma referência para avaliar os recursos de compreensão do idioma do LLMS no sueco. |
Swahili LLM-Leaderboard | A Swahili LLM-Leaderboard é um esforço conjunto da comunidade para criar uma tabela de classificação central para o LLMS. |
S-EVAL | O S-EVAL é uma referência abrangente de segurança multidimensional, com 220.000 prompts projetados para avaliar a segurança do LLM em várias dimensões de risco. |
TABLEQAEVAL | O TableQaeval é uma referência para avaliar o desempenho do LLM na modelagem de tabelas e recursos de compreensão longos, como raciocínio numérico e multi-hop. |
TAT-DQA | O TAT-DQA é uma referência para avaliar o LLMS no raciocínio discreto sobre documentos que combinam informações estruturadas e não estruturadas. |
Tat-qa | O TAT-QA é uma referência para avaliar o LLMS no raciocínio discreto sobre documentos que combinam conteúdo tabular e textual. |
Tabela de classificação Thai Llm | A tabela de classificação Thai LLM pretende rastrear e avaliar o LLMS nas tarefas de língua tailandesa. |
A pilha | A pilha é uma referência para avaliar o conhecimento mundial e a capacidade de raciocínio do LLMS. |
TOFU | O tofu é uma referência para avaliar o desempenho desaprendizado de LLMs em cenários realistas. |
TOLOKA LLM LIGADO RABELA | O TOLOKA LLM LIGLED ROBLEM é uma referência para avaliar o LLMS com base em avisos autênticos de usuários e avaliação humana especializada. |
Toolbench | O Toolbench é uma plataforma para treinamento, atendimento e avaliação do LLMS especificamente para o aprendizado de ferramentas. |
Tabela de classificação de toxicidade | O Toxicidade Lideronding avalia a toxicidade do LLMS. |
Tabelas de classificação da Trustbit LLM | As tabelas de classificação da Trustbit LLM são uma plataforma que fornece benchmarks para a construção e envio de produtos com LLMS. |
Confiança | O Trustllm é uma referência para avaliar a confiabilidade do LLMS. |
TuringAdvice | O TuringAdvice é uma referência para avaliar a capacidade dos modelos de idiomas de gerar conselhos úteis para situações abertas da vida real. |
Tutoreval | O tutoreval é um benchmark de resposta à pergunta que avalia o quão bem um tutor de LLM pode ajudar um usuário a entender um capítulo de um livro de ciências. |
T-EVAL | O T-EVAL é uma referência para avaliar a capacidade de utilização da ferramenta do LLMS. |
RABELA DE LIGADOR UGI | A tabela de classificação da UGI mede e compara as informações não censuradas e controversas conhecidas pelo LLMS. |
Ultraeval | O Ultraeval é uma estrutura de código aberto para o benchmarking transparente e reproduzível dos LLMs em várias dimensões de desempenho. |
Vals ai | Vals AI é uma plataforma que avalia a precisão e eficácia generativa da IA em tarefas legais do mundo real. |
VCR | O Raciocínio Visual Commonse (videocassete) é uma referência para o entendimento visual no nível da cognição, exigindo que os modelos respondam a perguntas visuais e forneçam justificativas para suas respostas. |
Vidore | Vidore é uma referência para avaliar modelos de recuperação em sua capacidade de corresponder às consultas a documentos relevantes no nível da página. |
VLLMS LIGADO RANECIDADE | O VLLMS LIFERBOLE DO LIGERDE RATIMENTO, CLAIGEM E AVALIA LLMS E ABERTA DE CHATBOTS. |
Vmlu | O VMLU é uma referência para avaliar as capacidades gerais dos modelos de fundação em vietnamita. |
Wildbench | O Wildbench é uma referência para avaliar modelos de linguagem em tarefas desafiadoras que se assemelham a aplicativos do mundo real. |
Xiezhi | Xiezhi é uma referência para avaliação de conhecimento holística do domínio do LLMS. |
Arena Yanolja | A Yanolja Arena hospeda uma arena modelo para avaliar as capacidades do LLMS para resumir e traduzir o texto. |
Mais uma tabela de classificação LLM | Outra tabela de classificação LLM é uma plataforma para rastrear, classificar e avaliar LLMs e chatbots abertos. |
Zebralogic | O Zebralogic é uma referência que avalia o raciocínio lógico da LLMS usando quebra -cabeças da grade lógica, um tipo de problema de satisfação de restrição (CSP). |
Zerosumeval | O Zerosumeval é uma estrutura de avaliação competitiva para LLMs usando simulações multiplayer com condições claras de vitória. |