ACLUE | ACLUE es un punto de referencia de evaluación para la comprensión del idioma chino antiguo. |
Tabla de clasificación de evaluación de LLM de idiomas africanos | La tabla de clasificación de evaluación de LLM de idiomas africanos rastrea el progreso y clasifica el desempeño de los LLM en idiomas africanos. |
Tablero de agentes | AgentBoard es un punto de referencia para agentes LLM de múltiples turnos, complementado con un tablero de evaluación analítica para una evaluación detallada del modelo más allá de las tasas de éxito finales. |
AGIEval | AGIEval es un punto de referencia centrado en el ser humano para evaluar las habilidades generales de los modelos básicos en tareas pertinentes a la cognición humana y la resolución de problemas. |
Tabla de clasificación de Aiera | Aiera Leaderboard evalúa el desempeño de LLM en tareas de inteligencia financiera, incluidas las asignaciones de oradores, la identificación de cambios de oradores, resúmenes abstractivos, preguntas y respuestas basadas en cálculos y etiquetado de sentimientos financieros. |
Banco AIR | AIR-Bench es un punto de referencia para evaluar las capacidades de recuperación de información heterogénea de los modelos de lenguaje. |
Tabla de clasificación de puntuación de energía de IA | AI Energy Score Leaderboard rastrea y compara diferentes modelos en eficiencia energética. |
puntos de referencia ai | ai-benchmarks contiene algunos resultados de evaluación de la latencia de respuesta de servicios populares de IA. |
AlinearBanco | AlignBench es un punto de referencia multidimensional para evaluar la alineación de los LLM en chino. |
AlpacaEval | AlpacaEval es un evaluador automático diseñado para LLM que siguen instrucciones. |
ANGO | ANGO es un punto de referencia de evaluación del modelo de idioma chino orientado a la generación. |
Tabla de clasificación de tokenizadores árabes | La tabla de clasificación de tokenizadores árabes compara la eficiencia de los LLM en el análisis del árabe en sus diferentes dialectos y formas. |
Arena-Difícil-Auto | Arena-Hard-Auto es un punto de referencia para los LLM ajustados a la instrucción. |
carrera automática | AutoRace se centra en la evaluación directa de cadenas de razonamiento LLM con la métrica AutoRace (Evaluación automatizada de la cadena de razonamiento). |
Arena automática | Auto Arena es un punto de referencia en el que varios agentes modelo de lenguaje participan en batallas entre pares para evaluar su desempeño. |
Auto-J | Auto-J aloja los resultados de la evaluación en las tareas de comparación de respuestas por pares y generación de críticas. |
BABILargo | BABILong es un punto de referencia para evaluar el rendimiento de modelos de lenguaje en el procesamiento de documentos arbitrariamente largos con hechos distribuidos. |
BBL | BBL (BIG-bench Lite) es un pequeño subconjunto de 24 tareas JSON diversas de BIG-bench. Está diseñado para proporcionar una medida canónica del rendimiento del modelo, y al mismo tiempo es mucho más económico de evaluar que el conjunto completo de más de 200 tareas programáticas y JSON en BIG-bench. |
Sea honesto | BeHonest es un punto de referencia para evaluar la honestidad (conciencia de los límites del conocimiento (autoconocimiento), evitación del engaño (no engaño) y coherencia en las respuestas (consistencia) - en los LLM. |
benbanco | BenBench es un punto de referencia para evaluar en qué medida los LLM realizan capacitación palabra por palabra en el conjunto de entrenamiento de un punto de referencia sobre el conjunto de pruebas para mejorar las capacidades. |
BenChecoMark | BenCzechMark (BCM) es un punto de referencia del idioma checo multitarea y multimétrico para LLM con un sistema de puntuación único que utiliza la teoría de la significación estadística. |
Banco BiGGen | BiGGen-Bench es un punto de referencia integral para evaluar LLM en una amplia variedad de tareas. |
chatbot | BotChat es un punto de referencia para evaluar las capacidades de chat de múltiples rondas de los LLM a través de una tarea de proxy. |
JurisprudenciaQA | CaselawQA es un punto de referencia que comprende tareas de clasificación legal derivadas de las bases de datos legales de la Corte Suprema y la Corte de Apelaciones de Songer. |
FLUE | CFLUE es un punto de referencia para evaluar la comprensión y las capacidades de procesamiento de los LLM en el ámbito financiero chino. |
Ch3Ef | Ch3Ef es un punto de referencia para evaluar la alineación con las expectativas humanas utilizando 1002 muestras anotadas por humanos en 12 dominios y 46 tareas basadas en el principio hhh. |
Centro de cadena de pensamiento | Chain-of-Thought Hub es un punto de referencia para evaluar las capacidades de razonamiento de los LLM. |
Arena de chatbots | Chatbot Arena alberga un chatbot arena donde varios LLM compiten en función de la satisfacción del usuario. |
banco de química | ChemBench es un punto de referencia para evaluar el conocimiento químico y la capacidad de razonamiento de los LLM. |
Control de calidad simple chino | Chinese SimpleQA es un punto de referencia chino para evaluar la capacidad objetiva de los modelos de lenguaje para responder preguntas breves. |
Tabla de clasificación CLEM | CLEM es un marco diseñado para la evaluación sistemática de LLM optimizados para chat como agentes conversacionales. |
CLEVA | CLEVA es un punto de referencia para evaluar LLM en 31 tareas utilizando 370.000 consultas chinas de 84 conjuntos de datos diversos y 9 métricas. |
Clasificación de modelos grandes chinos | Chinese Large Model Leaderboard es una plataforma para evaluar el desempeño de los LLM chinos. |
CMB | CMB es un punto de referencia médico multinivel en chino. |
CMMLU | CMMLU es un punto de referencia para evaluar el desempeño de los LLM en diversas materias dentro del contexto cultural chino. |
CMMU | CMMMU es un punto de referencia para evaluar LMM en tareas que exigen conocimientos temáticos de nivel universitario y razonamiento deliberado en un contexto chino. |
Generación común | CommonGen es un punto de referencia para evaluar el razonamiento generativo de sentido común probando la capacidad de las máquinas para componer oraciones coherentes utilizando un conjunto determinado de conceptos comunes. |
Mezcla compuesta | CompMix es un punto de referencia para la respuesta a preguntas heterogéneas. |
Tabla de clasificación de tasa de compresión | La tabla de clasificación de tasa de compresión tiene como objetivo evaluar el rendimiento del tokenizador en diferentes idiomas. |
Tabla de clasificación de compresión | Compression Leaderboard es una plataforma para evaluar el rendimiento de compresión de los LLM. |
banco de copias | CopyBench es un punto de referencia para evaluar el comportamiento de copia y la utilidad de los modelos lingüísticos, así como la eficacia de los métodos para mitigar los riesgos de derechos de autor. |
CoTaEval | CoTaEval es un punto de referencia para evaluar la viabilidad y los efectos secundarios de los métodos de eliminación de derechos de autor para los LLM. |
ConvRe | ConvRe es un punto de referencia para evaluar la capacidad de los LLM para comprender relaciones conversacionales. |
Evaluación crítica | CriticEval es un punto de referencia para evaluar la capacidad de los LLM para dar respuestas críticas. |
Banco CS | CS-Bench es un punto de referencia bilingüe diseñado para evaluar el desempeño de los LLM en 26 subcampos de ciencias de la computación, enfocándose en el conocimiento y el razonamiento. |
LINDO | CUTE es un punto de referencia para evaluar el conocimiento ortográfico de los LLM. |
Cibermétrica | CyberMetric es un referente para evaluar el conocimiento en ciberseguridad de los LLM. |
checobanco | CzechBench es un punto de referencia para evaluar modelos de lengua checa. |
Evaluación C | C-Eval es un conjunto de evaluación chino para LLM. |
Tabla de clasificación de arena descentralizada | Decentralized Arena alberga una plataforma descentralizada y democrática para la evaluación de LLM, la automatización y ampliación de evaluaciones en diversas dimensiones definidas por el usuario, incluidas matemáticas, lógica y ciencias. |
DecodificaciónConfianza | DecodingTrust es una plataforma para evaluar la confiabilidad de los LLM. |
Tabla de clasificación de dominio LLM | Domain LLM Leaderboard es una plataforma para evaluar la popularidad de los LLM de dominios específicos. |
Clasificación de escenarios empresariales | Enterprise Scenarios Leaderboard rastrea y evalúa el desempeño de los LLM en casos de uso empresarial del mundo real. |
Banco de ecualización | EQ-Bench es un referente para evaluar aspectos de la inteligencia emocional en LLM. |
Clasificación europea de LLM | La tabla de clasificación europea de LLM rastrea y compara el desempeño de los LLM en idiomas europeos. |
EvaluaciónGPT.ai | EvalGPT.ai alberga un campo de chatbot para comparar y clasificar el desempeño de los LLM. |
Arena de evaluación | Eval Arena mide los niveles de ruido, la calidad del modelo y la calidad de los puntos de referencia comparando pares de modelos en varios puntos de referencia de evaluación de LLM con análisis a nivel de ejemplo y comparaciones por pares. |
Tabla de clasificación de factualidad | Factuality Leaderboard compara las capacidades fácticas de los LLM. |
FanOutQA | FanOutQA es un punto de referencia de múltiples documentos y saltos múltiples de alta calidad para LLM que utilizan Wikipedia en inglés como base de conocimientos. |
evaluación rápida | FastEval es un conjunto de herramientas para evaluar rápidamente modelos de lenguaje de chat y seguimiento de instrucciones en varios puntos de referencia con inferencia rápida e información detallada sobre el rendimiento. |
FELMA | FELM es un meta punto de referencia para evaluar el punto de referencia de evaluación de factualidad para LLM. |
FinEval | FinEval es un punto de referencia para evaluar el conocimiento del dominio financiero en LLM. |
Tabla de clasificación de ajuste | Fine-tuning Leaderboard es una plataforma para clasificar y mostrar modelos que se han ajustado utilizando conjuntos de datos o marcos de código abierto. |
Llamas | Flames es un punto de referencia chino altamente conflictivo para evaluar la alineación de valores de los LLM en materia de equidad, seguridad, moralidad, legalidad y protección de datos. |
SeguirBanco | FollowBench es un punto de referencia de seguimiento de restricciones detalladas de varios niveles para evaluar la capacidad de seguimiento de instrucciones de los LLM. |
Conjunto de datos de preguntas prohibidas | Forbidden Question Dataset es un punto de referencia que contiene 160 preguntas de 160 categorías violadas, con los objetivos correspondientes para evaluar métodos de jailbreak. |
Reseñas de fusibles | FuseReviews tiene como objetivo avanzar en las tareas de generación de texto fundamentadas, incluidas las respuestas a preguntas largas y los resúmenes. |
GAIA | GAIA tiene como objetivo probar las habilidades fundamentales que debería poseer un asistente de IA. |
GAVIE | GAVIE es un punto de referencia asistido por GPT-4 para evaluar las alucinaciones en LMM mediante la puntuación de la precisión y la relevancia sin depender de la verdad fundamental anotada por humanos. |
GPT-braza | GPT-Fathom es un conjunto de evaluación de LLM, que compara más de 10 LLM líderes, así como los modelos heredados de OpenAI en más de 20 puntos de referencia seleccionados en 7 categorías de capacidades, todos en configuraciones alineadas. |
GrialQA | La respuesta a preguntas fuertemente generalizable (GrailQA) es un punto de referencia a gran escala y de alta calidad para responder preguntas sobre bases de conocimiento (KBQA) en Freebase con 64,331 preguntas anotadas con respuestas y formas lógicas correspondientes en diferente sintaxis (es decir, SPARQL, expresión S , etc.). |
GTBanco | GTBench es un punto de referencia para evaluar y clasificar las habilidades de razonamiento de los LLM en entornos competitivos a través de tareas de teoría de juegos, por ejemplo, juegos de mesa y de cartas. |
Tabla de clasificación de IA de Guerra LLM | Guerra LLM AI Leaderboard compara y clasifica el desempeño de los LLM en términos de calidad, precio, rendimiento, ventana de contexto y otros. |
Tabla de clasificación de alucinaciones | Hallucinations Leaderboard tiene como objetivo rastrear, clasificar y evaluar las alucinaciones en LLM. |
HalluQA | HalluQA es un punto de referencia para evaluar el fenómeno de las alucinaciones en los LLM chinos. |
Tabla de clasificación de LLM en hebreo | La tabla de clasificación de LLM en hebreo rastrea y clasifica los modelos lingüísticos según su éxito en diversas tareas en hebreo. |
HellaSwag | HellaSwag es un punto de referencia para evaluar el razonamiento de sentido común en los LLM. |
Tabla de clasificación del modelo de evaluación de alucinaciones de Hughes | La tabla de clasificación del modelo de evaluación de alucinaciones de Hughes es una plataforma para evaluar la frecuencia con la que un modelo de lenguaje introduce alucinaciones al resumir un documento. |
Clasificación LLM islandesa | La tabla de clasificación de LLM islandés rastrea y compara modelos en tareas en idioma islandés. |
Valor IFE | IFEval es un punto de referencia para evaluar las capacidades de seguimiento de instrucciones de los LLM con instrucciones verificables. |
IL-TUR | IL-TUR es un punto de referencia para evaluar modelos lingüísticos en tareas monolingües y multilingües centradas en la comprensión y el razonamiento de documentos legales indios. |
Clasificación índica de LLM | Indic LLM Leaderboard es una plataforma para rastrear y comparar el desempeño de Indic LLM. |
Tabla de clasificación de LLM de Indico | Indico LLM Leaderboard evalúa y compara la precisión de varios modelos de lenguaje entre proveedores, conjuntos de datos y capacidades como clasificación de texto, extracción de información clave y resumen generativo. |
InstruirEval | InstructEval es una suite para evaluar métodos de selección de instrucciones en el contexto de LLM. |
Tabla de clasificación de LLM italiano | Italian LLM-Leaderboard rastrea y compara LLM en tareas en italiano. |
JailbreakBanco | JailbreakBench es un punto de referencia para evaluar las vulnerabilidades de LLM a través de indicaciones adversas. |
Arena japonesa de chatbots | Japanese Chatbot Arena alberga el chatbot arena, donde varios LLM compiten en función de su desempeño en japonés. |
Arnés de evaluación financiera modelo de idioma japonés | El arnés de evaluación financiera del modelo de idioma japonés es un arnés para la evaluación del modelo de idioma japonés en el ámbito financiero. |
Punto de referencia del juego de roles LLM japonés | Japanese LLM Roleplay Benchmark es un punto de referencia para evaluar el desempeño de los LLM japoneses en juegos de roles de personajes. |
JMED-LLM | JMED-LLM (Conjunto de datos de evaluación médica japonesa para modelos de lenguaje grande) es un punto de referencia para evaluar los LLM en el campo médico del japonés. |
JMMMU | JMMMU (MMMU japonés) es un punto de referencia multimodal para evaluar el rendimiento de LMM en japonés. |
JustEval | JustEval es una poderosa herramienta diseñada para una evaluación detallada de los LLM. |
Kola | KoLA es un referente para evaluar el conocimiento mundial de los LLM. |
Lámpara | LaMP (Personalización de modelos de lenguaje) es un punto de referencia para evaluar las capacidades de personalización de los modelos de lenguaje. |
Consejo Modelo Lingüístico | Language Model Council (LMC) es un punto de referencia para evaluar tareas que son altamente subjetivas y que a menudo carecen de un acuerdo humano mayoritario. |
Banco de Derecho | LawBench es un punto de referencia para evaluar las capacidades legales de los LLM. |
Tabla de clasificación | La Leaderboard evalúa y rastrea la memorización, el razonamiento y las capacidades lingüísticas del LLM en España, LATAM y el Caribe. |
LógicaKor | LogicKor es un punto de referencia para evaluar las capacidades de pensamiento multidisciplinario de los LLM coreanos. |
Tabla de clasificación larga ICL | LongICL Leaderboard es una plataforma para evaluar evaluaciones largas de aprendizaje en contexto para LLM. |
LooGLE | LooGLE es un punto de referencia para evaluar las capacidades de comprensión del contexto a largo plazo de los LLM. |
LEY | LAiW es un punto de referencia para evaluar la comprensión y el razonamiento del lenguaje jurídico chino. |
Suite de evaluación comparativa de LLM | LLM Benchmarker Suite es un punto de referencia para evaluar las capacidades integrales de los LLM. |
Evaluación de modelos de lenguaje grandes en contextos ingleses | Large Language Model Assessment in English Contexts es una plataforma para evaluar LLM en el contexto inglés. |
Evaluación de modelos de lenguaje grande en el contexto chino | Large Language Model Assessment in the Chinese Context es una plataforma para evaluar LLM en el contexto chino. |
LIBRA | LIBRA es un punto de referencia para evaluar las capacidades de los LLM para comprender y procesar textos largos en ruso. |
Tabla de clasificación de LibraAI-Eval GenAI | La tabla de clasificación LibrAI-Eval GenAI se centra en el equilibrio entre la capacidad del LLM y la seguridad en inglés. |
banco en vivo | LiveBench es un punto de referencia para que los LLM minimicen la contaminación del conjunto de pruebas y permitan una evaluación objetiva y automatizada en diversas tareas que se actualizan periódicamente. |
Valor LLME | LLMEval es un punto de referencia para evaluar la calidad de las conversaciones de dominio abierto con LLM. |
Llmeval-Gaokao2024-Matemáticas | Llmeval-Gaokao2024-Math es un punto de referencia para evaluar los LLM en problemas matemáticos del nivel Gaokao 2024 en chino. |
Tabla de clasificación de alucinaciones LLMH | Hallucinations Leaderboard evalúa los LLM en función de una variedad de puntos de referencia relacionados con las alucinaciones. |
LLMPerf | LLMPerf es una herramienta para evaluar el rendimiento de los LLM mediante pruebas de carga y de corrección. |
Tabla de clasificación de predicción de riesgo de enfermedades de LLM | La tabla de clasificación de predicción de riesgo de enfermedades de LLM es una plataforma para evaluar los LLM sobre predicción de riesgo de enfermedades. |
Tabla de clasificación de LLM | LLM Leaderboard rastrea y evalúa a los proveedores de LLM, lo que permite seleccionar la API y el modelo óptimos para las necesidades del usuario. |
Tabla de clasificación de LLM para CRM | CRM LLM Leaderboard es una plataforma para evaluar la eficacia de los LLM para aplicaciones comerciales. |
Observatorio LLM | El Observatorio LLM es un punto de referencia que evalúa y clasifica a los LLM en función de su desempeño para evitar prejuicios sociales en categorías como orientación LGBTIQ+, edad, género, política, raza, religión y xenofobia. |
Tabla de clasificación de precios de LLM | LLM Price Leaderboard rastrea y compara los costos de LLM en función de un millón de tokens. |
Clasificaciones de Maestría en Derecho | LLM Rankings ofrece una comparación en tiempo real de modelos de lenguaje basados en el uso de tokens normalizados para indicaciones y finalización, que se actualiza con frecuencia. |
Tabla de clasificación de juegos de rol de LLM | LLM Roleplay Leaderboard evalúa el desempeño humano y de la IA en un juego social de hombres lobo para el desarrollo de NPC. |
Tabla de clasificación de seguridad de LLM | LLM Safety Leaderboard tiene como objetivo proporcionar una evaluación unificada de la seguridad del modelo lingüístico. |
Tabla de clasificación de casos de uso de LLM | La tabla de clasificación de casos de uso de LLM rastrea y evalúa los LLM en casos de uso comerciales. |
LLM-AggreFact | LLM-AggreFact es un punto de referencia de verificación de hechos que agrega los conjuntos de datos más actualizados disponibles públicamente sobre una evaluación de factualidad fundamentada. |
LLM-Tabla de clasificación | LLM-Leaderboard es un esfuerzo comunitario conjunto para crear una tabla de clasificación central para LLM. |
Tabla de clasificación de LLM-Perf | LLM-Perf Leaderboard tiene como objetivo comparar el rendimiento de los LLM con diferentes hardware, backends y optimizaciones. |
LMExamQA | LMExamQA es un marco de evaluación comparativa en el que un modelo de lenguaje actúa como examinador para generar preguntas y evaluar respuestas de manera automatizada y sin referencias para una evaluación integral y equitativa. |
banco largo | LongBench es un punto de referencia para evaluar las capacidades de comprensión del contexto a largo plazo de los LLM. |
loong | Loong es un punto de referencia de contexto largo para evaluar las capacidades de control de calidad de múltiples documentos de los LLM en escenarios financieros, legales y académicos. |
Tabla de clasificación de LLM abierta cuantificada de bits bajos | La tabla de clasificación de LLM abierta cuantificada de bits bajos rastrea y compara los LLM de cuantificación con diferentes algoritmos de cuantificación. |
Evaluación VI | LV-Eval es un punto de referencia de contexto largo con cinco niveles de longitud y técnicas avanzadas para una evaluación precisa de LLM en tareas de control de calidad de un solo salto y de múltiples saltos en conjuntos de datos bilingües. |
LucyEval | LucyEval ofrece una evaluación exhaustiva del desempeño de los LLM en varios contextos chinos. |
Evaluación L | L-Eval es un punto de referencia de evaluación del modelo de lenguaje de contexto largo (LCLM) para evaluar el desempeño del manejo de contexto extenso. |
M3KE | M3KE es un punto de referencia masivo de evaluación de conocimientos de múltiples niveles y múltiples materias para medir el conocimiento adquirido por los LLM chinos. |
Metacrítica | MetaCritique es un juez que puede evaluar críticas escritas por humanos o generadas por LLM generando críticas. |
MENTA | MINT es un punto de referencia para evaluar la capacidad de los LLM para resolver tareas con interacciones de múltiples turnos mediante el uso de herramientas y aprovechando la retroalimentación del lenguaje natural. |
Espejismo | Mirage es un punto de referencia para la generación aumentada de recuperación de información médica, que presenta 7663 preguntas de cinco conjuntos de datos de control de calidad médico y se prueba con 41 configuraciones utilizando el kit de herramientas MedRag. |
banco médico | MedBench es un punto de referencia para evaluar el dominio del conocimiento y la capacidad de razonamiento en los LLM médicos. |
Banco MedS | MedS-Bench es un punto de referencia médico que evalúa los LLM en 11 categorías de tareas utilizando 39 conjuntos de datos diversos. |
Tabla de clasificación de Meta Open LLM | La tabla de clasificación Meta Open LLM sirve como un centro para consolidar datos de varias tablas de clasificación abiertas de LLM en una única página de visualización fácil de usar. |
Tabla de clasificación de toma de decisiones clínicas MIMIC | La tabla de clasificación de toma de decisiones clínicas MIMIC rastrea y evalúa los LLm en la toma de decisiones clínicas realistas para patologías abdominales. |
MezclaEval | MixEval es un punto de referencia para evaluar los LLM mediante la combinación estratégica de puntos de referencia disponibles en el mercado. |
Tabla de clasificación de ML.ENERGY | ML.ENERGY Leaderboard evalúa el consumo de energía de los LLM. |
MMedbanco | MMedBench es un punto de referencia médico para evaluar LLM en comprensión multilingüe. |
MMLU | MMLU es un punto de referencia para evaluar el desempeño de los LLM en una amplia gama de tareas de comprensión del lenguaje natural. |
Tabla de clasificación de MMLU por tarea | La tabla de clasificación MMLU por tarea proporciona una plataforma para evaluar y comparar varios modelos de aprendizaje automático en diferentes tareas de comprensión del idioma. |
MMLU-Pro | MMLU-Pro es una versión más desafiante de MMLU para evaluar las capacidades de razonamiento de los LLM. |
Tabla de clasificación de LLM de ModelScope | ModelScope LLM Leaderboard es una plataforma para evaluar los LLM de manera objetiva e integral. |
Tabla de clasificación de evaluación de modelos | La tabla de clasificación de evaluación de modelos rastrea y evalúa los modelos de generación de texto en función de su rendimiento en varios puntos de referencia utilizando el marco Mosaic Eval Gauntlet. |
Tabla de clasificación MSNP | MSNP Leaderboard rastrea y evalúa el rendimiento de los modelos GGUF cuantificados en varias combinaciones de GPU y CPU utilizando configuraciones de un solo nodo a través de Ollama. |
MSTEB | MSTEB es un referente para medir el rendimiento de modelos de incrustación de texto en español. |
MTEB | MTEB es un punto de referencia enorme para medir el rendimiento de los modelos de incrustación de texto en diversas tareas de incrustación en 112 idiomas. |
MTBArena | MTEB Arena alberga un campo de modelos para la evaluación dinámica y real de modelos integrados a través de consultas y comparaciones de recuperación basadas en el usuario. |
MT-Banco-101 | MT-Bench-101 es un punto de referencia detallado para evaluar LLM en diálogos de múltiples turnos. |
Tabla de clasificación de MY Malay LLM | MY Malay LLM Leaderboard tiene como objetivo rastrear, clasificar y evaluar los LLM abiertos en tareas malayas. |
NoCha | NoCha es un punto de referencia para evaluar qué tan bien los modelos de lenguaje de contexto prolongado pueden verificar las afirmaciones escritas sobre libros de ficción. |
NPHardEval | NPHardEval es un punto de referencia para evaluar las capacidades de razonamiento de los LLM a través de la lente de clases de complejidad computacional. |
Clasificación Occiglot Euro LLM | La tabla de clasificación Occiglot Euro LLM compara los LLM en cuatro idiomas principales del índice de referencia Okapi y Belebele (francés, italiano, alemán, español y holandés). |
olimpiadabanco | OlympiadBench es un punto de referencia científico multimodal bilingüe que presenta 8.476 problemas de matemáticas y física de nivel olímpico con anotaciones de razonamiento paso a paso de nivel experto. |
Arena Olímpica | OlympicArena es un punto de referencia para evaluar las capacidades avanzadas de los LLM en un amplio espectro de desafíos a nivel olímpico. |
oobabooga | Oobabooga es un punto de referencia para realizar pruebas de rendimiento repetibles de LLM con la interfaz de usuario web de oobabooga. |
OpenEval | OpenEval es una plataforma de evaluación para evaluar LLM chinos. |
Clasificación turca OpenLLM | La tabla de clasificación turca de OpenLLM rastrea el progreso y clasifica el desempeño de los LLM en turco. |
Tabla de clasificación de apertura | Openness Leaderboard rastrea y evalúa la transparencia de los modelos en términos de acceso abierto a pesos, datos y licencias, exponiendo modelos que no cumplen con los estándares de apertura. |
Tabla de clasificación de apertura | Openness Leaderboard es una herramienta que rastrea la apertura de los LLM ajustados a la instrucción, evaluando su transparencia, datos y disponibilidad de modelos. |
Investigador abierto | OpenResearcher contiene los resultados de la evaluación comparativa de varios sistemas relacionados con RAG como tabla de clasificación. |
Tabla de clasificación de LLM en árabe abierto | La tabla de clasificación de LLM en árabe abierto realiza un seguimiento del progreso y clasifica el desempeño de los LLM en árabe. |
Tabla de clasificación abierta de LLM en chino | Open Chinese LLM Leaderboard tiene como objetivo rastrear, clasificar y evaluar los LLM abiertos en chino. |
Tabla de clasificación de CoT abierta | Open CoT Leaderboard rastrea las habilidades de los LLM para generar rastros efectivos de razonamiento en cadena de pensamiento. |
Tabla de clasificación de evaluación de LLM abierta en holandés | La tabla de clasificación de evaluación de LLM de Open Dutch rastrea el progreso y clasifica el desempeño de los LLM en holandés. |
Tabla de clasificación de LLM financiero abierto | Open Financial LLM Leaderboard tiene como objetivo evaluar y comparar el desempeño de los LLM financieros. |
Tabla de clasificación abierta de ITA LLM | Open ITA LLM Leaderboard rastrea el progreso y clasifica el desempeño de los LLM en italiano. |
Tabla de clasificación abierta de Ko-LLM | Open Ko-LLM Leaderboard rastrea el progreso y clasifica el desempeño de los LLM en coreano. |
Abrir tabla de clasificación de LLM | Open LLM Leaderboard realiza un seguimiento del progreso y clasifica el desempeño de los LLM en inglés. |
Tabla de clasificación abierta de Medical-LLM | Open Medical-LLM Leaderboard tiene como objetivo rastrear, clasificar y evaluar los LLM abiertos en el ámbito médico. |
Abrir tabla de clasificación de MLLM | Open MLLM Leaderboard tiene como objetivo rastrear, clasificar y evaluar LLM y chatbots. |
Abrir tabla de clasificación de LLM de MOE | OPEN MOE LLM Leaderboard evalúa el desempeño y la eficiencia de varios LLM de combinación de expertos (MoE). |
Tabla de clasificación de evaluación de LLM multilingüe abierta | La tabla de clasificación de evaluación de LLM multilingüe abierta rastrea el progreso y clasifica el desempeño de los LLM en varios idiomas. |
Tabla de clasificación Open PL LLM | Open PL LLM Leaderboard es una plataforma para evaluar el desempeño de varios LLM en polaco. |
Tabla de clasificación abierta de LLM en portugués | Open PT LLM Leaderboard tiene como objetivo evaluar y comparar LLM en las tareas de idioma portugués. |
Tabla de clasificación LLM abierta de Taiwán | La tabla de clasificación de Open Taiwan LLM muestra el desempeño de los LLM en diversas tareas de comprensión del idioma mandarín taiwanés. |
Tabla de clasificación abierta-LLM | Open-LLM-Leaderboard evalúa los LLM en comprensión y razonamiento del lenguaje mediante la transición de preguntas de opción múltiple (MCQ) a preguntas de estilo abierto. |
Panel de control OPUS-MT | OPUS-MT Dashboard es una plataforma para rastrear y comparar modelos de traducción automática en múltiples pares de idiomas y métricas. |
Banco quirófano | OR-Bench es un punto de referencia para evaluar el rechazo excesivo de la seguridad mejorada en los LLM. |
ParsBench | ParsBench proporciona conjuntos de herramientas para realizar evaluaciones comparativas de LLM basados en el idioma persa. |
Tabla de clasificación de LLM persa | La tabla de clasificación de LLM en persa proporciona una evaluación confiable de los LLM en idioma persa. |
Tabla de clasificación de Pinocho ITA | La tabla de clasificación de Pinocchio ITA rastrea y evalúa los LLM en idioma italiano. |
PL-MTEB | PL-MTEB (Placa de referencia de incrustación de texto masivo en polaco) es un punto de referencia para evaluar la incrustación de texto en polaco en 28 tareas de PNL. |
Clasificación médica polaca | La tabla de clasificación médica polaca evalúa los modelos lingüísticos en los exámenes de certificación de la junta polaca. |
Tabla de clasificación de LLM con tecnología Intel | La tabla de clasificación de LLM con tecnología Intel evalúa, califica y clasifica a los LLM que han sido previamente capacitados o ajustados en hardware Intel. |
PubMedQA | PubMedQA es un punto de referencia para evaluar la respuesta a preguntas de investigación biomédica. |
Banco rápido | PromptBench es un punto de referencia para evaluar la solidez de los LLM en indicaciones adversas. |
QAConv | QAConv es un punto de referencia para la respuesta a preguntas utilizando conversaciones complejas, específicas de un dominio y asincrónicas como fuente de conocimiento. |
Calidad | QUALIDAD es un punto de referencia para evaluar la respuesta a preguntas de opción múltiple con un contexto extenso. |
CONEJOS | RABBITS es un punto de referencia para evaluar la solidez de los LLM al evaluar su manejo de sinónimos, específicamente nombres de medicamentos genéricos y de marca. |
Rakuda | Rakuda es un punto de referencia para evaluar los LLM en función de qué tan bien responden una serie de preguntas abiertas sobre temas japoneses. |
Arena Equipo Rojo | RedTeam Arena es una plataforma de formación de equipos rojos para LLM. |
RETILLA DE RESISTENCIA RED COMINACIÓN | Red Teaming Resistance Benchmark es un punto de referencia para evaluar la robustez de los LLM contra las indicaciones de equipo rojo. |
REST-MCTS* | REST-MCTS* es un método reforzado de autodenencia que utiliza la búsqueda de árboles y la inferencia de recompensas de procesos para recopilar rastros de razonamiento de alta calidad para la política de capacitación y modelos de recompensa sin anotaciones de pasos manuales. |
Arena del revisor | El revisor Arena organiza el revisor Arena, donde varios LLM compiten en función de su desempeño en la criticación de artículos académicos. |
Roleeval | Roleeval es un punto de referencia bilingüe para evaluar las capacidades de memorización, utilización y razonamiento del conocimiento de los LLM. |
Tabla de clasificación de rpbench | RPBench-Auto es una tubería automatizada para evaluar LLMS utilizando 80 personajes para el juego basado en personajes y 80 para el juego de roles basado en escenas. |
Arena de chatbot rusa | Chatbot Arena aloja un chatbot Arena donde varios LLM compiten en ruso en función de la satisfacción del usuario. |
Superpágina rusa | El superpeglue ruso es un punto de referencia para los modelos de idiomas rusos, centrándose en las tareas de lógica, sentido común y razonamiento. |
R-juzga | R-Judge es un punto de referencia para evaluar la competencia de los LLM en el juzgar e identificar los riesgos de seguridad dados los registros de interacción de los agentes. |
Indicaciones de seguridad | Las indicaciones de seguridad son un punto de referencia para evaluar la seguridad de los LLM chinos. |
Banco de seguridad | SafetyBench es un punto de referencia para evaluar la seguridad de los LLM. |
Banco de ensaladas | Salad Bench es un punto de referencia para evaluar la seguridad de los LLM. |
Escándel | Scandeval es un punto de referencia para evaluar las LLM en tareas en idiomas escandinavos, así como alemán, holandés e inglés. |
Tabla de clasificación científica | Science Redeatboard es una plataforma para evaluar las capacidades de LLMS para resolver problemas científicos. |
Esciglm | ScigLM es un conjunto de modelos de lenguaje científico que utilizan un marco de anotación de instrucción autorreflexiva para mejorar el razonamiento científico generando y revisando soluciones paso a paso a preguntas no etiquetadas. |
Sciknoweval | Sciknoweval es un punto de referencia para evaluar las LLM en función de su dominio de estudiar ampliamente, investigar fervientemente, pensar profundamente, discernir claramente y practicar asiduamente. |
Pergaminos | Scrolls es un punto de referencia para evaluar las capacidades de razonamiento de los LLM en textos largos. |
Seaexam | SeaExam es un punto de referencia para evaluar las LLM para los idiomas del sudeste asiático (mar). |
SEAL LLM Riadargards | SEAL LLM RAADARSODS es una plataforma de evaluación privada impulsada por expertos para LLM. |
Marina | Seaeval es un punto de referencia para evaluar el rendimiento de los LLM multilingües en la comprensión y el razonamiento con el lenguaje natural, así como comprender las prácticas culturales, los matices y los valores. |
Timón marino | Sea Helm es un punto de referencia para evaluar el rendimiento de las LLM en las tareas inglesas y del sudeste asiático, centrándose en el chat, el seguimiento de las instrucciones y las capacidades lingüísticas. |
Seceval | Seceval es un punto de referencia para evaluar el conocimiento de la ciberseguridad de los modelos de base. |
Tabla de clasificación de eje | La tabla de clasificación de administración personal (SIL) es una plataforma dinámica que actualiza continuamente los conjuntos de datos y clasificaciones para proporcionar información de rendimiento en tiempo real para LLMS y chatbots de código abierto. |
Banco de especificaciones | Spec-Bench es un punto de referencia para evaluar métodos de decodificación especulativos en diversos escenarios. |
Estructural | Structeval es un punto de referencia para evaluar LLM mediante la realización de evaluaciones estructuradas a través de múltiples niveles cognitivos y conceptos críticos. |
Tabla de clasificación Subquadratic LLM | Subquadratic LLM Raeperboard evalúa LLM con arquitecturas subquadráticas/libres de atención (es decir, RWKV y Mamba). |
Superbencillo | Superbench es un sistema integral de tareas y dimensiones para evaluar las capacidades generales de los LLM. |
Superpágina | Superglue es un punto de referencia para evaluar el desempeño de LLM en un conjunto de tareas desafiantes de comprensión del lenguaje. |
Superlim | Superlim es un punto de referencia para evaluar las capacidades de comprensión del idioma de los LLM en sueco. |
Swahili LLM-Leaderboard | Swahili LLM-Leaderboard es un esfuerzo comunitario conjunto para crear una tabla de clasificación central para LLM. |
S-eval | S-EVAL es un punto de referencia integral de seguridad multidimensional con 220,000 indicaciones diseñadas para evaluar la seguridad de LLM en varias dimensiones de riesgo. |
Tableqaeval | Tableqaeval es un punto de referencia para evaluar el rendimiento de LLM en el modelado de tablas largas y capacidades de comprensión, como el razonamiento numérico y de múltiples saltos. |
Tat-dqa | TAT-DQA es un punto de referencia para evaluar las LLM en el razonamiento discreto sobre los documentos que combinan información estructurada y no estructurada. |
Tat-Qa | TAT-QA es un punto de referencia para evaluar LLM en el razonamiento discreto sobre documentos que combinan contenido tabular y textual. |
Tabla de clasificación de Thai LLM | La tabla de clasificación de Thai LLM tiene como objetivo rastrear y evaluar LLM en las tareas del idioma tailandés. |
La pila | La pila es un punto de referencia para evaluar el conocimiento mundial y la capacidad de razonamiento de los LLM. |
TOFU | Tofu es un punto de referencia para evaluar el rendimiento del desaprendizaje de LLM en escenarios realistas. |
Tabla de clasificación de toloka llm | La tabla de clasificación Toloka LLM es un punto de referencia para evaluar LLM basados en indicaciones auténticas del usuario y evaluación humana experta. |
Banco de herramientas | Toolbench es una plataforma para capacitar, servir y evaluar LLM específicamente para el aprendizaje de herramientas. |
Tabla de clasificación de toxicidad | La tabla de clasificación de toxicidad evalúa la toxicidad de los LLM. |
Tablas de clasificación Trustbit LLM | Trustbit LLM Riadboards es una plataforma que proporciona puntos de referencia para construir y enviar productos con LLM. |
Confianza | Trustllm es un punto de referencia para evaluar la confiabilidad de los LLM. |
TuringAdvice | TuringAdvice es un punto de referencia para evaluar la capacidad de los modelos de lenguaje para generar consejos útiles para situaciones de la vida real y abiertas. |
Tutoreval | Tutoreval es un punto de referencia de respuesta que evalúa qué tan bien un tutor de LLM puede ayudar a un usuario a comprender un capítulo de un libro de texto de ciencias. |
T-Eval | T-EVAL es un punto de referencia para evaluar la capacidad de utilización de la herramienta de LLM. |
Tabla de clasificación de UGI | La tabla de clasificación de UGI mide y compara la información sin censura y controvertida conocida por LLMS. |
Ultraval | Ultraeval es un marco de código abierto para la evaluación comparativa transparente y reproducible de LLM en diversas dimensiones de rendimiento. |
Vals ai | Vals AI es una plataforma que evalúa la precisión generativa de la IA y la eficacia en las tareas legales del mundo real. |
Videograbadora | El razonamiento visual de sentido común (VCR) es un punto de referencia para la comprensión visual a nivel de cognición, que requiere que los modelos respondan preguntas visuales y proporcionen fundamentos para sus respuestas. |
Vídura | Vidore es un punto de referencia para evaluar los modelos de recuperación en su capacidad de hacer coincidir las consultas con documentos relevantes en el nivel de página. |
Tabla de clasificación de VLLMS | La tabla de clasificación de VLLMS tiene como objetivo rastrear, clasificar y evaluar LLMS y chatbots abiertos. |
VMLU | VMLU es un punto de referencia para evaluar las capacidades generales de los modelos fundamentales en vietnamita. |
Bancada de la naturaleza | Wildbench es un punto de referencia para evaluar modelos de lenguaje en tareas desafiantes que se parecen mucho a las aplicaciones del mundo real. |
Xiezhi | Xiezhi es un punto de referencia para la evaluación de conocimiento del dominio holístico de LLM. |
Yanolja Arena | Yanolja Arena organiza un Arena Modelo para evaluar las capacidades de LLMS para resumir y traducir el texto. |
Otra tabla de clasificación de LLM | Otra clasificación de LLM es una plataforma para rastrear, clasificar y evaluar Open LLMS y Chatbots. |
Cebralógico | Zebralogic es un punto de referencia que evalúa el razonamiento lógico de las LLM utilizando rompecabezas de cuadrícula lógica, un tipo de problema de satisfacción de restricciones (CSP). |
Cero | ZerosMeVal es un marco de evaluación competitivo para LLM que usa simulaciones multijugador con condiciones de ganancia claras. |