Descarga awesome foundation model leaderboards - awesome foundation model leaderboards Descarga de código fuente

Impresionante tabla de clasificación del modelo Foundation

Awesome Foundation Model Leaderboard es una lista seleccionada de impresionantes tablas de clasificación de modelos Foundation (para obtener una explicación de qué es una tabla de clasificación, consulte este tutorial), junto con varias herramientas de desarrollo y organizaciones de evaluación según nuestra encuesta:

Sobre los flujos de trabajo y los olores de las operaciones de clasificación (LBOps):
Un estudio exploratorio de las tablas de clasificación del modelo Foundation

Zhimin (Jimmy) Zhao, Abdul Ali Bangash, Filipe Roseiro Côgo, Bram Adams, Ahmed E. Hassan

Laboratorio de Inteligencia y Análisis de Software (SAIL)

Si encuentra útil este repositorio, considere darnos una estrella y una cita:

 @article{zhao2024workflows,
  title={On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards},
  author={Zhao, Zhimin and Bangash, Abdul Ali and C{^o}go, Filipe Roseiro and Adams, Bram and Hassan, Ahmed E},
  journal={arXiv preprint arXiv:2407.04065},
  year={2024}
}

Además, proporcionamos un conjunto de herramientas de búsqueda que le ayuda a navegar rápidamente por las tablas de clasificación.

Si desea contribuir a esta lista (hágalo), bienvenido a proponer una solicitud de extracción.

Si tiene alguna sugerencia, crítica o pregunta sobre esta lista, bienvenido a plantear un problema.

Además, se debe incluir una tabla de clasificación si solo:

Se mantiene activamente.
Está relacionado con los modelos de cimentación.

Tabla de contenido

Herramientas
Desafíos
Clasificaciones
- Clasificación de modelos
  - Integral
  - Texto
  - Imagen
  - Código
  - Video
  - Matemáticas
  - Agente
  - Audio
  - 3D
  - multimodal
- Clasificación de base de datos
- Clasificación de conjuntos de datos
- Clasificación métrica
- Clasificación de artículos
- Clasificación de la tabla de clasificación

Herramientas

Nombre	Descripción
Tabla de clasificación de demostración	La tabla de clasificación de demostración ayuda a los usuarios a implementar fácilmente sus tablas de clasificación con una plantilla estandarizada.
Backend de la tabla de clasificación de demostración	El backend de la tabla de clasificación de demostración ayuda a los usuarios a administrar la tabla de clasificación y manejar las solicitudes de envío; consulte esto para obtener más detalles.
Creación de competencia de Kaggle	Kaggle Competition Creation le permite diseñar y lanzar competencias personalizadas, aprovechando sus conjuntos de datos para involucrar a la comunidad científica de datos.
Explorador de tablas de clasificación	Leaderboard Explorer ayuda a los usuarios a navegar por la amplia gama de tablas de clasificación disponibles en Hugging Face Spaces.
Abrir cambio de nombre de tabla de clasificación de LLM	open-llm-leaderboard-renamer ayuda a los usuarios a cambiar fácilmente el nombre de sus modelos en Open LLM Leaderboard.
Abrir resultados de la tabla de clasificación de LLM Apertura de relaciones públicas	Open LLM Leaderboard Results PR Opener ayuda a los usuarios a mostrar los resultados de Open LLM Leaderboard en sus tarjetas modelo.
Abrir raspador de clasificación de LLM	Open LLM Leaderboard Scraper ayuda a los usuarios a extraer y exportar datos de Open LLM Leaderboard.
Seguimiento de progreso	Esta aplicación visualiza el progreso de los LLM propietarios y de código abierto a lo largo del tiempo según la puntuación de LMSYS Chatbot Arena.

Desafíos

Nombre	Descripción
Multitud de IA	AIcrowd organiza desafíos y competencias de aprendizaje automático en dominios como la visión por computadora, la PNL y el aprendizaje por refuerzo, dirigidos tanto a investigadores como a profesionales.
Centro de IA	AI Hub ofrece una variedad de competencias para fomentar soluciones de IA a problemas del mundo real, con un enfoque en la innovación y la colaboración.
Estudio de IA	AI Studio ofrece competiciones de IA principalmente para visión por computadora, PNL y otras tareas basadas en datos, lo que permite a los usuarios desarrollar y mostrar sus habilidades de IA.
Instituto Allen para la IA	El Instituto Allen de IA proporciona tablas de clasificación y puntos de referencia sobre tareas de comprensión del lenguaje natural, razonamiento de sentido común y otras áreas de la investigación de la IA.
banco de datos	Codabench es una plataforma de código abierto para comparar modelos de IA, que permite desafíos personalizables e impulsados por el usuario en varios dominios de IA.
fuente de datos	DataFountain es una plataforma china de competencia de IA que presenta desafíos en finanzas, atención médica y ciudades inteligentes y fomenta soluciones para problemas relacionados con la industria.
Datos impulsados	DrivenData alberga desafíos de aprendizaje automático con impacto social, con el objetivo de resolver problemas en áreas como la salud pública, la ayuda en casos de desastre y el desarrollo sostenible.
Banco dinámico	Dynabench ofrece puntos de referencia dinámicos donde los modelos se evalúan continuamente, a menudo involucrando interacción humana, para garantizar la solidez en las tareas de IA en evolución.
Evaluación de IA	EvalAI es una plataforma para albergar y participar en desafíos de IA, ampliamente utilizada por investigadores para comparar modelos en tareas como clasificación de imágenes, PNL y aprendizaje por refuerzo.
Gran Desafío	Grand Challenge proporciona una plataforma para los desafíos de imágenes médicas, respaldando los avances en la IA médica, particularmente en áreas como la radiología y la patología.
Hilti	Hilti presenta desafíos destinados a promover la IA y el aprendizaje automático en la industria de la construcción, con un enfoque en aplicaciones prácticas y relevantes para la industria.
InsightFace	InsightFace se centra en los desafíos de la IA relacionados con el reconocimiento, la verificación y el análisis de rostros, respaldando los avances en la verificación de identidad y la seguridad.
Kaggle	Kaggle es una de las plataformas más grandes para competencias de ciencia de datos y aprendizaje automático, y cubre una amplia gama de temas, desde clasificación de imágenes hasta PNL y modelado predictivo.
nuEscenas	nuScenes permite a los investigadores estudiar situaciones desafiantes de conducción urbana utilizando el conjunto completo de sensores de un automóvil autónomo real, lo que facilita la investigación en conducción autónoma.
Fuerte competencia de lectura	Robust Reading se refiere al área de investigación sobre la interpretación de la comunicación escrita en entornos sin restricciones, con competencias centradas en el reconocimiento de texto en entornos del mundo real.
Tianchi	Tianchi, organizado por Alibaba, ofrece una variedad de competiciones de inteligencia artificial, particularmente populares en Asia, centradas en el comercio, la atención sanitaria y la logística.

Clasificaciones

Clasificación de modelos

Integral

Nombre	Descripción
Análisis artificiales	Artificial Analysis es una plataforma que ayuda a los usuarios a tomar decisiones informadas sobre la selección de modelos de IA y los proveedores de alojamiento.
Rango de brújula	CompassRank es una plataforma para ofrecer una referencia de evaluación integral, objetiva y neutral de modelos fundamentales para la industria y la investigación.
BanderaEval	FlagEval es una plataforma integral para evaluar modelos de cimientos.
Tablas de clasificación de IA generativa	La tabla de clasificación de IA generativa clasifica los modelos de IA generativa de mejor rendimiento en función de varias métricas.
Evaluación holística de modelos lingüísticos	La evaluación holística de modelos de lenguaje (HELM) es un marco reproducible y transparente para evaluar modelos básicos.
Artículos con código	Papers With Code proporciona tablas de clasificación y puntos de referencia de código abierto, vinculando artículos de investigación de IA con código para fomentar la transparencia y la reproducibilidad en el aprendizaje automático.
Súper PISTA	SuperCLUE es una serie de puntos de referencia para evaluar los modelos de fundaciones chinos.
Tabla de clasificación de vitela LLM	Vellum LLM Leaderboard muestra una comparación de capacidades, precios y ventanas de contexto para LLM comerciales y de código abierto líderes.

Texto

Nombre	Descripción
ACLUE	ACLUE es un punto de referencia de evaluación para la comprensión del idioma chino antiguo.
Tabla de clasificación de evaluación de LLM de idiomas africanos	La tabla de clasificación de evaluación de LLM de idiomas africanos rastrea el progreso y clasifica el desempeño de los LLM en idiomas africanos.
Tablero de agentes	AgentBoard es un punto de referencia para agentes LLM de múltiples turnos, complementado con un tablero de evaluación analítica para una evaluación detallada del modelo más allá de las tasas de éxito finales.
AGIEval	AGIEval es un punto de referencia centrado en el ser humano para evaluar las habilidades generales de los modelos básicos en tareas pertinentes a la cognición humana y la resolución de problemas.
Tabla de clasificación de Aiera	Aiera Leaderboard evalúa el desempeño de LLM en tareas de inteligencia financiera, incluidas las asignaciones de oradores, la identificación de cambios de oradores, resúmenes abstractivos, preguntas y respuestas basadas en cálculos y etiquetado de sentimientos financieros.
Banco AIR	AIR-Bench es un punto de referencia para evaluar las capacidades de recuperación de información heterogénea de los modelos de lenguaje.
Tabla de clasificación de puntuación de energía de IA	AI Energy Score Leaderboard rastrea y compara diferentes modelos en eficiencia energética.
puntos de referencia ai	ai-benchmarks contiene algunos resultados de evaluación de la latencia de respuesta de servicios populares de IA.
AlinearBanco	AlignBench es un punto de referencia multidimensional para evaluar la alineación de los LLM en chino.
AlpacaEval	AlpacaEval es un evaluador automático diseñado para LLM que siguen instrucciones.
ANGO	ANGO es un punto de referencia de evaluación del modelo de idioma chino orientado a la generación.
Tabla de clasificación de tokenizadores árabes	La tabla de clasificación de tokenizadores árabes compara la eficiencia de los LLM en el análisis del árabe en sus diferentes dialectos y formas.
Arena-Difícil-Auto	Arena-Hard-Auto es un punto de referencia para los LLM ajustados a la instrucción.
carrera automática	AutoRace se centra en la evaluación directa de cadenas de razonamiento LLM con la métrica AutoRace (Evaluación automatizada de la cadena de razonamiento).
Arena automática	Auto Arena es un punto de referencia en el que varios agentes modelo de lenguaje participan en batallas entre pares para evaluar su desempeño.
Auto-J	Auto-J aloja los resultados de la evaluación en las tareas de comparación de respuestas por pares y generación de críticas.
BABILargo	BABILong es un punto de referencia para evaluar el rendimiento de modelos de lenguaje en el procesamiento de documentos arbitrariamente largos con hechos distribuidos.
BBL	BBL (BIG-bench Lite) es un pequeño subconjunto de 24 tareas JSON diversas de BIG-bench. Está diseñado para proporcionar una medida canónica del rendimiento del modelo, y al mismo tiempo es mucho más económico de evaluar que el conjunto completo de más de 200 tareas programáticas y JSON en BIG-bench.
Sea honesto	BeHonest es un punto de referencia para evaluar la honestidad (conciencia de los límites del conocimiento (autoconocimiento), evitación del engaño (no engaño) y coherencia en las respuestas (consistencia) - en los LLM.
benbanco	BenBench es un punto de referencia para evaluar en qué medida los LLM realizan capacitación palabra por palabra en el conjunto de entrenamiento de un punto de referencia sobre el conjunto de pruebas para mejorar las capacidades.
BenChecoMark	BenCzechMark (BCM) es un punto de referencia del idioma checo multitarea y multimétrico para LLM con un sistema de puntuación único que utiliza la teoría de la significación estadística.
Banco BiGGen	BiGGen-Bench es un punto de referencia integral para evaluar LLM en una amplia variedad de tareas.
chatbot	BotChat es un punto de referencia para evaluar las capacidades de chat de múltiples rondas de los LLM a través de una tarea de proxy.
JurisprudenciaQA	CaselawQA es un punto de referencia que comprende tareas de clasificación legal derivadas de las bases de datos legales de la Corte Suprema y la Corte de Apelaciones de Songer.
FLUE	CFLUE es un punto de referencia para evaluar la comprensión y las capacidades de procesamiento de los LLM en el ámbito financiero chino.
Ch3Ef	Ch3Ef es un punto de referencia para evaluar la alineación con las expectativas humanas utilizando 1002 muestras anotadas por humanos en 12 dominios y 46 tareas basadas en el principio hhh.
Centro de cadena de pensamiento	Chain-of-Thought Hub es un punto de referencia para evaluar las capacidades de razonamiento de los LLM.
Arena de chatbots	Chatbot Arena alberga un chatbot arena donde varios LLM compiten en función de la satisfacción del usuario.
banco de química	ChemBench es un punto de referencia para evaluar el conocimiento químico y la capacidad de razonamiento de los LLM.
Control de calidad simple chino	Chinese SimpleQA es un punto de referencia chino para evaluar la capacidad objetiva de los modelos de lenguaje para responder preguntas breves.
Tabla de clasificación CLEM	CLEM es un marco diseñado para la evaluación sistemática de LLM optimizados para chat como agentes conversacionales.
CLEVA	CLEVA es un punto de referencia para evaluar LLM en 31 tareas utilizando 370.000 consultas chinas de 84 conjuntos de datos diversos y 9 métricas.
Clasificación de modelos grandes chinos	Chinese Large Model Leaderboard es una plataforma para evaluar el desempeño de los LLM chinos.
CMB	CMB es un punto de referencia médico multinivel en chino.
CMMLU	CMMLU es un punto de referencia para evaluar el desempeño de los LLM en diversas materias dentro del contexto cultural chino.
CMMU	CMMMU es un punto de referencia para evaluar LMM en tareas que exigen conocimientos temáticos de nivel universitario y razonamiento deliberado en un contexto chino.
Generación común	CommonGen es un punto de referencia para evaluar el razonamiento generativo de sentido común probando la capacidad de las máquinas para componer oraciones coherentes utilizando un conjunto determinado de conceptos comunes.
Mezcla compuesta	CompMix es un punto de referencia para la respuesta a preguntas heterogéneas.
Tabla de clasificación de tasa de compresión	La tabla de clasificación de tasa de compresión tiene como objetivo evaluar el rendimiento del tokenizador en diferentes idiomas.
Tabla de clasificación de compresión	Compression Leaderboard es una plataforma para evaluar el rendimiento de compresión de los LLM.
banco de copias	CopyBench es un punto de referencia para evaluar el comportamiento de copia y la utilidad de los modelos lingüísticos, así como la eficacia de los métodos para mitigar los riesgos de derechos de autor.
CoTaEval	CoTaEval es un punto de referencia para evaluar la viabilidad y los efectos secundarios de los métodos de eliminación de derechos de autor para los LLM.
ConvRe	ConvRe es un punto de referencia para evaluar la capacidad de los LLM para comprender relaciones conversacionales.
Evaluación crítica	CriticEval es un punto de referencia para evaluar la capacidad de los LLM para dar respuestas críticas.
Banco CS	CS-Bench es un punto de referencia bilingüe diseñado para evaluar el desempeño de los LLM en 26 subcampos de ciencias de la computación, enfocándose en el conocimiento y el razonamiento.
LINDO	CUTE es un punto de referencia para evaluar el conocimiento ortográfico de los LLM.
Cibermétrica	CyberMetric es un referente para evaluar el conocimiento en ciberseguridad de los LLM.
checobanco	CzechBench es un punto de referencia para evaluar modelos de lengua checa.
Evaluación C	C-Eval es un conjunto de evaluación chino para LLM.
Tabla de clasificación de arena descentralizada	Decentralized Arena alberga una plataforma descentralizada y democrática para la evaluación de LLM, la automatización y ampliación de evaluaciones en diversas dimensiones definidas por el usuario, incluidas matemáticas, lógica y ciencias.
DecodificaciónConfianza	DecodingTrust es una plataforma para evaluar la confiabilidad de los LLM.
Tabla de clasificación de dominio LLM	Domain LLM Leaderboard es una plataforma para evaluar la popularidad de los LLM de dominios específicos.
Clasificación de escenarios empresariales	Enterprise Scenarios Leaderboard rastrea y evalúa el desempeño de los LLM en casos de uso empresarial del mundo real.
Banco de ecualización	EQ-Bench es un referente para evaluar aspectos de la inteligencia emocional en LLM.
Clasificación europea de LLM	La tabla de clasificación europea de LLM rastrea y compara el desempeño de los LLM en idiomas europeos.
EvaluaciónGPT.ai	EvalGPT.ai alberga un campo de chatbot para comparar y clasificar el desempeño de los LLM.
Arena de evaluación	Eval Arena mide los niveles de ruido, la calidad del modelo y la calidad de los puntos de referencia comparando pares de modelos en varios puntos de referencia de evaluación de LLM con análisis a nivel de ejemplo y comparaciones por pares.
Tabla de clasificación de factualidad	Factuality Leaderboard compara las capacidades fácticas de los LLM.
FanOutQA	FanOutQA es un punto de referencia de múltiples documentos y saltos múltiples de alta calidad para LLM que utilizan Wikipedia en inglés como base de conocimientos.
evaluación rápida	FastEval es un conjunto de herramientas para evaluar rápidamente modelos de lenguaje de chat y seguimiento de instrucciones en varios puntos de referencia con inferencia rápida e información detallada sobre el rendimiento.
FELMA	FELM es un meta punto de referencia para evaluar el punto de referencia de evaluación de factualidad para LLM.
FinEval	FinEval es un punto de referencia para evaluar el conocimiento del dominio financiero en LLM.
Tabla de clasificación de ajuste	Fine-tuning Leaderboard es una plataforma para clasificar y mostrar modelos que se han ajustado utilizando conjuntos de datos o marcos de código abierto.
Llamas	Flames es un punto de referencia chino altamente conflictivo para evaluar la alineación de valores de los LLM en materia de equidad, seguridad, moralidad, legalidad y protección de datos.
SeguirBanco	FollowBench es un punto de referencia de seguimiento de restricciones detalladas de varios niveles para evaluar la capacidad de seguimiento de instrucciones de los LLM.
Conjunto de datos de preguntas prohibidas	Forbidden Question Dataset es un punto de referencia que contiene 160 preguntas de 160 categorías violadas, con los objetivos correspondientes para evaluar métodos de jailbreak.
Reseñas de fusibles	FuseReviews tiene como objetivo avanzar en las tareas de generación de texto fundamentadas, incluidas las respuestas a preguntas largas y los resúmenes.
GAIA	GAIA tiene como objetivo probar las habilidades fundamentales que debería poseer un asistente de IA.
GAVIE	GAVIE es un punto de referencia asistido por GPT-4 para evaluar las alucinaciones en LMM mediante la puntuación de la precisión y la relevancia sin depender de la verdad fundamental anotada por humanos.
GPT-braza	GPT-Fathom es un conjunto de evaluación de LLM, que compara más de 10 LLM líderes, así como los modelos heredados de OpenAI en más de 20 puntos de referencia seleccionados en 7 categorías de capacidades, todos en configuraciones alineadas.
GrialQA	La respuesta a preguntas fuertemente generalizable (GrailQA) es un punto de referencia a gran escala y de alta calidad para responder preguntas sobre bases de conocimiento (KBQA) en Freebase con 64,331 preguntas anotadas con respuestas y formas lógicas correspondientes en diferente sintaxis (es decir, SPARQL, expresión S , etc.).
GTBanco	GTBench es un punto de referencia para evaluar y clasificar las habilidades de razonamiento de los LLM en entornos competitivos a través de tareas de teoría de juegos, por ejemplo, juegos de mesa y de cartas.
Tabla de clasificación de IA de Guerra LLM	Guerra LLM AI Leaderboard compara y clasifica el desempeño de los LLM en términos de calidad, precio, rendimiento, ventana de contexto y otros.
Tabla de clasificación de alucinaciones	Hallucinations Leaderboard tiene como objetivo rastrear, clasificar y evaluar las alucinaciones en LLM.
HalluQA	HalluQA es un punto de referencia para evaluar el fenómeno de las alucinaciones en los LLM chinos.
Tabla de clasificación de LLM en hebreo	La tabla de clasificación de LLM en hebreo rastrea y clasifica los modelos lingüísticos según su éxito en diversas tareas en hebreo.
HellaSwag	HellaSwag es un punto de referencia para evaluar el razonamiento de sentido común en los LLM.
Tabla de clasificación del modelo de evaluación de alucinaciones de Hughes	La tabla de clasificación del modelo de evaluación de alucinaciones de Hughes es una plataforma para evaluar la frecuencia con la que un modelo de lenguaje introduce alucinaciones al resumir un documento.
Clasificación LLM islandesa	La tabla de clasificación de LLM islandés rastrea y compara modelos en tareas en idioma islandés.
Valor IFE	IFEval es un punto de referencia para evaluar las capacidades de seguimiento de instrucciones de los LLM con instrucciones verificables.
IL-TUR	IL-TUR es un punto de referencia para evaluar modelos lingüísticos en tareas monolingües y multilingües centradas en la comprensión y el razonamiento de documentos legales indios.
Clasificación índica de LLM	Indic LLM Leaderboard es una plataforma para rastrear y comparar el desempeño de Indic LLM.
Tabla de clasificación de LLM de Indico	Indico LLM Leaderboard evalúa y compara la precisión de varios modelos de lenguaje entre proveedores, conjuntos de datos y capacidades como clasificación de texto, extracción de información clave y resumen generativo.
InstruirEval	InstructEval es una suite para evaluar métodos de selección de instrucciones en el contexto de LLM.
Tabla de clasificación de LLM italiano	Italian LLM-Leaderboard rastrea y compara LLM en tareas en italiano.
JailbreakBanco	JailbreakBench es un punto de referencia para evaluar las vulnerabilidades de LLM a través de indicaciones adversas.
Arena japonesa de chatbots	Japanese Chatbot Arena alberga el chatbot arena, donde varios LLM compiten en función de su desempeño en japonés.
Arnés de evaluación financiera modelo de idioma japonés	El arnés de evaluación financiera del modelo de idioma japonés es un arnés para la evaluación del modelo de idioma japonés en el ámbito financiero.
Punto de referencia del juego de roles LLM japonés	Japanese LLM Roleplay Benchmark es un punto de referencia para evaluar el desempeño de los LLM japoneses en juegos de roles de personajes.
JMED-LLM	JMED-LLM (Conjunto de datos de evaluación médica japonesa para modelos de lenguaje grande) es un punto de referencia para evaluar los LLM en el campo médico del japonés.
JMMMU	JMMMU (MMMU japonés) es un punto de referencia multimodal para evaluar el rendimiento de LMM en japonés.
JustEval	JustEval es una poderosa herramienta diseñada para una evaluación detallada de los LLM.
Kola	KoLA es un referente para evaluar el conocimiento mundial de los LLM.
Lámpara	LaMP (Personalización de modelos de lenguaje) es un punto de referencia para evaluar las capacidades de personalización de los modelos de lenguaje.
Consejo Modelo Lingüístico	Language Model Council (LMC) es un punto de referencia para evaluar tareas que son altamente subjetivas y que a menudo carecen de un acuerdo humano mayoritario.
Banco de Derecho	LawBench es un punto de referencia para evaluar las capacidades legales de los LLM.
Tabla de clasificación	La Leaderboard evalúa y rastrea la memorización, el razonamiento y las capacidades lingüísticas del LLM en España, LATAM y el Caribe.
LógicaKor	LogicKor es un punto de referencia para evaluar las capacidades de pensamiento multidisciplinario de los LLM coreanos.
Tabla de clasificación larga ICL	LongICL Leaderboard es una plataforma para evaluar evaluaciones largas de aprendizaje en contexto para LLM.
LooGLE	LooGLE es un punto de referencia para evaluar las capacidades de comprensión del contexto a largo plazo de los LLM.
LEY	LAiW es un punto de referencia para evaluar la comprensión y el razonamiento del lenguaje jurídico chino.
Suite de evaluación comparativa de LLM	LLM Benchmarker Suite es un punto de referencia para evaluar las capacidades integrales de los LLM.
Evaluación de modelos de lenguaje grandes en contextos ingleses	Large Language Model Assessment in English Contexts es una plataforma para evaluar LLM en el contexto inglés.
Evaluación de modelos de lenguaje grande en el contexto chino	Large Language Model Assessment in the Chinese Context es una plataforma para evaluar LLM en el contexto chino.
LIBRA	LIBRA es un punto de referencia para evaluar las capacidades de los LLM para comprender y procesar textos largos en ruso.
Tabla de clasificación de LibraAI-Eval GenAI	La tabla de clasificación LibrAI-Eval GenAI se centra en el equilibrio entre la capacidad del LLM y la seguridad en inglés.
banco en vivo	LiveBench es un punto de referencia para que los LLM minimicen la contaminación del conjunto de pruebas y permitan una evaluación objetiva y automatizada en diversas tareas que se actualizan periódicamente.
Valor LLME	LLMEval es un punto de referencia para evaluar la calidad de las conversaciones de dominio abierto con LLM.
Llmeval-Gaokao2024-Matemáticas	Llmeval-Gaokao2024-Math es un punto de referencia para evaluar los LLM en problemas matemáticos del nivel Gaokao 2024 en chino.
Tabla de clasificación de alucinaciones LLMH	Hallucinations Leaderboard evalúa los LLM en función de una variedad de puntos de referencia relacionados con las alucinaciones.
LLMPerf	LLMPerf es una herramienta para evaluar el rendimiento de los LLM mediante pruebas de carga y de corrección.
Tabla de clasificación de predicción de riesgo de enfermedades de LLM	La tabla de clasificación de predicción de riesgo de enfermedades de LLM es una plataforma para evaluar los LLM sobre predicción de riesgo de enfermedades.
Tabla de clasificación de LLM	LLM Leaderboard rastrea y evalúa a los proveedores de LLM, lo que permite seleccionar la API y el modelo óptimos para las necesidades del usuario.
Tabla de clasificación de LLM para CRM	CRM LLM Leaderboard es una plataforma para evaluar la eficacia de los LLM para aplicaciones comerciales.
Observatorio LLM	El Observatorio LLM es un punto de referencia que evalúa y clasifica a los LLM en función de su desempeño para evitar prejuicios sociales en categorías como orientación LGBTIQ+, edad, género, política, raza, religión y xenofobia.
Tabla de clasificación de precios de LLM	LLM Price Leaderboard rastrea y compara los costos de LLM en función de un millón de tokens.
Clasificaciones de Maestría en Derecho	LLM Rankings ofrece una comparación en tiempo real de modelos de lenguaje basados en el uso de tokens normalizados para indicaciones y finalización, que se actualiza con frecuencia.
Tabla de clasificación de juegos de rol de LLM	LLM Roleplay Leaderboard evalúa el desempeño humano y de la IA en un juego social de hombres lobo para el desarrollo de NPC.
Tabla de clasificación de seguridad de LLM	LLM Safety Leaderboard tiene como objetivo proporcionar una evaluación unificada de la seguridad del modelo lingüístico.
Tabla de clasificación de casos de uso de LLM	La tabla de clasificación de casos de uso de LLM rastrea y evalúa los LLM en casos de uso comerciales.
LLM-AggreFact	LLM-AggreFact es un punto de referencia de verificación de hechos que agrega los conjuntos de datos más actualizados disponibles públicamente sobre una evaluación de factualidad fundamentada.
LLM-Tabla de clasificación	LLM-Leaderboard es un esfuerzo comunitario conjunto para crear una tabla de clasificación central para LLM.
Tabla de clasificación de LLM-Perf	LLM-Perf Leaderboard tiene como objetivo comparar el rendimiento de los LLM con diferentes hardware, backends y optimizaciones.
LMExamQA	LMExamQA es un marco de evaluación comparativa en el que un modelo de lenguaje actúa como examinador para generar preguntas y evaluar respuestas de manera automatizada y sin referencias para una evaluación integral y equitativa.
banco largo	LongBench es un punto de referencia para evaluar las capacidades de comprensión del contexto a largo plazo de los LLM.
loong	Loong es un punto de referencia de contexto largo para evaluar las capacidades de control de calidad de múltiples documentos de los LLM en escenarios financieros, legales y académicos.
Tabla de clasificación de LLM abierta cuantificada de bits bajos	La tabla de clasificación de LLM abierta cuantificada de bits bajos rastrea y compara los LLM de cuantificación con diferentes algoritmos de cuantificación.
Evaluación VI	LV-Eval es un punto de referencia de contexto largo con cinco niveles de longitud y técnicas avanzadas para una evaluación precisa de LLM en tareas de control de calidad de un solo salto y de múltiples saltos en conjuntos de datos bilingües.
LucyEval	LucyEval ofrece una evaluación exhaustiva del desempeño de los LLM en varios contextos chinos.
Evaluación L	L-Eval es un punto de referencia de evaluación del modelo de lenguaje de contexto largo (LCLM) para evaluar el desempeño del manejo de contexto extenso.
M3KE	M3KE es un punto de referencia masivo de evaluación de conocimientos de múltiples niveles y múltiples materias para medir el conocimiento adquirido por los LLM chinos.
Metacrítica	MetaCritique es un juez que puede evaluar críticas escritas por humanos o generadas por LLM generando críticas.
MENTA	MINT es un punto de referencia para evaluar la capacidad de los LLM para resolver tareas con interacciones de múltiples turnos mediante el uso de herramientas y aprovechando la retroalimentación del lenguaje natural.
Espejismo	Mirage es un punto de referencia para la generación aumentada de recuperación de información médica, que presenta 7663 preguntas de cinco conjuntos de datos de control de calidad médico y se prueba con 41 configuraciones utilizando el kit de herramientas MedRag.
banco médico	MedBench es un punto de referencia para evaluar el dominio del conocimiento y la capacidad de razonamiento en los LLM médicos.
Banco MedS	MedS-Bench es un punto de referencia médico que evalúa los LLM en 11 categorías de tareas utilizando 39 conjuntos de datos diversos.
Tabla de clasificación de Meta Open LLM	La tabla de clasificación Meta Open LLM sirve como un centro para consolidar datos de varias tablas de clasificación abiertas de LLM en una única página de visualización fácil de usar.
Tabla de clasificación de toma de decisiones clínicas MIMIC	La tabla de clasificación de toma de decisiones clínicas MIMIC rastrea y evalúa los LLm en la toma de decisiones clínicas realistas para patologías abdominales.
MezclaEval	MixEval es un punto de referencia para evaluar los LLM mediante la combinación estratégica de puntos de referencia disponibles en el mercado.
Tabla de clasificación de ML.ENERGY	ML.ENERGY Leaderboard evalúa el consumo de energía de los LLM.
MMedbanco	MMedBench es un punto de referencia médico para evaluar LLM en comprensión multilingüe.
MMLU	MMLU es un punto de referencia para evaluar el desempeño de los LLM en una amplia gama de tareas de comprensión del lenguaje natural.
Tabla de clasificación de MMLU por tarea	La tabla de clasificación MMLU por tarea proporciona una plataforma para evaluar y comparar varios modelos de aprendizaje automático en diferentes tareas de comprensión del idioma.
MMLU-Pro	MMLU-Pro es una versión más desafiante de MMLU para evaluar las capacidades de razonamiento de los LLM.
Tabla de clasificación de LLM de ModelScope	ModelScope LLM Leaderboard es una plataforma para evaluar los LLM de manera objetiva e integral.
Tabla de clasificación de evaluación de modelos	La tabla de clasificación de evaluación de modelos rastrea y evalúa los modelos de generación de texto en función de su rendimiento en varios puntos de referencia utilizando el marco Mosaic Eval Gauntlet.
Tabla de clasificación MSNP	MSNP Leaderboard rastrea y evalúa el rendimiento de los modelos GGUF cuantificados en varias combinaciones de GPU y CPU utilizando configuraciones de un solo nodo a través de Ollama.
MSTEB	MSTEB es un referente para medir el rendimiento de modelos de incrustación de texto en español.
MTEB	MTEB es un punto de referencia enorme para medir el rendimiento de los modelos de incrustación de texto en diversas tareas de incrustación en 112 idiomas.
MTBArena	MTEB Arena alberga un campo de modelos para la evaluación dinámica y real de modelos integrados a través de consultas y comparaciones de recuperación basadas en el usuario.
MT-Banco-101	MT-Bench-101 es un punto de referencia detallado para evaluar LLM en diálogos de múltiples turnos.
Tabla de clasificación de MY Malay LLM	MY Malay LLM Leaderboard tiene como objetivo rastrear, clasificar y evaluar los LLM abiertos en tareas malayas.
NoCha	NoCha es un punto de referencia para evaluar qué tan bien los modelos de lenguaje de contexto prolongado pueden verificar las afirmaciones escritas sobre libros de ficción.
NPHardEval	NPHardEval es un punto de referencia para evaluar las capacidades de razonamiento de los LLM a través de la lente de clases de complejidad computacional.
Clasificación Occiglot Euro LLM	La tabla de clasificación Occiglot Euro LLM compara los LLM en cuatro idiomas principales del índice de referencia Okapi y Belebele (francés, italiano, alemán, español y holandés).
olimpiadabanco	OlympiadBench es un punto de referencia científico multimodal bilingüe que presenta 8.476 problemas de matemáticas y física de nivel olímpico con anotaciones de razonamiento paso a paso de nivel experto.
Arena Olímpica	OlympicArena es un punto de referencia para evaluar las capacidades avanzadas de los LLM en un amplio espectro de desafíos a nivel olímpico.
oobabooga	Oobabooga es un punto de referencia para realizar pruebas de rendimiento repetibles de LLM con la interfaz de usuario web de oobabooga.
OpenEval	OpenEval es una plataforma de evaluación para evaluar LLM chinos.
Clasificación turca OpenLLM	La tabla de clasificación turca de OpenLLM rastrea el progreso y clasifica el desempeño de los LLM en turco.
Tabla de clasificación de apertura	Openness Leaderboard rastrea y evalúa la transparencia de los modelos en términos de acceso abierto a pesos, datos y licencias, exponiendo modelos que no cumplen con los estándares de apertura.
Tabla de clasificación de apertura	Openness Leaderboard es una herramienta que rastrea la apertura de los LLM ajustados a la instrucción, evaluando su transparencia, datos y disponibilidad de modelos.
Investigador abierto	OpenResearcher contiene los resultados de la evaluación comparativa de varios sistemas relacionados con RAG como tabla de clasificación.
Tabla de clasificación de LLM en árabe abierto	La tabla de clasificación de LLM en árabe abierto realiza un seguimiento del progreso y clasifica el desempeño de los LLM en árabe.
Tabla de clasificación abierta de LLM en chino	Open Chinese LLM Leaderboard tiene como objetivo rastrear, clasificar y evaluar los LLM abiertos en chino.
Tabla de clasificación de CoT abierta	Open CoT Leaderboard rastrea las habilidades de los LLM para generar rastros efectivos de razonamiento en cadena de pensamiento.
Tabla de clasificación de evaluación de LLM abierta en holandés	La tabla de clasificación de evaluación de LLM de Open Dutch rastrea el progreso y clasifica el desempeño de los LLM en holandés.
Tabla de clasificación de LLM financiero abierto	Open Financial LLM Leaderboard tiene como objetivo evaluar y comparar el desempeño de los LLM financieros.
Tabla de clasificación abierta de ITA LLM	Open ITA LLM Leaderboard rastrea el progreso y clasifica el desempeño de los LLM en italiano.
Tabla de clasificación abierta de Ko-LLM	Open Ko-LLM Leaderboard rastrea el progreso y clasifica el desempeño de los LLM en coreano.
Abrir tabla de clasificación de LLM	Open LLM Leaderboard realiza un seguimiento del progreso y clasifica el desempeño de los LLM en inglés.
Tabla de clasificación abierta de Medical-LLM	Open Medical-LLM Leaderboard tiene como objetivo rastrear, clasificar y evaluar los LLM abiertos en el ámbito médico.
Abrir tabla de clasificación de MLLM	Open MLLM Leaderboard tiene como objetivo rastrear, clasificar y evaluar LLM y chatbots.
Abrir tabla de clasificación de LLM de MOE	OPEN MOE LLM Leaderboard evalúa el desempeño y la eficiencia de varios LLM de combinación de expertos (MoE).
Tabla de clasificación de evaluación de LLM multilingüe abierta	La tabla de clasificación de evaluación de LLM multilingüe abierta rastrea el progreso y clasifica el desempeño de los LLM en varios idiomas.
Tabla de clasificación Open PL LLM	Open PL LLM Leaderboard es una plataforma para evaluar el desempeño de varios LLM en polaco.
Tabla de clasificación abierta de LLM en portugués	Open PT LLM Leaderboard tiene como objetivo evaluar y comparar LLM en las tareas de idioma portugués.
Tabla de clasificación LLM abierta de Taiwán	La tabla de clasificación de Open Taiwan LLM muestra el desempeño de los LLM en diversas tareas de comprensión del idioma mandarín taiwanés.
Tabla de clasificación abierta-LLM	Open-LLM-Leaderboard evalúa los LLM en comprensión y razonamiento del lenguaje mediante la transición de preguntas de opción múltiple (MCQ) a preguntas de estilo abierto.
Panel de control OPUS-MT	OPUS-MT Dashboard es una plataforma para rastrear y comparar modelos de traducción automática en múltiples pares de idiomas y métricas.
Banco quirófano	OR-Bench es un punto de referencia para evaluar el rechazo excesivo de la seguridad mejorada en los LLM.
ParsBench	ParsBench proporciona conjuntos de herramientas para realizar evaluaciones comparativas de LLM basados en el idioma persa.
Tabla de clasificación de LLM persa	La tabla de clasificación de LLM en persa proporciona una evaluación confiable de los LLM en idioma persa.
Tabla de clasificación de Pinocho ITA	La tabla de clasificación de Pinocchio ITA rastrea y evalúa los LLM en idioma italiano.
PL-MTEB	PL-MTEB (Placa de referencia de incrustación de texto masivo en polaco) es un punto de referencia para evaluar la incrustación de texto en polaco en 28 tareas de PNL.
Clasificación médica polaca	La tabla de clasificación médica polaca evalúa los modelos lingüísticos en los exámenes de certificación de la junta polaca.
Tabla de clasificación de LLM con tecnología Intel	La tabla de clasificación de LLM con tecnología Intel evalúa, califica y clasifica a los LLM que han sido previamente capacitados o ajustados en hardware Intel.
PubMedQA	PubMedQA es un punto de referencia para evaluar la respuesta a preguntas de investigación biomédica.
Banco rápido	PromptBench es un punto de referencia para evaluar la solidez de los LLM en indicaciones adversas.
QAConv	QAConv es un punto de referencia para la respuesta a preguntas utilizando conversaciones complejas, específicas de un dominio y asincrónicas como fuente de conocimiento.
Calidad	QUALIDAD es un punto de referencia para evaluar la respuesta a preguntas de opción múltiple con un contexto extenso.
CONEJOS	RABBITS es un punto de referencia para evaluar la solidez de los LLM al evaluar su manejo de sinónimos, específicamente nombres de medicamentos genéricos y de marca.
Rakuda	Rakuda es un punto de referencia para evaluar los LLM en función de qué tan bien responden una serie de preguntas abiertas sobre temas japoneses.
Arena Equipo Rojo	RedTeam Arena es una plataforma de formación de equipos rojos para LLM.
RETILLA DE RESISTENCIA RED COMINACIÓN	Red Teaming Resistance Benchmark es un punto de referencia para evaluar la robustez de los LLM contra las indicaciones de equipo rojo.
REST-MCTS*	REST-MCTS* es un método reforzado de autodenencia que utiliza la búsqueda de árboles y la inferencia de recompensas de procesos para recopilar rastros de razonamiento de alta calidad para la política de capacitación y modelos de recompensa sin anotaciones de pasos manuales.
Arena del revisor	El revisor Arena organiza el revisor Arena, donde varios LLM compiten en función de su desempeño en la criticación de artículos académicos.
Roleeval	Roleeval es un punto de referencia bilingüe para evaluar las capacidades de memorización, utilización y razonamiento del conocimiento de los LLM.
Tabla de clasificación de rpbench	RPBench-Auto es una tubería automatizada para evaluar LLMS utilizando 80 personajes para el juego basado en personajes y 80 para el juego de roles basado en escenas.
Arena de chatbot rusa	Chatbot Arena aloja un chatbot Arena donde varios LLM compiten en ruso en función de la satisfacción del usuario.
Superpágina rusa	El superpeglue ruso es un punto de referencia para los modelos de idiomas rusos, centrándose en las tareas de lógica, sentido común y razonamiento.
R-juzga	R-Judge es un punto de referencia para evaluar la competencia de los LLM en el juzgar e identificar los riesgos de seguridad dados los registros de interacción de los agentes.
Indicaciones de seguridad	Las indicaciones de seguridad son un punto de referencia para evaluar la seguridad de los LLM chinos.
Banco de seguridad	SafetyBench es un punto de referencia para evaluar la seguridad de los LLM.
Banco de ensaladas	Salad Bench es un punto de referencia para evaluar la seguridad de los LLM.
Escándel	Scandeval es un punto de referencia para evaluar las LLM en tareas en idiomas escandinavos, así como alemán, holandés e inglés.
Tabla de clasificación científica	Science Redeatboard es una plataforma para evaluar las capacidades de LLMS para resolver problemas científicos.
Esciglm	ScigLM es un conjunto de modelos de lenguaje científico que utilizan un marco de anotación de instrucción autorreflexiva para mejorar el razonamiento científico generando y revisando soluciones paso a paso a preguntas no etiquetadas.
Sciknoweval	Sciknoweval es un punto de referencia para evaluar las LLM en función de su dominio de estudiar ampliamente, investigar fervientemente, pensar profundamente, discernir claramente y practicar asiduamente.
Pergaminos	Scrolls es un punto de referencia para evaluar las capacidades de razonamiento de los LLM en textos largos.
Seaexam	SeaExam es un punto de referencia para evaluar las LLM para los idiomas del sudeste asiático (mar).
SEAL LLM Riadargards	SEAL LLM RAADARSODS es una plataforma de evaluación privada impulsada por expertos para LLM.
Marina	Seaeval es un punto de referencia para evaluar el rendimiento de los LLM multilingües en la comprensión y el razonamiento con el lenguaje natural, así como comprender las prácticas culturales, los matices y los valores.
Timón marino	Sea Helm es un punto de referencia para evaluar el rendimiento de las LLM en las tareas inglesas y del sudeste asiático, centrándose en el chat, el seguimiento de las instrucciones y las capacidades lingüísticas.
Seceval	Seceval es un punto de referencia para evaluar el conocimiento de la ciberseguridad de los modelos de base.
Tabla de clasificación de eje	La tabla de clasificación de administración personal (SIL) es una plataforma dinámica que actualiza continuamente los conjuntos de datos y clasificaciones para proporcionar información de rendimiento en tiempo real para LLMS y chatbots de código abierto.
Banco de especificaciones	Spec-Bench es un punto de referencia para evaluar métodos de decodificación especulativos en diversos escenarios.
Estructural	Structeval es un punto de referencia para evaluar LLM mediante la realización de evaluaciones estructuradas a través de múltiples niveles cognitivos y conceptos críticos.
Tabla de clasificación Subquadratic LLM	Subquadratic LLM Raeperboard evalúa LLM con arquitecturas subquadráticas/libres de atención (es decir, RWKV y Mamba).
Superbencillo	Superbench es un sistema integral de tareas y dimensiones para evaluar las capacidades generales de los LLM.
Superpágina	Superglue es un punto de referencia para evaluar el desempeño de LLM en un conjunto de tareas desafiantes de comprensión del lenguaje.
Superlim	Superlim es un punto de referencia para evaluar las capacidades de comprensión del idioma de los LLM en sueco.
Swahili LLM-Leaderboard	Swahili LLM-Leaderboard es un esfuerzo comunitario conjunto para crear una tabla de clasificación central para LLM.
S-eval	S-EVAL es un punto de referencia integral de seguridad multidimensional con 220,000 indicaciones diseñadas para evaluar la seguridad de LLM en varias dimensiones de riesgo.
Tableqaeval	Tableqaeval es un punto de referencia para evaluar el rendimiento de LLM en el modelado de tablas largas y capacidades de comprensión, como el razonamiento numérico y de múltiples saltos.
Tat-dqa	TAT-DQA es un punto de referencia para evaluar las LLM en el razonamiento discreto sobre los documentos que combinan información estructurada y no estructurada.
Tat-Qa	TAT-QA es un punto de referencia para evaluar LLM en el razonamiento discreto sobre documentos que combinan contenido tabular y textual.
Tabla de clasificación de Thai LLM	La tabla de clasificación de Thai LLM tiene como objetivo rastrear y evaluar LLM en las tareas del idioma tailandés.
La pila	La pila es un punto de referencia para evaluar el conocimiento mundial y la capacidad de razonamiento de los LLM.
TOFU	Tofu es un punto de referencia para evaluar el rendimiento del desaprendizaje de LLM en escenarios realistas.
Tabla de clasificación de toloka llm	La tabla de clasificación Toloka LLM es un punto de referencia para evaluar LLM basados en indicaciones auténticas del usuario y evaluación humana experta.
Banco de herramientas	Toolbench es una plataforma para capacitar, servir y evaluar LLM específicamente para el aprendizaje de herramientas.
Tabla de clasificación de toxicidad	La tabla de clasificación de toxicidad evalúa la toxicidad de los LLM.
Tablas de clasificación Trustbit LLM	Trustbit LLM Riadboards es una plataforma que proporciona puntos de referencia para construir y enviar productos con LLM.
Confianza	Trustllm es un punto de referencia para evaluar la confiabilidad de los LLM.
TuringAdvice	TuringAdvice es un punto de referencia para evaluar la capacidad de los modelos de lenguaje para generar consejos útiles para situaciones de la vida real y abiertas.
Tutoreval	Tutoreval es un punto de referencia de respuesta que evalúa qué tan bien un tutor de LLM puede ayudar a un usuario a comprender un capítulo de un libro de texto de ciencias.
T-Eval	T-EVAL es un punto de referencia para evaluar la capacidad de utilización de la herramienta de LLM.
Tabla de clasificación de UGI	La tabla de clasificación de UGI mide y compara la información sin censura y controvertida conocida por LLMS.
Ultraval	Ultraeval es un marco de código abierto para la evaluación comparativa transparente y reproducible de LLM en diversas dimensiones de rendimiento.
Vals ai	Vals AI es una plataforma que evalúa la precisión generativa de la IA y la eficacia en las tareas legales del mundo real.
Videograbadora	El razonamiento visual de sentido común (VCR) es un punto de referencia para la comprensión visual a nivel de cognición, que requiere que los modelos respondan preguntas visuales y proporcionen fundamentos para sus respuestas.
Vídura	Vidore es un punto de referencia para evaluar los modelos de recuperación en su capacidad de hacer coincidir las consultas con documentos relevantes en el nivel de página.
Tabla de clasificación de VLLMS	La tabla de clasificación de VLLMS tiene como objetivo rastrear, clasificar y evaluar LLMS y chatbots abiertos.
VMLU	VMLU es un punto de referencia para evaluar las capacidades generales de los modelos fundamentales en vietnamita.
Bancada de la naturaleza	Wildbench es un punto de referencia para evaluar modelos de lenguaje en tareas desafiantes que se parecen mucho a las aplicaciones del mundo real.
Xiezhi	Xiezhi es un punto de referencia para la evaluación de conocimiento del dominio holístico de LLM.
Yanolja Arena	Yanolja Arena organiza un Arena Modelo para evaluar las capacidades de LLMS para resumir y traducir el texto.
Otra tabla de clasificación de LLM	Otra clasificación de LLM es una plataforma para rastrear, clasificar y evaluar Open LLMS y Chatbots.
Cebralógico	Zebralogic es un punto de referencia que evalúa el razonamiento lógico de las LLM utilizando rompecabezas de cuadrícula lógica, un tipo de problema de satisfacción de restricciones (CSP).
Cero	ZerosMeVal es un marco de evaluación competitivo para LLM que usa simulaciones multijugador con condiciones de ganancia claras.

Imagen

Nombre	Descripción
Imagen abstracta	La imagen abstracta es un punto de referencia para evaluar las LLM multimodales (MLLM) en la comprensión y el razonamiento visual sobre imágenes abstractas, como mapas, gráficos y diseños.
Aesbench	Aesbench es un punto de referencia para evaluar los MLLM en la percepción de la estética de la imagen.
PARPADEAR	Blink es un punto de referencia para evaluar las habilidades centrales de percepción visual de los MLLM.
Parpadear	Blinkcode es un punto de referencia para evaluar los MLLM en 15 modelos de lenguaje de visión (VLMS) y 9 tareas, midiendo la precisión y el rendimiento de la reconstrucción de imágenes.
CUIDADOS	Cares es un punto de referencia para evaluar la confiabilidad de MED-LVLM a través de la confianza, la equidad, la seguridad, la privacidad y la robustez utilizando 41k pares de preguntas y respuestas de 16 modalidades de imágenes médicas y 27 regiones anatómicas.
Chartmímico	Chartmimic es un punto de referencia para evaluar las capacidades de generación de código de tierra visual de grandes modelos multimodales utilizando cuadros e instrucciones textuales.
Charxiv	Charxiv es un punto de referencia para evaluar las capacidades de comprensión del gráfico de MLLM.
Contextual	Contextual es un punto de referencia para evaluar las MLLM en tareas de razonamiento visual rico en texto sensible al contexto.
Núcleo-mm	Core-MM es un punto de referencia para evaluar las capacidades de preguntas visuales abiertas (VQA) de MLLM.
Dreambench ++	Dreambench ++ es un punto de referencia alineado por humanos automatizado por modelos multimodales para la generación de imágenes personalizadas.
Bancos de egoplán	Egoplan Bench es un punto de referencia para evaluar las habilidades de planificación de MLLM en escenarios egocéntricos del mundo real.
Bancada de maldito	Glitchbench es un punto de referencia para evaluar las capacidades de razonamiento de los MLLM en el contexto de detectar fallas de videojuegos.
Hallusionbench	HallusionBench es un punto de referencia para evaluar las capacidades de razonamiento de contexto de imagen de MLLMS.
Insignificante	Infimm-Eval es un punto de referencia para evaluar las capacidades VQA abiertas de MLLM.
Tabla de clasificación de LRVSF	LRVSF Raeperboard es una plataforma para evaluar las LLM con respecto a la búsqueda de similitud de imagen en la moda.
Tabla de clasificación LVLM	La tabla de clasificación LVLM es una plataforma para evaluar las capacidades de razonamiento visual de MLLM.
M3cot	M3COT es un punto de referencia para la cadena de pensamiento multimodal multi-dominio de MLLM.
Recuerdos	Mementos es un punto de referencia para evaluar las capacidades de razonamiento de MLLM sobre secuencias de imagen.
Bancos de MJ	MJ-Bench es un punto de referencia para evaluar a los jueces multimodales para proporcionar comentarios para los modelos de generación de imágenes en cuatro perspectivas clave: alineación, seguridad, calidad de imagen y sesgo.
Mllm-as-a-juzgar	MLLM-AS-A-Judge es un punto de referencia con anotaciones humanas para evaluar las capacidades de juicio de MLLMS en la puntuación, la comparación de pares y las tareas de clasificación por lotes en los dominios multimodales.
Mllm-Bench	MLLM Bench es un punto de referencia para evaluar las capacidades de razonamiento visual de MLVM.
Tabla de clasificación de mmbench	La tabla de clasificación MMBench es una plataforma para evaluar las capacidades de razonamiento visual de MLLM.
MME	MME es un punto de referencia para evaluar las capacidades de razonamiento visual de MLLM.
Mme-Realworld	MME-Realworld es un punto de referencia de alta resolución a gran escala con 29,429 pares de control de calidad anotados por humanos en 43 tareas.
Mmiu	MMIU (comprensión de múltiples imágenes ultimodal) es un punto de referencia para evaluar MLLM en 7 relaciones de imágenes múltiples, 52 tareas, 77k imágenes y 11k cuestiones de opción múltiples seleccionarias.
Mmmu	MMMU es un punto de referencia para evaluar el rendimiento de los modelos multimodales en tareas que exigen el conocimiento de las materias a nivel universitario y el razonamiento a nivel de experto en varias disciplinas.
MMR	MMR es un punto de referencia para evaluar la robustez de los MLLM en la comprensión visual evaluando su capacidad para manejar las preguntas principales, en lugar de solo precisión en la respuesta.
Mmsearch	MMSEARCH es un punto de referencia para evaluar el rendimiento de búsqueda multimodal de LMM.
Mmstar	MMSTAR es un punto de referencia para evaluar las capacidades multimodales de MLLM.
Banco mmt	MMT Bench es un punto de referencia para evaluar MLLM en una amplia gama de tareas multimodales que requieren conocimiento experto, así como reconocimiento visual, localización, razonamiento y planificación deliberados.
Mm-nih	MM-NIAH (aguja en un pajar multimodal) es un punto de referencia para evaluar la capacidad de MLLM para comprender documentos multimodales largos a través de tareas de recuperación, contabilidad y razonamiento que involucran datos de texto e imágenes.
Mtvqa	MTVQA es un punto de referencia de comprensión de texto visual multilingüe para evaluar MLLM.
Tabla de clasificación de alucinación multimodal	La tabla de clasificación de alucinación multimodal compara MLLM en función de los niveles de alucinación en varias tareas.
Múltiplo	Multi-Benchmark es un punto de referencia para evaluar MLLM en la comprensión de las tablas e imágenes complejas, y el razonamiento con un contexto largo.
Múltiples	MultiTrust es un punto de referencia para evaluar la confiabilidad de los MLLM en cinco aspectos principales: veracidad, seguridad, robustez, justicia y privacidad.
Nphardeval4v	Nphardeval4v es un punto de referencia para evaluar las habilidades de razonamiento de MLLM a través de la lente de las clases de complejidad computacional.
Tabla de clasificación de proveedores	LLM API Providers Raeperboard es una plataforma para comparar el rendimiento del proveedor de API para los puntos finales de LLM a través de métricas clave de rendimiento.
Bancarro	OCRBench es un punto de referencia para evaluar las capacidades de OCR de los modelos multimodales.
Bancario	PCA Bench es un punto de referencia para evaluar las capacidades de toma de decisiones incorporadas de los modelos multimodales.
Q-Bench	Q-Bench es un punto de referencia para evaluar las capacidades de razonamiento visual de MLLM.
Banco de recompensas	RecompenshBench es un punto de referencia para evaluar las capacidades y la seguridad de los modelos de recompensa.
Cienciaqa	ScienceQA es un punto de referencia utilizado para evaluar la capacidad de razonamiento de múltiples saltos y la interpretabilidad de los sistemas de IA en el contexto de responder preguntas de la ciencia.
Escigraphqa	Scigraphqa es un punto de referencia para evaluar los MLLM en la respuesta de la pregunta de los gráficos científicos.
Banco de semillas	El banco de semillas es un punto de referencia para evaluar el texto y la generación de imágenes de modelos multimodales.
Urial	Urial es un punto de referencia para evaluar la capacidad de los modelos de lenguaje para la alineación sin introducir los factores de ajuste fino (tasa de aprendizaje, datos, etc.), que son difíciles de controlar para comparaciones justas.
RAZABACIÓN DE ACTUALIZACIÓN	La tabla de clasificación UPD es una plataforma para evaluar la confiabilidad de los MLLM en la detección de problemas insoluble.
Ambiente	VIBE-EVAL es un punto de referencia para evaluar los MLLM para casos desafiantes.
Videohallucer	VideoHallucer es un punto de referencia para detectar alucinaciones en MLLM.
Visitante	Visit-Bench es un punto de referencia para evaluar las capacidades de seguimiento de instrucciones de MLLM para uso del mundo real.
Desafíos de conjunto de datos de Waymo Open	Los desafíos de conjunto de datos de Waymo Open tienen diversos conjuntos de datos autónomos para evaluar los modelos ML.
¡UPS!	¡UPS! es un punto de referencia para evaluar las habilidades de razonamiento visual de sentido común de MLLM.
Bench Vaciete	WildVision Bench es un punto de referencia para evaluar los VLM en la naturaleza con las preferencias humanas.
Arena de la vía silvestre	WildVision Arena alberga el chatbot Arena, donde varios MLLM compiten en función de su rendimiento en la comprensión visual.

Código

Nombre	Descripción
Tablas de clasificación Aider LLM	Aider LLM RAADARSBARDS Evalúa la capacidad de LLM para seguir las indicaciones del sistema para editar el código.
Appotildo	AppWorld es un entorno de ejecución de alta fidelidad de 9 aplicaciones diarias, operables a través de 457 API, pobladas con actividades digitales de ~ 100 personas que viven en un mundo simulado.
Berkeley Function-Calling Raeperboard	La tabla de clasificación de la función de Berkeley evalúa la capacidad de LLM para llamar a las funciones (también conocidas como herramientas) con precisión.
Bigcodebench	BigCodeBench es un punto de referencia para la generación de códigos con tareas de programación prácticas y desafiantes.
Tabla de clasificación de modelos de Big Code	Big Code Models Roadboard es una plataforma para rastrear y evaluar el rendimiento de los LLM en tareas relacionadas con el código.
PÁJARO	Bird es un punto de referencia para evaluar el rendimiento de los sistemas de análisis de texto a SQL.
Booksql	BooksQL es un punto de referencia para evaluar los sistemas de texto a SQL en el dominio de finanzas y contabilidad en varias industrias con un conjunto de datos de 1 millón de transacciones de 27 empresas.
Tabla de clasificación de Canaicode	Canaicode Raeatboard es una plataforma para evaluar las capacidades de generación de códigos de LLMS.
Tope	Classeval es un punto de referencia para evaluar las LLM en la generación de código a nivel de clase.
Codeapex	CodeApex es un punto de referencia para evaluar la comprensión de la programación de LLM a través de preguntas de opción múltiple y generación de código con problemas de algoritmo C ++.
Codeescopio	CodeScope es un punto de referencia para evaluar las capacidades de codificación de LLM en 43 idiomas y 8 tareas, considerando la dificultad, la eficiencia y la longitud.
Codetransóseo	Codetransocean es un punto de referencia para evaluar la traducción de códigos en una amplia variedad de lenguajes de programación, incluidos el código popular, nicho y traducido LLM.
Código Lingua	Code Lingua es un punto de referencia para comparar la capacidad de los modelos de código para comprender qué implementa el código en los idiomas de origen y traducir la misma semántica en los idiomas de destino.
Codificación de la tabla de clasificación de LLMS	Coding LLMS Roadboard es una plataforma para evaluar y clasificar LLM en varias tareas de programación.
Commit-0	Commit-0 es un desafío de codificación de IA desde el cañón para reconstruir 54 bibliotecas de Python Core, asegurando que pasen pruebas unitarias con una cobertura de prueba significativa, verificación de pelusa/tipo y desarrollo distribuido basado en la nube.
Cruxeval	Cruxeval es un punto de referencia para evaluar el razonamiento del código, la comprensión y las capacidades de ejecución de los LLM.
Cspider	Cspider es un punto de referencia para evaluar la capacidad de los sistemas para generar consultas SQL a partir del lenguaje natural chino en bases de datos diversas, complejas y de dominio cruzado.
Cibernética	Cyberseceval es un punto de referencia para evaluar la ciberseguridad de los LLM como asistentes de codificación.
Devops AI Asistente de clasificación abierta	DevOps AI Asistente de ritmo de clasificación abierta, rangos y evalúa a los asistentes de IA DevOps en todos los dominios de conocimiento.
Devops-eval	DevOps-Eval es un punto de referencia para evaluar modelos de código en el campo DevOps/AIOPS.
Dominio de dominio	DomaineVal es un punto de referencia construido automáticamente para la generación de código de dominio múltiple.
Dr.Spider	Dr.Spider es un punto de referencia para evaluar la robustez de los modelos de texto a SQL utilizando diferentes conjuntos de pruebas de perturbación.
Efibench	Effibench es un punto de referencia para evaluar la eficiencia de los LLM en la generación de códigos.
Evaluación	EvalPlus es un punto de referencia para evaluar el rendimiento de la generación de código de LLM.
EvocodeBench	EvocodeBench es un punto de referencia de generación de código evolutivo alineado con los repositorios de código del mundo real.
Evoeval	EvoEval es un punto de referencia para evaluar las habilidades de codificación de LLM, creadas por la evolución de los puntos de referencia existentes en diferentes dominios específicos.
Infibícho	Infibench es un punto de referencia para evaluar los modelos de código en responder preguntas relacionadas con el código real del mundo real.
Interbódico	Intercode es un punto de referencia para estandarizar y evaluar la codificación interactiva con comentarios de ejecución.
Julia LLM Raeperboard	La tabla de clasificación de Julia LLM es una plataforma para comparar las habilidades de los modelos de código en la generación de código Julia sintácticamente correcto, con pruebas estructuradas y evaluaciones automatizadas para una evaluación comparativa fácil y colaborativa.
LivecodeBench	LivecodeBench es un punto de referencia para evaluar modelos de código en los escenarios relacionados con el código a lo largo del tiempo.
Arena de código largo	Long Code Arena es un conjunto de puntos de referencia para tareas relacionadas con el código con grandes contextos, hasta un repositorio de código completo.
Mceval	McEval es un punto de referencia de evaluación de código multilingüe masivo que cubre 40 idiomas (16k muestras en 44 en total), que abarca la generación de código multilingüe, la explicación del código multilingüe y las tareas de finalización de código multilingües.
Memorización o generación de modelos de código grande Redieveboard	Memorización o generación de pistas de clasificación de modelos de código grande y compara el rendimiento de los modelos de generación de código.
Múltiplo	Multi-SWE-Bench es un problema multilingüe de GitHub para resolver los agentes de código.
NaturalCodeBench	NaturalCodeBench es un punto de referencia para reflejar la complejidad y la variedad de escenarios en tareas de codificación real.
Nexus Función llamando a la tabla de clasificación	Nexus Function Calling Raeadboard es una plataforma para evaluar modelos de código en la realización de llamadas de funciones y el uso de API.
NL2SQL360	NL2SQL360 es un marco de evaluación integral para comparar y optimizar los métodos NL2SQL en varios escenarios de aplicaciones.
PECC	PECC es un punto de referencia que evalúa la generación de código al exigir que los modelos comprendan y extraen los requisitos de problemas de las descripciones narrativas para producir soluciones sintácticamente precisas.
Puntos de referencia de prollm	PROLLM Benchmarks es un punto de referencia LLM práctico y confiable diseñado para casos de uso comercial del mundo real en múltiples industrias y lenguajes de programación.
Pybench	Pybench es un punto de referencia que evalúa LLM en tareas de codificación del mundo real, incluyendo análisis de gráficos, análisis de texto, edición de imágenes/ audio, matemáticas y software complejo/ desarrollo de sitios web.
CARRERA	La raza es un punto de referencia para evaluar la capacidad de LLM para generar código correcto y cumple con los requisitos de los escenarios de desarrollo del mundo real.
Repositorio	Repoqa es un punto de referencia para evaluar la capacidad de comprensión del código de contexto largo de los LLM.
Cicode	Scicode es un punto de referencia diseñado para evaluar modelos de lenguaje en la generación de código para resolver problemas de investigación científicos realistas.
Bancado de solidez	SolityBench es un punto de referencia para evaluar y clasificar la capacidad de los LLM en la generación y auditar contratos inteligentes.
Araña	Spider es un punto de referencia para evaluar el rendimiento de las interfaces del lenguaje natural para las bases de datos de dominios cruzados.
Abundante	Stabletoolbench es un punto de referencia para evaluar el aprendizaje de herramientas que tiene como objetivo proporcionar una combinación bien equilibrada de estabilidad y realidad.
SWE Bench	SWE-Bench es un punto de referencia para evaluar los LLM en los problemas de software del mundo real recopilados de GitHub.
WebApp1K	WebApp1k es un punto de referencia para evaluar las LLM en sus habilidades para desarrollar aplicaciones web del mundo real.
Webdev Arena	WebDev Arena aloja un chatbot Arena donde varios LLM compiten según el desarrollo del sitio web.
SALVAJES	Wilds es un punto de referencia de los cambios de distribución en el bañado que abarcan diversas modalidades y aplicaciones de datos, desde la identificación del tumor hasta el monitoreo de la vida silvestre hasta el mapeo de la pobreza.

Video

Nombre	Descripción
Banco cronómico	Chronomagic Bench es un punto de referencia para evaluar la capacidad de los modelos de video para generar videos de lapso de tiempo con alta amplitud metamórfica y coherencia temporal entre los dominios de física, biología y química utilizando control de texto de forma libre.
Sueño-1	Dream-1k es un punto de referencia para evaluar el rendimiento de la descripción del video en 1,000 videoclips diversos con ricos eventos, acciones y mociones de películas, animaciones, videos de stock, YouTube y videos cortos de estilo Tiktok.
Longvideobench	LongVideObench es un punto de referencia para evaluar las capacidades de los modelos de video para responder preguntas de razonamiento referidas, que dependen de las entradas de cuadros largos y no pueden ser bien adicionales por un solo cuadro o algunos cuadros escasos.
Bancada	LVBench es un punto de referencia para evaluar modelos multimodales en tareas largas de comprensión de video que requieren memoria extendida y capacidades de comprensión.
Mlvu	MLVU es un punto de referencia para evaluar modelos de video en comprensión de video de varias tareas.
Mmtom-qa	MMTOM-QA es un punto de referencia multimodal para evaluar la teoría de la mente de las máquinas (TOM), la capacidad de comprender las mentes de las personas.
Mvbench	MVBench es un punto de referencia para evaluar las capacidades de comprensión temporal de los modelos de video en tareas dinámicas de video.
Rae de clasificación de videos de OpenVLM	OpenVLM Video Raeperboard es una plataforma que muestra los resultados de la evaluación de 30 VLM diferentes en los puntos de referencia de comprensión de video utilizando el marco VLMEVALKIT.
Tempcom Pass	TEMPCOMPASS es un punto de referencia para evaluar la percepción temporal de Video LLMS utilizando 410 videos y 7,540 instrucciones de tareas en 11 aspectos temporales y 4 tipos de tareas.
VBench	VBench es un punto de referencia para evaluar las capacidades de generación de videos de los modelos de video.
Videonías	VideOniah es un punto de referencia para evaluar la comprensión de grano fino y las capacidades de modelado espacio-temporal de los modelos de video.
Videos	Videfofe es un punto de referencia para evaluar videos generados para su cumplimiento de sentido común físico en las interacciones materiales del mundo real.
Videocor	VideoScore es un punto de referencia para evaluar modelos generativos de texto a video en cinco dimensiones clave.
Videos	VideOvista es un punto de referencia con 25,000 preguntas de 3,400 videos en 14 categorías, cubriendo 19 comprensión y 8 tareas de razonamiento.
Bancos de video	Video-Bench es un punto de referencia para evaluar la comprensión exclusiva de video, la incorporación previa del conocimiento y las habilidades de toma de decisiones basadas en videos de los modelos de video.
Videocams	Video-MME es un punto de referencia para evaluar las capacidades de análisis de video de los modelos de video.

Matemáticas

Nombre	Descripción
Abel	ABEL es una plataforma para evaluar las capacidades matemáticas de LLM.
Mathbench	Mathbench es un punto de referencia de evaluación de matemáticas de dificultades múltiples para LLMS.
Mateval	Matheval es un punto de referencia para evaluar las capacidades matemáticas de LLM.
Mathusereval	Mathusereval es un punto de referencia con preguntas de exámenes universitarios y consultas relacionadas con las matemáticas derivadas de conversaciones simuladas con anotadores experimentados.
Mathverse	Mathverse es un punto de referencia para evaluar los modelos en idioma de visión en la interpretación y el razonamiento con información visual en problemas matemáticos.
Mathvista	Mathvista es un punto de referencia para evaluar el razonamiento matemático en contextos visuales.
Matemáticas	Math-Vision (Math-V) es un punto de referencia de 3,040 problemas matemáticos contextualizados visualmente de las competiciones, que cubren 16 disciplinas y 5 niveles de dificultad para evaluar el razonamiento matemático de LMM.
Abra la tabla de clasificación de razonamiento multilingüe	Abra las pistas de clasificación de razonamiento multilingüe y clasifica el rendimiento de razonamiento de LLM en puntos de referencia de razonamiento matemático multilingüe.
Putnambench	Putnambench es un punto de referencia para evaluar las capacidades formales de razonamiento matemático de LLM en la competencia Putnam.
Chaqueta	Scibench es un punto de referencia para evaluar las capacidades de razonamiento de los LLM para resolver problemas científicos complejos.
TABMWP	TABMWP es un punto de referencia para evaluar las LLM en tareas de razonamiento matemático que involucran datos textuales y tabulares.
Math	WE-MATH es un punto de referencia para evaluar las capacidades de razonamiento matemático similar a los humanos de los LLM con principios de resolución de problemas más allá del rendimiento de extremo a extremo.

Agente

Nombre	Descripción
Banco de agentes	AgentBench es el punto de referencia para evaluar el modelo de lenguaje como agente en un espectro diverso de diferentes entornos.
Estudio de agente	AgentStudio es una solución integrada con suites de referencia en profundidad, entornos realistas y kits de herramientas integrales.
Carácter	CaractereVal es un punto de referencia para evaluar a los agentes de conversación de roles (RPCA) utilizando diálogos múltiples y perfiles de caracteres, con métricas que abarcan cuatro dimensiones.
GTA	GTA es un punto de referencia para evaluar la capacidad de uso de herramientas de los agentes basados en LLM en escenarios del mundo real.
Gimnasio	LeetCode-Hard Gym es una interfaz de entorno RL para el servidor de envío de LeetCode para evaluar los agentes de Codegen.
Tablero de clasificación de Colosseum LLM	LLM Colosseum Raeperboard es una plataforma para evaluar LLM luchando en Street Fighter 3.
Magia	La magia es un punto de referencia para medir las habilidades de la cognición, la adaptabilidad, la racionalidad y la colaboración de los LLM dentro de los sistemas de múltiples agentes.
OLAS Predicte de referencia	OLAS Predicte Benchmark es un punto de referencia para evaluar a los agentes en el pronóstico de eventos históricos y futuros.
Planador de viajes	TravelPlanner es un punto de referencia para evaluar a los agentes de LLM en el uso de herramientas y la planificación compleja dentro de múltiples restricciones.
VAB	VisualAgentBench (VAB) es un punto de referencia para evaluar y desarrollar LMM como agentes de la Fundación Visual, que comprende 5 entornos distintos en 3 tipos de tareas de agentes visuales representativos.
Visualwebarena	VisualWebarena es un punto de referencia para evaluar el desempeño de los agentes web multimodales en tareas realistas visualmente fundamentadas.
Tabla de clasificación de webagent	WebAgent Raeperboard rastrea y evalúa LLMS, VLMS y agentes en tareas de navegación web.
Webarena	Webarena es un entorno web independiente y autohostable para evaluar a los agentes autónomos.
γ banco	γ-bench es un marco para evaluar las habilidades de juego de LLMS en entornos de múltiples agentes utilizando ocho escenarios de teoría de juegos clásicos y un esquema de puntuación dinámica.
τ banco	τ-bench es un punto de referencia que emula conversaciones dinámicas entre un usuario simulado por el modelo de lenguaje y un agente de idiomas equipado con herramientas de API específicas de dominio y pautas de políticas.

Audio

Nombre	Descripción
Banco aéreo	Air-Bench es un punto de referencia para evaluar la capacidad de los modelos de audio para comprender varios tipos de señales de audio (incluidos el habla humana, los sonidos naturales y la música), y además, interactuar con los humanos en formato textual.
Audio	AudioBench es un punto de referencia para los modelos de audio generales que ofrecen instrucciones.
Abierta tabla de clasificación ASR	Open ASR Raeperboard proporciona una plataforma para rastrear, clasificar y evaluar los modelos de reconocimiento de voz automático (ASR).
Tabla de clasificación ASR polaca	La tabla de clasificación ASR polaca tiene como objetivo proporcionar una visión general integral del rendimiento de los sistemas ASR/STT para polaco.
Salmón	El salmón es un conjunto de evaluación que reúne modelos de lenguaje de habla sobre consistencia, ruido de fondo, emoción, identidad de los altavoces y respuesta de impulso de habitación.
TTS Arena	TTS-Arena organiza la arena de texto a discurso (TTS), donde varios modelos TTS compiten en función de su rendimiento en la generación del habla.
Tablero de clasificación de susurros	Whisper Roadboard es una plataforma que rastrea y comparó el rendimiento de reconocimiento de voz de los modelos de audio en varios conjuntos de datos.

3D

Nombre	Descripción
Arena 3D	3D Arena alberga la arena de generación 3D, donde varios modelos generativos 3D compiten en función de su rendimiento en la generación de modelos 3D.
Pope 3d	3D-Pope es un punto de referencia para evaluar la alucinación de objetos en modelos generativos 3D.
Arena 3DGEN	3DGen Arena alberga el Arena de la Generación 3D, donde varios modelos generativos 3D compiten en función de su rendimiento en la generación de modelos 3D.
GOLPEAR	BOP es un punto de referencia para la estimación de pose 6D de un objeto rígido de una sola imagen de entrada RGB-D.
GpTeval3d	GPTEVAL3D es un punto de referencia para evaluar las capacidades de MLLMS de comprensión de contenido 3D a través de imágenes de visión múltiple como entrada.

multimodal

Nombre	Descripción
Arena de Genai	Genai Arena recibe el Arena de la Generación Visual, donde varios modelos de visión compiten en función de su rendimiento en la generación de imágenes, la edición de imágenes y la generación de videos.
Tablas de clasificación de sello	Las tablas de clasificación de etiquetas evalúan el rendimiento de los modelos de IA generativos utilizando su fábrica de datos: plataforma, proceso científico y humanos expertos.
Mega banco	Mega-Bench es un punto de referencia para la evaluación multimodal con diversas tareas en 8 tipos de aplicaciones, 7 formatos de entrada, 6 formatos de salida y 10 habilidades multimodales, que abarcan tareas de imágenes simples, múltiples imágenes y video.

Clasificación de la base de datos

Nombre	Descripción
Vectordbbench	VectordBbench es un punto de referencia para evaluar el rendimiento, la rentabilidad y la escalabilidad de varias bases de datos vectoriales y los servicios de bases de datos vectoriales basados en la nube.

Clasificación del conjunto de datos

Nombre	Descripción
Datacomp	DataComp es un punto de referencia para evaluar el rendimiento de varios conjuntos de datos con una arquitectura de modelo fija.

Clasificación métrica

Nombre	Descripción
Alineación	AlignScore evalúa el rendimiento de diferentes métricas en la evaluación de la consistencia objetiva.

Ranking de papel

Nombre	Descripción
Papers Raeperboard	La tabla de clasificación de documentos es una plataforma para evaluar la popularidad de los documentos de aprendizaje automático.

Clasificación de la tabla de clasificación

Nombre	Descripción
Tabla de clasificación de tablas de clasificación abiertas	La tabla de clasificación de tablas de clasificación abierta es una tabla de meta-líder que aprovecha las preferencias humanas para comparar las tablas de clasificación de aprendizaje automático.

Expandir