Impresionantes artículos de LLM con uso eficiente de recursos
Una lista seleccionada de artículos de alta calidad sobre LLM que ahorran recursos.
Este es el repositorio de GitHub de nuestro documento de encuesta Más allá de la eficiencia: una encuesta sistemática de modelos de lenguaje grandes con uso eficiente de los recursos.
Tabla de contenido
- Impresionantes artículos de LLM con uso eficiente de recursos
- Tabla de contenido
- LLM Diseño de Arquitectura
- Arquitectura de transformador eficiente
- Arquitectura sin transformador
- Formación previa al LLM
- Eficiencia de la memoria
- Entrenamiento distribuido
- Entrenamiento de precisión mixto
- Eficiencia de datos
- Muestreo de importancia
- Aumento de datos
- Objetivo de entrenamiento
- Ajuste fino de LLM
- Ajuste fino eficiente en los parámetros
- Ajuste fino de parámetros completos
- Inferencia LLM
- Compresión del modelo
- Aceleración dinámica
- Diseño del sistema
- Optimización de la implementación
- Infraestructura de soporte
- Otros sistemas
- Métricas y puntos de referencia de evaluación de la eficiencia de los recursos
- ? Métricas de cálculo
- ? Métricas de memoria
- ⚡️ Métricas de energía
- ? Métrica de costos financieros
- ? Métrica de comunicación de red
- Otras métricas
- Puntos de referencia
- Referencia
LLM Diseño de Arquitectura
Arquitectura de transformador eficiente
Fecha | Palabras clave | Papel | Evento |
---|
2024 | Atención aproximada | Los modelos de lenguaje de atención lineal simples equilibran la compensación entre recuperación y rendimiento | ArXiv |
2024 | Atención de hardware | MobileLLM: optimización de modelos de lenguaje de parámetros de miles de millones para casos de uso en dispositivos | ArXiv |
2024 | Atención aproximada | LoMA: Atención de memoria comprimida sin pérdidas | ArXiv |
2024 | Atención aproximada | Dos piedras golpearon a un pájaro: codificación posicional de dos niveles para una mejor extrapolación de longitud | ICML |
2024 | Optimización de hardware | FlashAttention-2: Atención más rápida con mejor paralelismo y partición del trabajo | ICLR |
2023 | Optimización de hardware | Flashattention: atención exacta rápida y eficiente en memoria con io-awareness | NeurIPS |
2023 | Atención aproximada | KDEformer: Aceleración de transformadores mediante estimación de densidad del kernel | ICML |
2023 | Atención aproximada | Mega: Atención privada equipada con media móvil | ICLR |
2022 | Optimización de hardware | xFormers: caja de herramientas para acelerar la investigación sobre transformadores | GitHub |
2021 | Atención aproximada | Atención eficiente: Atención con complejidades lineales | WACV |
2021 | Atención aproximada | Un transformador sin atención | ArXiv |
2021 | Atención aproximada | La atención personal no necesita memoria O(n^2) | ArXiv |
2021 | Optimización de hardware | LightSeq: una biblioteca de inferencia de alto rendimiento para transformadores | NAACL |
2021 | Optimización de hardware | FasterTransformer: un marco de transformador más rápido | GitHub |
2020 | Atención aproximada | Los transformadores son RNN: transformadores autorregresivos rápidos con atención lineal | ICML |
2019 | Atención aproximada | Reformer: El transformador eficiente | ICLR |
Arquitectura sin transformador
Fecha | Palabras clave | Papel | Evento |
---|
2024 | Descifrador | Solo se almacena en caché una vez: arquitecturas decodificador-decodificador para modelos de lenguaje | ArXiv |
2024 | Capa BitLinear | Modelado de lenguaje escalable sin MatMul | ArXiv |
2023 | RN LM | RWKV: Reinventar las RNN para la era de los transformadores | Hallazgos del EMNLP |
2023 | MLP | Los predictores autorregresivos del siguiente token son aprendices universales | ArXiv |
2023 | LM convolucional | Jerarquía de hienas: hacia modelos de lenguaje convolucional más amplios | ICML |
2023 | Matrices subcuadráticas basadas | Mezclador Monarch: una arquitectura simple subcuadrática basada en GEMM | NeurIPS |
2023 | Modelo de espacio de estados selectivo | Mamba: modelado de secuencias de tiempo lineal con espacios de estados selectivos | ArXiv |
2022 | Mezcla de expertos | Transformadores de conmutación: escalamiento a modelos de billones de parámetros con escasez simple y eficiente | JMLR |
2022 | Mezcla de expertos | GLaM: escalamiento eficiente de modelos lingüísticos con una combinación de expertos | ICML |
2022 | Mezcla de expertos | Mezcla de expertos con enrutamiento de elección de expertos | NeurIPS |
2022 | Mezcla de expertos | Modelado de lenguaje eficiente a gran escala con mezclas de expertos | EMNLP |
2017 | Mezcla de expertos | Redes neuronales escandalosamente grandes: la capa de mezcla de expertos escasamente conectada | ICLR |
Formación previa al LLM
Eficiencia de la memoria
Entrenamiento distribuido
Fecha | Palabras clave | Papel | Evento |
---|
2024 | Paralelismo modelo | ProTrain: formación LLM eficiente mediante gestión de memoria adaptativa | arxiv |
2024 | Paralelismo modelo | MegaScale: ampliación del entrenamiento de modelos de lenguaje grandes a más de 10 000 GPU | arxiv |
2023 | Paralelismo de datos | Palm: modelado de lenguaje escalable con rutas | GitHub |
2023 | Paralelismo modelo | Bpipe: paralelismo de canalización con memoria equilibrada para entrenar modelos de lenguaje grandes | JMLR |
2022 | Paralelismo modelo | Alpa: Automatización del paralelismo entre e intraoperadores para el aprendizaje profundo distribuido | OSDI |
2021 | Paralelismo de datos | FairScale: una biblioteca PyTorch modular de uso general para alto rendimiento y capacitación a gran escala | JMLR |
2020 | Paralelismo de datos | Cero: optimizaciones de memoria para entrenar billones de modelos de parámetros | IEEE SC20 |
2019 | Paralelismo modelo | GPipe: entrenamiento eficiente de redes neuronales gigantes mediante paralelismo de tuberías | NeurIPS |
2019 | Paralelismo modelo | Megatron-LM: Entrenamiento de modelos de lenguaje de parámetros multimillonarios utilizando el paralelismo de modelos | arxiv |
2019 | Paralelismo modelo | PipeDream: paralelismo de canalización generalizado para entrenamiento DNN | SOSP |
2018 | Paralelismo modelo | Mesh-tensorflow: aprendizaje profundo para supercomputadoras | NeurIPS |
Entrenamiento de precisión mixto
Fecha | Palabras clave | Papel | Evento |
---|
2022 | Entrenamiento de precisión mixto | BLOOM: un modelo de lenguaje multilingüe de acceso abierto con parámetros 176B | arxiv |
2018 | Entrenamiento de precisión mixto | Bert: entrenamiento previo de transformadores bidireccionales profundos para la comprensión del lenguaje | LCA |
2017 | Entrenamiento de precisión mixto | Entrenamiento de precisión mixto | ICLR |
Eficiencia de datos
Muestreo de importancia
Fecha | Palabras clave | Papel | Evento |
---|
2024 | Muestreo de importancia | LISA: Muestreo de importancia por capas para el ajuste fino de modelos de lenguaje grande con eficiencia de memoria | arxiv |
2023 | Encuesta sobre muestreo de importancia | Una encuesta sobre capacitación eficiente de transformadores | IJCAI |
2023 | Muestreo de importancia | Data-Juicer: un sistema de procesamiento de datos integral para modelos de lenguaje grandes | arxiv |
2023 | Muestreo de importancia | INGENIOSO: uso de subconjuntos de datos informativos para un entrenamiento previo eficiente de modelos lingüísticos | EMNLP |
2023 | Muestreo de importancia | Campos de fuerza de aprendizaje automático con capacitación consciente de los costos de datos | ICML |
2022 | Muestreo de importancia | Más allá de las leyes de escala neuronal: superar la escala de la ley de potencia mediante la poda de datos | NeurIPS |
2021 | Muestreo de importancia | Aprendizaje profundo con una dieta de datos: encontrar ejemplos importantes en las primeras etapas del entrenamiento | NeurIPS |
2018 | Muestreo de importancia | Entrene modelos profundos más rápido con un muestreo de importancia aproximado y sólido | NeurIPS |
2018 | Muestreo de importancia | No todas las muestras son iguales: aprendizaje profundo con muestreo de importancia | ICML |
Aumento de datos
Fecha | Palabras clave | Papel | Evento |
---|
2024 | Aumento de datos | LLMRec: modelos de lenguaje grandes con aumento de gráficos para recomendación | WSDM |
2024 | Aumento de datos | LLM-DA: aumento de datos a través de modelos de lenguaje grandes para el reconocimiento de entidades con nombre de pocas posibilidades | arxiv |
2023 | Aumento de datos | MixGen: un nuevo aumento de datos multimodal | WACV |
2023 | Aumento de datos | Autosupervisión consciente del aumento para capacitación GAN con eficiencia de datos | NeurIPS |
2023 | Aumento de datos | Mejora del procesamiento de voz de un extremo a otro mediante la utilización eficiente de datos de texto con síntesis latente | EMNLP |
2023 | Aumento de datos | FaMeSumm: investigar y mejorar la fidelidad del resumen médico | EMNLP |
Objetivo de entrenamiento
Fecha | Palabras clave | Papel | Evento |
---|
2023 | Objetivo de entrenamiento | Desafíos y aplicaciones de modelos de lenguaje grandes | arxiv |
2023 | Objetivo de entrenamiento | Aprendizaje de datos eficiente para la extracción de información abierta con modelos de lenguaje previamente entrenados | EMNLP |
2023 | Modelado de imagen-lenguaje enmascarado | Escalado del preentrenamiento de lenguaje-imagen mediante enmascaramiento | CVPR |
2022 | Modelado de imágenes enmascaradas | Los codificadores automáticos enmascarados son aprendices de visión escalables | CVPR |
2019 | Modelado de lenguaje enmascarado | MASS: Entrenamiento previo de secuencia enmascarada a secuencia para la generación del lenguaje | ICML |
Ajuste fino de LLM
Ajuste fino eficiente en los parámetros
Fecha | Palabras clave | Papel | Evento |
---|
2024 | Ajuste fino basado en LoRA | Dlora: solución de ajuste fino eficiente en parámetros distribuidos para modelos de lenguaje grandes | arxiv |
2024 | Ajuste fino basado en LoRA | SplitLoRA: un marco de ajuste eficiente de parámetros divididos para modelos de lenguaje grandes | arxiv |
2024 | Ajuste fino basado en LoRA | Ajuste eficiente de datos para recomendaciones basadas en LLM | SIGIR |
2024 | Ajuste fino basado en LoRA | MEFT: Ajuste fino de la memoria mediante un adaptador disperso | LCA |
2023 | Ajuste fino basado en LoRA | DyLoRA: ajuste eficiente de parámetros de modelos previamente entrenados mediante adaptación dinámica de rango bajo sin búsqueda | EACL |
2022 | Ajuste fino basado en enmascaramiento | Ajuste eficaz de los modelos de lenguaje previamente entrenados mediante la optimización de las subredes de forma adaptativa | NeurIPS |
2021 | Ajuste fino basado en enmascaramiento | BitFit: ajuste simple y eficiente en parámetros para modelos de lenguaje enmascarado basados en transformadores | LCA |
2021 | Ajuste fino basado en enmascaramiento | Criar a un niño en un modelo de lenguaje amplio: hacia un ajuste efectivo y generalizable | EMNLP |
2021 | Ajuste fino basado en enmascaramiento | Desaprender el sesgo en los modelos de lenguaje mediante la partición de gradientes | LCA |
2019 | Ajuste fino basado en enmascaramiento | SMART: Ajuste robusto y eficiente para modelos de lenguaje natural previamente entrenados a través de una optimización regularizada basada en principios | LCA |
Ajuste fino de parámetros completos
Fecha | Palabras clave | Papel | Evento |
---|
2024 | Ajuste fino de todos los parámetros | Hift: una estrategia jerárquica de ajuste de parámetros completos | arxiv |
2024 | Estudio de optimizaciones de ajuste fino de parámetros completos. | Un estudio de optimizaciones para ajustar modelos de lenguaje grandes | arxiv |
2023 | Estudio comparativo entre el ajuste fino de parámetros completos y de base LoRA | Un estudio comparativo entre el ajuste fino basado en parámetros completos y LoRA en datos de instrucción en chino para la instrucción siguiendo un modelo de lenguaje grande | arxiv |
2023 | Estudio comparativo entre el ajuste fino de parámetros completos y eficiente en parámetros | Comparación entre técnicas eficientes en parámetros y ajuste completo: un estudio de caso sobre clasificación de artículos de noticias multilingües | arxiv |
2023 | Ajuste completo de parámetros con recursos limitados | Ajuste completo de parámetros para modelos de lenguaje grandes con recursos limitados | arxiv |
2023 | Ajuste fino de memoria eficiente | Ajuste de modelos de lenguaje con pases directos | NeurIPS |
2023 | Ajuste completo de parámetros para aplicaciones medicinales | PMC-LLaMA: Hacia la construcción de modelos de lenguaje de código abierto para la medicina | arxiv |
2022 | Desventaja del ajuste fino de todos los parámetros | El ajuste fino puede distorsionar las funciones previamente entrenadas y tener un rendimiento inferior fuera de la distribución | ICLR |
Inferencia LLM
Compresión del modelo
Poda
Fecha | Palabras clave | Papel | Evento |
---|
2024 | Poda no estructurada | SparseLLM: hacia la poda global de modelos de lenguaje previamente entrenados | NeurIPS |
2024 | Poda estructurada | Perplejo por la perplejidad: poda de datos basada en la perplejidad con pequeños modelos de referencia | arxiv |
2024 | Poda estructurada | BESA: poda de modelos de lenguaje grandes con asignación de dispersión eficiente de parámetros en bloques | arxiv |
2024 | Poda estructurada | ShortGPT: las capas en modelos de lenguaje grandes son más redundantes de lo esperado | arxiv |
2024 | Poda estructurada | NutePrune: poda progresiva eficiente con numerosos profesores para modelos de lenguaje grandes | arxiv |
2024 | Poda estructurada | SliceGPT: comprima modelos de lenguaje grandes eliminando filas y columnas | ICLR |
2024 | Poda no estructurada | Dynamic Sparse Sin capacitación: ajuste sin capacitación para LLM dispersos | ICLR |
2024 | Poda estructurada | Plug-and-Play: un método de poda eficaz posterior al entrenamiento para modelos de lenguaje grandes | ICLR |
2023 | Poda no estructurada | Poda de dispersión mixta consciente de la sensibilidad de un solo disparo para modelos de lenguaje grandes | arxiv |
2023 | Poda no estructurada | SparseGPT: los modelos de lenguaje masivo se pueden podar con precisión en una sola vez | ICML |
2023 | Poda no estructurada | Un enfoque de poda simple y eficaz para modelos de lenguaje grandes | ICLR |
2023 | Poda no estructurada | AccelTran: un acelerador consciente de la dispersión para inferencia dinámica con transformadores | CAD |
2023 | Poda estructurada | LLM-Pruner: sobre la poda estructural de modelos de lenguaje grandes | NeurIPS |
2023 | Poda estructurada | LoSparse: compresión estructurada de modelos de lenguaje grandes basados en aproximación dispersa y de bajo rango | ICML |
2023 | Poda estructurada | Poda estructurada para modelos de lenguaje generativos preentrenados eficientes | LCA |
2023 | Poda estructurada | ZipLM: poda estructurada de modelos de lenguaje basada en inferencias | NeurIPS |
2023 | Poda contextual | Deja Vu: escasez contextual para LLM eficientes en el momento de la inferencia | ICML |
Cuantización
Fecha | Palabras clave | Papel | Evento |
---|
2024 | Cuantización de peso | Evaluación de modelos de lenguaje grande cuantificados | arxiv |
2024 | Cuantización de peso | I-LLM: Inferencia eficiente de solo enteros para modelos de lenguaje grande de bits bajos totalmente cuantificados | arxiv |
2024 | Cuantización de peso | ABQ-LLM: Aceleración de inferencia cuantificada de bits arbitrarios para modelos de lenguaje grandes | arxiv |
2024 | Cocuantización por activación de peso | Rotación y permutación para la gestión avanzada de valores atípicos y la cuantificación eficiente de LLM | NeurIPS |
2024 | Cuantización de peso | OmniQuant: Cuantización calibrada omnidireccionalmente para modelos de lenguajes grandes | ICLR |
2023 | Cuantización de peso | Flexround: redondeo aprendible basado en la división de elementos para la cuantificación posterior al entrenamiento | ICML |
2023 | Cuantización de peso | Outlier Suppression+: Cuantización precisa de modelos de lenguaje grandes mediante desplazamiento y escalamiento equivalentes y óptimos | EMNLP |
2023 | Cuantización de peso | OWQ: Cuantización de peso con reconocimiento de valores atípicos para un ajuste fino e inferencia eficientes de modelos de lenguaje grandes | AAAI |
2023 | Cuantización de peso | Gptq: Cuantización postentrenamiento precisa para transformadores generativos preentrenados | ICLR |
2023 | Cuantización de peso | Cuantización de almacenamiento dinámico para un entrenamiento eficiente de transformadores | EMNLP |
2023 | Cuantización de peso | Entrenamiento de transformadores consciente de la cuantificación y comprimido por tensor para la comprensión del lenguaje natural | entre discursos |
2023 | Cuantización de peso | QLoRA: ajuste eficiente de LLM cuantificados | NeurIPS |
2023 | Cuantización de peso | Entrenamiento estable y de baja precisión para modelos de lenguaje visual a gran escala | NeurIPS |
2023 | Cuantización de peso | Prequant: un enfoque de cuantificación independiente de la tarea para modelos de lenguaje previamente entrenados | LCA |
2023 | Cuantización de peso | Olive: aceleración de modelos de lenguaje grandes a través de una cuantificación de pares de víctimas atípicas compatible con hardware | ISCA |
2023 | Cuantización de peso | Awq: Cuantización de peso consciente de la activación para compresión y aceleración de llm | arXiv |
2023 | Cuantización de peso | Spqr: una representación escasamente cuantificada para una compresión de peso de película casi sin pérdidas | arXiv |
2023 | Cuantización de peso | SqueezeLLM: Cuantización densa y dispersa | arXiv |
2023 | Cuantización de peso | LLM-QAT: Capacitación consciente de la cuantificación sin datos para modelos de lenguajes grandes | arXiv |
2022 | Cuantización de activación | Gact: Capacitación comprimida de activación para arquitecturas de red genéricas | ICML |
2022 | Cuantización de punto fijo | Impulse Vision Transformer con escasez y cuantificación compatibles con GPU | LCA |
2021 | Cuantización de activación | Ac-gc: compresión de activación con pérdida con convergencia garantizada | NeurIPS |
Aceleración dinámica
Poda de entrada
Fecha | Palabras clave | Papel | Evento |
---|
2024 | Eliminación de tokens basada en puntuación | Poda estructurada adaptativa para una generación eficiente de LLM | COLM |
2024 | Eliminación de tokens basada en puntuación | LazyLLM: poda dinámica de tokens para una inferencia eficiente de LLM de contexto largo | arxiv |
2024 | Eliminación de tokens basada en el aprendizaje | LLMLingua-2: Destilación de datos para una compresión de mensajes independiente de la tarea eficiente y fiel | LCA |
2024 | Eliminación de tokens basada en el aprendizaje | Memoria de contexto comprimida para la interacción del modelo de lenguaje en línea | ICLR |
2023 | Eliminación de tokens basada en puntuación | Poda de tokens consciente de restricciones y destilada de clasificación para una inferencia eficiente de transformadores | KDD |
2023 | Eliminación de tokens basada en el aprendizaje | PuMer: poda y fusión de tokens para modelos de lenguaje de visión eficientes | LCA |
2023 | Eliminación de tokens basada en el aprendizaje | Infor-Coef: reducción de resolución de tokens dinámica basada en cuellos de botella de información para un modelo de lenguaje compacto y eficiente | arXiv |
2023 | Eliminación de tokens basada en el aprendizaje | SmartTrim: tokens adaptativos y poda de parámetros para modelos eficientes de visión y lenguaje | arXiv |
2022 | Eliminación de tokens basada en el aprendizaje | Transkimmer: Transformer aprende a hojear capas | LCA |
2022 | Eliminación de tokens basada en puntuación | Poda de tokens aprendida para transformadores | KDD |
2021 | Eliminación de tokens basada en el aprendizaje | TR-BERT: Reducción dinámica de tokens para acelerar la inferencia BERT | NAACL |
2021 | Eliminación de tokens basada en puntuación | Arquitectura eficiente de atención dispersa con token en cascada y poda de cabeza | HPCA |
Diseño del sistema
Optimización de la implementación
Fecha | Palabras clave | Papel | Evento |
---|
2024 | Optimización de hardware | NÚCLEO TENSOR LUT: la tabla de búsqueda permite una aceleración eficiente de la inferencia LLM de bits bajos | arxiv |
2023 | Descarga de hardware | FlexGen: inferencia generativa de alto rendimiento de modelos de lenguaje grandes con una sola GPU | PMLR |
2023 | Descarga de hardware | Servicio de inferencia distribuida rápida para modelos de lenguaje grandes | arXiv |
2022 | Inferencia colaborativa | Pétalos: inferencia colaborativa y ajuste de modelos grandes | arXiv |
2022 | Descarga de hardware | Inferencia DeepSpeed: permitir la inferencia eficiente de modelos de transformadores a una escala sin precedentes | IEEESC22 |
Infraestructura de soporte
Fecha | Palabras clave | Papel | Evento |
---|
2024 | Dispositivos de borde | MobileLLM: optimización de modelos de lenguaje de parámetros de miles de millones para casos de uso en dispositivos | ICML |
2024 | Dispositivos de borde | EdgeShard: inferencia eficiente de LLM mediante computación perimetral colaborativa | arxiv |
2024 | Dispositivos de borde | LLM de cualquier precisión: implementación de bajo costo de múltiples LLM de diferentes tamaños | ICML |
2024 | Dispositivos de borde | Las innovadoras soluciones de memoria para mejorar el rendimiento en la inferencia de llm | Micro IEEE |
2024 | Dispositivos de borde | Punto de fusión: evaluación móvil de transformadores de lenguaje | Mobicom |
2024 | Dispositivos de borde | LLM como servicio de sistema en dispositivos móviles | arxiv |
2024 | Dispositivos de borde | LocMoE: un MoE de bajo costo para la capacitación de modelos de lenguajes grandes | arxiv |
2024 | Dispositivos de borde | Jetmoe: Alcanzando el rendimiento de llama2 con 0,1 millones de dólares | arxiv |
2023 | Dispositivos de borde | Entrenamiento de modelos de lenguaje neuronal de amplio vocabulario mediante aprendizaje federado privado para dispositivos con recursos limitados | ICASP |
2023 | Dispositivos de borde | Ajuste federado de los LLM al límite: lo bueno, lo malo, lo feo | arXiv |
2023 | Bibliotecas | Colossal-AI: un sistema unificado de aprendizaje profundo para entrenamiento paralelo a gran escala | ICPP |
2023 | Bibliotecas | GPT-NeoX-20B: un modelo de lenguaje autorregresivo de código abierto | LCA |
2023 | Dispositivos de borde | Grandes modelos de lenguaje potenciaron la IA autónoma de borde para una inteligencia conectada | arXiv |
2022 | Bibliotecas | Inferencia DeepSpeed: permitir la inferencia eficiente de modelos de transformadores a una escala sin precedentes | IEEE SC22 |
2022 | Bibliotecas | Alpa: Automatización del paralelismo entre e intraoperadores para el aprendizaje profundo distribuido | OSDI |
2022 | Dispositivos de borde | EdgeFormer: un transformador con parámetros eficientes para la generación Seq2seq en el dispositivo | arXiv |
2022 | Dispositivos de borde | ProFormer: Hacia transformadores basados en proyección LSH en el dispositivo | LCA |
2021 | Dispositivos de borde | Genere más funciones con operaciones económicas para BERT | LCA |
2021 | Dispositivos de borde | SqueezeBERT: ¿Qué puede enseñar la visión por computadora a la PNL sobre redes neuronales eficientes? | Sostener PNL |
2020 | Dispositivos de borde | Transformador Lite con atención de largo y corto alcance | arXiv |
2019 | Bibliotecas | Megatron-LM: Entrenamiento de modelos de lenguaje de parámetros multimillonarios utilizando el paralelismo de modelos | IEEE SC22 |
2018 | Bibliotecas | Mesh-TensorFlow: aprendizaje profundo para supercomputadoras | NeurIPS |
Otros sistemas
Fecha | Palabras clave | Papel | Evento |
---|
2023 | Otros sistemas | Tabi: un eficiente sistema de inferencia multinivel para modelos de lenguaje grandes | EuroSys |
2023 | Otros sistemas | Búsqueda de secuencias casi duplicadas a escala para la evaluación de la memorización de modelos de lenguaje grandes | PACMMOD |
Métricas y puntos de referencia de evaluación de la eficiencia de los recursos
? Métricas de cálculo
Métrico | Descripción | Uso de ejemplo |
---|
FLOP (operaciones de punto flotante) | el número de operaciones aritméticas con números de punto flotante | [FLOPS] |
Tiempo de entrenamiento | La duración total requerida para el entrenamiento, generalmente medida en minutos, horas o días. | [minutos, días] [horas] |
Tiempo de inferencia/latencia | el tiempo promedio requerido para generar una salida después de recibir una entrada, generalmente medido en tiempo de reloj de pared o tiempo de reloj de CPU/GPU/TPU en milisegundos o segundos. | [latencia de un extremo a otro en segundos] [latencia de la próxima generación de token en milisegundos] |
Rendimiento | la tasa de generación de tokens de salida o finalización de tareas, generalmente medida en tokens por segundo (TPS) o consultas por segundo (QPS) | [fichas/s] [consultas/es] |
Relación de aceleración | la mejora en la velocidad de inferencia en comparación con un modelo de referencia | [aceleración del tiempo de inferencia] [aceleración del rendimiento] |
? Métricas de memoria
Métrico | Descripción | Uso de ejemplo |
---|
Número de parámetros | el número de variables ajustables en la red neuronal del LLM | [número de parámetros] |
Tamaño del modelo | el espacio de almacenamiento necesario para guardar todo el modelo | [uso máximo de memoria en GB] |
⚡️ Métricas de energía
Métrico | Descripción | Uso de ejemplo |
---|
Consumo de energía | La energía eléctrica utilizada durante el ciclo de vida del LLM. | [kWh] |
Emisión de carbono | las emisiones de gases de efecto invernadero asociadas con el uso de energía del modelo | [kgCO2eq] |
Los siguientes son paquetes de software disponibles diseñados para el seguimiento en tiempo real del consumo de energía y las emisiones de carbono.
- CódigoCarbono
- rastreador de carbono
- rastreador-de-impacto-experimento
También puede resultarle útil lo siguiente para predecir el uso de energía y la huella de carbono antes del entrenamiento real o
- Impacto del CO2 del ML
- LLMCarbono
? Métrica de costos financieros
Métrico | Descripción | Uso de ejemplo |
---|
Dólares por parámetro | el costo total de entrenar (o ejecutar) el LLM por la cantidad de parámetros | |
? Métrica de comunicación de red
Métrico | Descripción | Uso de ejemplo |
---|
Volumen de comunicación | la cantidad total de datos transmitidos a través de la red durante una ejecución específica de LLM o una ejecución de entrenamiento | [volumen de comunicación en TB] |
Otras métricas
Métrico | Descripción | Uso de ejemplo |
---|
Relación de compresión | la reducción del tamaño del modelo comprimido en comparación con el modelo original | [tasa de compresión] [porcentaje de pesos restantes] |
Lealtad/Fidelidad | la semejanza entre los modelos de profesor y estudiante en términos de coherencia de las predicciones y alineación de las distribuciones de probabilidad predichas | [lealtad] [fidelidad] |
Robustez | la resistencia a los ataques adversarios, donde ligeras modificaciones de entrada pueden potencialmente manipular la salida del modelo | [precisión posterior al ataque, número de consulta] |
Optimidad de Pareto | las compensaciones óptimas entre varios factores en competencia | [Frontera de Pareto (coste y precisión)] [Frontera de Pareto (rendimiento y FLOP)] |
Puntos de referencia
Punto de referencia | Descripción | Papel |
---|
Puntos de referencia generales de PNL | una extensa colección de puntos de referencia generales de PNL como GLUE, SuperGLUE, WMT y SQuAD, etc. | Una descripción general completa de los modelos de lenguaje grandes |
dinaboard | una plataforma de código abierto para evaluar modelos de PNL en la nube, que ofrece interacción en tiempo real y una evaluación integral de la calidad del modelo con Dynascore personalizable | Dynaboard: una plataforma de evaluación como servicio para evaluaciones comparativas holísticas de próxima generación |
Control de calidad eficiente | un desafío de respuesta a preguntas (QA) de dominio abierto en NeurIPS 2020 que se centra en la creación de sistemas de control de calidad precisos y con memoria eficiente | Concurso NeurIPS 2020 EfficientQA: sistemas, análisis y lecciones aprendidas |
Tarea compartida SustaiNLP 2020 | un desafío para el desarrollo de modelos de PNL energéticamente eficientes al evaluar su desempeño en ocho tareas de NLU utilizando métricas SuperGLUE y evaluando su consumo de energía durante la inferencia | Descripción general de la tarea compartida SustaiNLP 2020 |
ELUE (Evaluación eficiente de la comprensión del lenguaje) | una plataforma de referencia para evaluar la eficiencia del modelo de PNL en diversas tareas, que ofrece métricas en línea y solo requiere un archivo de definición del modelo Python para su envío. | Hacia una PNL eficiente: una evaluación estándar y una base de referencia sólida |
VLUE (Evaluación de comprensión del lenguaje y la visión) | un punto de referencia integral para evaluar modelos de visión y lenguaje en múltiples tareas, que ofrece una plataforma en línea para evaluación y comparación | VLUE: un punto de referencia multitarea para evaluar modelos de visión y lenguaje |
Arena de largo alcance (LAG) | un conjunto de pruebas comparativas que evalúa modelos Transformer eficientes en tareas de contexto prolongado, que abarca diversas modalidades y tipos de razonamiento y al mismo tiempo permite evaluaciones bajo restricciones de recursos controladas, destacando la eficiencia del mundo real. | Arena de largo alcance: un punto de referencia para transformadores eficientes |
MS MARCO consciente de la eficiencia | un punto de referencia mejorado de recuperación de información de MS MARCO que integra métricas de eficiencia como la latencia por consulta y el costo junto con la precisión, lo que facilita una evaluación integral de los sistemas de IR | Más allá de la precisión de las tareas posteriores para la evaluación comparativa de la recuperación de información |
Referencia
Si encuentra útil esta lista de artículos en su investigación, considere citar:
@article{bai2024beyond,
title={Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models},
author={Bai, Guangji and Chai, Zheng and Ling, Chen and Wang, Shiyu and Lu, Jiaying and Zhang, Nan and Shi, Tingwei and Yu, Ziyang and Zhu, Mengdan and Zhang, Yifei and others},
journal={arXiv preprint arXiv:2401.00625},
year={2024}
}