Artigos incríveis de LLM com eficiência de recursos
Uma lista selecionada de artigos de alta qualidade sobre LLMs com eficiência de recursos.
Este é o repositório GitHub para nosso artigo de pesquisa Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models.
Índice
- Artigos incríveis de LLM com eficiência de recursos
- Índice
- Design de Arquitetura LLM
- Arquitetura de Transformador Eficiente
- Arquitetura Não Transformadora
- Pré-treinamento LLM
- Eficiência de memória
- Treinamento Distribuído
- Treinamento de precisão mista
- Eficiência de dados
- Amostragem de Importância
- Aumento de dados
- Objetivo de treinamento
- Ajuste fino de LLM
- Ajuste fino com eficiência de parâmetros
- Ajuste fino de parâmetros completos
- Inferência LLM
- Compressão de modelo
- Aceleração Dinâmica
- Projeto do sistema
- Otimização de implantação
- Infraestrutura de Suporte
- Outros sistemas
- Métricas e benchmarks de avaliação de eficiência de recursos
- ? Métricas de computação
- ? Métricas de memória
- ⚡️ Métricas de Energia
- ? Métrica de Custo Financeiro
- ? Métrica de comunicação de rede
- Outras métricas
- Referências
- Referência
Design de Arquitetura LLM
Arquitetura de Transformador Eficiente
Data | Palavras-chave | Papel | Local |
---|
2024 | Atenção aproximada | Modelos simples de linguagem de atenção linear equilibram a compensação entre recall e rendimento | ArXiv |
2024 | Atenção ao hardware | MobileLLM: Otimizando modelos de linguagem de parâmetros de subbilhões para casos de uso no dispositivo | ArXiv |
2024 | Atenção aproximada | LoMA: atenção de memória compactada sem perdas | ArXiv |
2024 | Atenção aproximada | Duas pedras atingiram um pássaro: codificação posicional de dois níveis para melhor extrapolação de comprimento | ICML |
2024 | Otimização de hardware | FlashAttention-2: Atenção mais rápida com melhor paralelismo e particionamento de trabalho | ICLR |
2023 | Otimização de hardware | Flashattention: atenção exata rápida e com uso eficiente de memória com reconhecimento de io | NeuroIPS |
2023 | Atenção aproximada | KDEformer: Acelerando Transformadores via Estimativa de Densidade do Kernel | ICML |
2023 | Atenção aproximada | Mega: Atenção fechada equipada com média móvel | ICLR |
2022 | Otimização de hardware | xFormers - Caixa de ferramentas para acelerar a pesquisa sobre transformadores | GitHub |
2021 | Atenção aproximada | Atenção eficiente: Atenção com complexidades lineares | WACV |
2021 | Atenção aproximada | Um transformador livre de atenção | ArXiv |
2021 | Atenção aproximada | A autoatenção não precisa de memória O (n ^ 2) | ArXiv |
2021 | Otimização de hardware | LightSeq: uma biblioteca de inferência de alto desempenho para transformadores | NAACL |
2021 | Otimização de hardware | FasterTransformer: uma estrutura de transformador mais rápida | GitHub |
2020 | Atenção aproximada | Transformadores são RNNs: Transformadores Autoregressivos Rápidos com Atenção Linear | ICML |
2019 | Atenção aproximada | Reformer: O transformador eficiente | ICLR |
Arquitetura Não Transformadora
Data | Palavras-chave | Papel | Local |
---|
2024 | Decodificador | Você armazena em cache apenas uma vez: arquiteturas decodificador-decodificador para modelos de linguagem | ArXiv |
2024 | Camada BitLinear | Modelagem de linguagem escalável sem MatMul | ArXiv |
2023 | RNN LM | RWKV: Reinventando RNNs para a Era do Transformador | Resultados EMNLP |
2023 | MLP | Os preditores auto-regressivos do próximo token são aprendizes universais | ArXiv |
2023 | LM convolucional | Hierarquia de hienas: em direção a modelos de linguagem convolucional maiores | ICML |
2023 | Baseado em matrizes subquadráticas | Monarch Mixer: uma arquitetura subquadrática simples baseada em GEMM | NeuroIPS |
2023 | Modelo Seletivo de Espaço de Estado | Mamba: Modelagem de Sequência de Tempo Linear com Espaços de Estado Seletivos | ArXiv |
2022 | Mistura de especialistas | Transformadores de comutação: escalando para trilhões de modelos de parâmetros com dispersão simples e eficiente | JMLR |
2022 | Mistura de especialistas | GLaM: Dimensionamento Eficiente de Modelos de Linguagem com Mistura de Especialistas | ICML |
2022 | Mistura de especialistas | Mistura de especialistas com roteamento de escolha de especialistas | NeuroIPS |
2022 | Mistura de especialistas | Modelagem Eficiente de Linguagem em Grande Escala com Misturas de Especialistas | EMNLP |
2017 | Mistura de especialistas | Redes neurais escandalosamente grandes: a camada de mistura de especialistas com controle esparso | ICLR |
Pré-treinamento LLM
Eficiência de memória
Treinamento Distribuído
Data | Palavras-chave | Papel | Local |
---|
2024 | Paralelismo de Modelo | ProTrain: treinamento LLM eficiente por meio de gerenciamento adaptativo de memória | Arxiv |
2024 | Paralelismo de Modelo | MegaScale: Dimensionando o treinamento de grandes modelos de linguagem para mais de 10.000 GPUs | Arxiv |
2023 | Paralelismo de dados | Palm: Dimensionando modelagem de linguagem com caminhos | GitHub |
2023 | Paralelismo de Modelo | Bpipe: paralelismo de pipeline com memória balanceada para treinar modelos de linguagem grandes | JMLR |
2022 | Paralelismo de Modelo | Alpa: Automatizando o Paralelismo Inter e Intra-Operador para Aprendizado Profundo Distribuído | OSDI |
2021 | Paralelismo de dados | FairScale: uma biblioteca PyTorch modular de uso geral para alto desempenho e treinamento em larga escala | JMLR |
2020 | Paralelismo de dados | Zero: Otimizações de memória para treinar modelos de trilhões de parâmetros | IEEE SC20 |
2019 | Paralelismo de Modelo | GPipe: treinamento eficiente de redes neurais gigantes usando paralelismo de pipeline | NeuroIPS |
2019 | Paralelismo de Modelo | Megatron-LM: Treinamento de modelos de linguagem de vários bilhões de parâmetros usando paralelismo de modelos | Arxiv |
2019 | Paralelismo de Modelo | PipeDream: paralelismo generalizado de pipeline para treinamento DNN | SOSP |
2018 | Paralelismo de Modelo | Mesh-tensorflow: aprendizado profundo para supercomputadores | NeuroIPS |
Treinamento de precisão mista
Data | Palavras-chave | Papel | Local |
---|
2022 | Treinamento de precisão mista | BLOOM: um modelo de linguagem multilíngue de acesso aberto com parâmetros 176B | Arxiv |
2018 | Treinamento de precisão mista | Bert: Pré-treinamento de transformadores bidirecionais profundos para compreensão de linguagem | ACL |
2017 | Treinamento de precisão mista | Treinamento de precisão mista | ICLR |
Eficiência de dados
Amostragem de Importância
Data | Palavras-chave | Papel | Local |
---|
2024 | Amostragem de importância | LISA: Amostragem de importância em camadas para ajuste fino de modelo de linguagem grande com eficiência de memória | Arxiv |
2023 | Pesquisa sobre amostragem de importância | Uma Pesquisa sobre Treinamento Eficiente de Transformadores | IJCAI |
2023 | Amostragem de importância | Data-Juicer: um sistema completo de processamento de dados para grandes modelos de linguagem | Arxiv |
2023 | Amostragem de importância | INGENIOSO: Usando subconjuntos de dados informativos para pré-treinamento eficiente de modelos de linguagem | EMNLP |
2023 | Amostragem de importância | Campos de força de aprendizado de máquina com treinamento ciente de custos de dados | ICML |
2022 | Amostragem de importância | Além das leis de escalonamento neural: vencendo o escalonamento da lei de potência por meio da remoção de dados | NeuroIPS |
2021 | Amostragem de importância | Aprendizado profundo em uma dieta de dados: encontrando exemplos importantes no início do treinamento | NeuroIPS |
2018 | Amostragem de importância | Treinamento de modelos profundos mais rápido com amostragem de importância aproximada e robusta | NeuroIPS |
2018 | Amostragem de importância | Nem todas as amostras são criadas iguais: aprendizado profundo com amostragem de importância | ICML |
Aumento de dados
Data | Palavras-chave | Papel | Local |
---|
2024 | Aumento de dados | LLMRec: Grandes Modelos de Linguagem com Aumento de Gráfico para Recomendação | WSDM |
2024 | Aumento de dados | LLM-DA: Aumento de dados por meio de modelos de linguagem grande para reconhecimento de entidades nomeadas em poucas tentativas | Arxiv |
2023 | Aumento de dados | MixGen: um novo aumento de dados multimodais | WACV |
2023 | Aumento de dados | Autosupervisão com reconhecimento de aumento para treinamento GAN com eficiência de dados | NeuroIPS |
2023 | Aumento de dados | Melhorando o processamento de fala de ponta a ponta por meio da utilização eficiente de dados de texto com síntese latente | EMNLP |
2023 | Aumento de dados | FaMeSumm: Investigando e Melhorando a Fidelidade dos Resumos Médicos | EMNLP |
Objetivo de treinamento
Data | Palavras-chave | Papel | Local |
---|
2023 | Objetivo de treinamento | Desafios e aplicações de grandes modelos de linguagem | Arxiv |
2023 | Objetivo de treinamento | Aprendizado eficiente de dados para extração aberta de informações com modelos de linguagem pré-treinados | EMNLP |
2023 | Modelagem de linguagem-imagem mascarada | Dimensionando o pré-treinamento de linguagem-imagem via mascaramento | CVPR |
2022 | Modelagem de imagem mascarada | Autoencoders mascarados são alunos com visão escalável | CVPR |
2019 | Modelagem de linguagem mascarada | MASS: Pré-treinamento mascarado de sequência a sequência para geração de linguagem | ICML |
Ajuste fino de LLM
Ajuste fino com eficiência de parâmetros
Data | Palavras-chave | Papel | Local |
---|
2024 | Ajuste fino baseado em LoRA | Dlora: Solução distribuída de ajuste fino com eficiência de parâmetros para modelos de linguagem grandes | Arxiv |
2024 | Ajuste fino baseado em LoRA | SplitLoRA: uma estrutura de ajuste fino com eficiência de parâmetros divididos para modelos de linguagem grande | Arxiv |
2024 | Ajuste fino baseado em LoRA | Ajuste fino com eficiência de dados para recomendação baseada em LLM | SIGIR |
2024 | Ajuste fino baseado em LoRA | MEFT: ajuste fino com eficiência de memória por meio de adaptador esparso | ACL |
2023 | Ajuste fino baseado em LoRA | DyLoRA: ajuste eficiente de parâmetros de modelos pré-treinados usando adaptação de baixa classificação livre de pesquisa dinâmica | EACL |
2022 | Ajuste fino baseado em máscara | Ajustando modelos de linguagem pré-treinados de maneira eficaz, otimizando sub-redes de forma adaptativa | NeuroIPS |
2021 | Ajuste fino baseado em máscara | BitFit: Ajuste fino simples e eficiente em parâmetros para modelos de linguagem mascarada baseados em transformadores | ACL |
2021 | Ajuste fino baseado em máscara | Criar um filho em um modelo de linguagem ampla: rumo a um ajuste fino eficaz e generalizável | EMNLP |
2021 | Ajuste fino baseado em máscara | Desaprendendo preconceitos em modelos de linguagem por meio do particionamento de gradientes | ACL |
2019 | Ajuste fino baseado em máscara | SMART: ajuste fino robusto e eficiente para modelos de linguagem natural pré-treinados por meio de otimização regularizada com princípios | ACL |
Ajuste fino de parâmetros completos
Data | Palavras-chave | Papel | Local |
---|
2024 | Ajuste fino de todos os parâmetros | Hift: uma estratégia hierárquica de ajuste fino de parâmetros completos | Arxiv |
2024 | Estudo de otimizações de ajuste fino de parâmetros completos | Um estudo de otimizações para ajuste fino de modelos de linguagem grande | Arxiv |
2023 | Estudo comparativo entre ajuste fino de parâmetros completos e base LoRA | Um estudo comparativo entre ajuste fino de parâmetro completo e baseado em LoRA em dados de instrução chinesa para instrução seguindo modelo de linguagem grande | Arxiv |
2023 | Estudo comparativo entre ajuste fino de parâmetros completos e parâmetros eficientes | Comparação entre técnicas eficientes em parâmetros e ajuste fino completo: um estudo de caso sobre classificação de artigos de notícias multilíngues | Arxiv |
2023 | Ajuste fino de todos os parâmetros com recursos limitados | Ajuste fino de parâmetros completos para modelos de linguagem grande com recursos limitados | Arxiv |
2023 | Ajuste fino com eficiência de memória | Ajustando Modelos de Linguagem com Just Forward Passes | NeuroIPS |
2023 | Ajuste fino de parâmetros completos para aplicações médicas | PMC-LLaMA: Rumo à construção de modelos de linguagem de código aberto para medicina | Arxiv |
2022 | Desvantagem do ajuste fino de parâmetros completos | O ajuste fino pode distorcer recursos pré-treinados e ter desempenho inferior fora da distribuição | ICLR |
Inferência LLM
Compressão de modelo
Poda
Data | Palavras-chave | Papel | Local |
---|
2024 | Poda não estruturada | SparseLLM: Rumo à poda global para modelos de linguagem pré-treinados | NeuroIPS |
2024 | Poda Estruturada | Perplexo com a perplexidade: remoção de dados baseada em perplexidade com pequenos modelos de referência | Arxiv |
2024 | Poda Estruturada | BESA: Eliminando modelos de linguagem grande com alocação de dispersão eficiente em termos de parâmetros | Arxiv |
2024 | Poda Estruturada | ShortGPT: Camadas em modelos de linguagem grandes são mais redundantes do que você espera | Arxiv |
2024 | Poda Estruturada | NutePrune: poda progressiva eficiente com vários professores para grandes modelos de linguagem | Arxiv |
2024 | Poda Estruturada | SliceGPT: compactar modelos de linguagem grandes excluindo linhas e colunas | ICLR |
2024 | Poda não estruturada | Dinâmico esparso sem treinamento: ajuste fino sem treinamento para LLMs esparsos | ICLR |
2024 | Poda Estruturada | Plug-and-Play: um método de poda pós-treinamento eficiente para modelos de linguagem grandes | ICLR |
2023 | Poda não estruturada | Poda de esparsidade mista com reconhecimento de sensibilidade única para modelos de linguagem grande | Arxiv |
2023 | Poda não estruturada | SparseGPT: Modelos de linguagem massivos podem ser removidos com precisão de uma só vez | ICML |
2023 | Poda não estruturada | Uma abordagem de poda simples e eficaz para grandes modelos de linguagem | ICLR |
2023 | Poda não estruturada | AccelTran: um acelerador com reconhecimento de dispersão para inferência dinâmica com transformadores | TCAD |
2023 | Poda Estruturada | LLM-Pruner: Sobre a poda estrutural de grandes modelos de linguagem | NeuroIPS |
2023 | Poda Estruturada | LoSparse: compactação estruturada de modelos de linguagem grande com base em aproximação esparsa e de baixa classificação | ICML |
2023 | Poda Estruturada | Poda Estruturada para Modelos de Linguagem Pré-treinados Gerativos Eficientes | ACL |
2023 | Poda Estruturada | ZipLM: poda estruturada com reconhecimento de inferência de modelos de linguagem | NeuroIPS |
2023 | Poda Contextual | Deja Vu: Dispersão Contextual para LLMs Eficientes no Tempo de Inferência | ICML |
Quantização
Data | Palavras-chave | Papel | Local |
---|
2024 | Quantização de Peso | Avaliando modelos quantizados de grandes linguagens | Arxiv |
2024 | Quantização de Peso | I-LLM: Inferência eficiente somente de números inteiros para modelos de linguagem grande e de baixo bit totalmente quantizados | Arxiv |
2024 | Quantização de Peso | ABQ-LLM: Aceleração de inferência quantizada de bits arbitrários para grandes modelos de linguagem | Arxiv |
2024 | Co-Quantização de Ativação de Peso | Rotação e Permutação para Gerenciamento Avançado de Outliers e Quantização Eficiente de LLMs | NeuroIPS |
2024 | Quantização de Peso | OmniQuant: Quantização Calibrada Omnidirecionalmente para Modelos de Linguagem Grande | ICLR |
2023 | Quantização de Peso | Flexround: arredondamento que pode ser aprendido com base na divisão elemento a elemento para quantização pós-treinamento | ICML |
2023 | Quantização de Peso | Supressão de Outlier+: quantização precisa de grandes modelos de linguagem por meio de deslocamento e escala equivalentes e ideais | EMNLP |
2023 | Quantização de Peso | OWQ: Quantização de peso com reconhecimento de outliers para ajuste fino e inferência eficiente de modelos de linguagem grande | AAAI |
2023 | Quantização de Peso | Gptq: Quantização pós-treinamento precisa para transformadores generativos pré-treinados | ICLR |
2023 | Quantização de Peso | Quantização dinâmica de stashing para treinamento eficiente de transformadores | EMNLP |
2023 | Quantização de Peso | Treinamento de transformadores com reconhecimento de quantização e compactação de tensores para compreensão de linguagem natural | Interfala |
2023 | Quantização de Peso | QLoRA: Ajuste fino eficiente de LLMs quantizados | NeuroIPS |
2023 | Quantização de Peso | Treinamento estável e de baixa precisão para modelos de linguagem visual em larga escala | NeuroIPS |
2023 | Quantização de Peso | Prequant: Uma abordagem de quantização independente de tarefas para modelos de linguagem pré-treinados | ACL |
2023 | Quantização de Peso | Olive: Acelerando modelos de linguagem grandes por meio de quantização de pares de vítimas atípicas amigável ao hardware | ISCA |
2023 | Quantização de Peso | Awq: quantização de peso com reconhecimento de ativação para compressão e aceleração llm | arXiv |
2023 | Quantização de Peso | Spqr: Uma representação esparsa quantizada para compressão de peso llm quase sem perdas | arXiv |
2023 | Quantização de Peso | SqueezeLLM: quantização densa e esparsa | arXiv |
2023 | Quantização de Peso | LLM-QAT: Treinamento consciente de quantização sem dados para grandes modelos de linguagem | arXiv |
2022 | Quantização de Ativação | Gact: Treinamento compactado de ativação para arquiteturas de rede genéricas | ICML |
2022 | Quantização de ponto fixo | Impulsione o Vision Transformer com dispersão e quantização compatíveis com GPU | ACL |
2021 | Quantização de Ativação | Ac-gc: Compressão de ativação com perdas com convergência garantida | NeuroIPS |
Aceleração Dinâmica
Poda de entrada
Data | Palavras-chave | Papel | Local |
---|
2024 | Remoção de token baseada em pontuação | Poda Estruturada Adaptativa Solicitada para Geração Eficiente de LLM | COLM |
2024 | Remoção de token baseada em pontuação | LazyLLM: remoção dinâmica de token para inferência eficiente de LLM de contexto longo | Arxiv |
2024 | Remoção de token baseada em aprendizagem | LLMLingua-2: Destilação de dados para compactação de prompt independente de tarefas eficiente e fiel | ACL |
2024 | Remoção de token baseada em aprendizagem | Memória de contexto compactada para interação de modelo de linguagem online | ICLR |
2023 | Remoção de token baseada em pontuação | Poda de token com reconhecimento de restrições e classificação destilada para inferência eficiente de transformadores | KDD |
2023 | Remoção de token baseada em aprendizagem | PuMer: removendo e mesclando tokens para modelos de linguagem de visão eficientes | ACL |
2023 | Remoção de token baseada em aprendizagem | Infor-Coef: Downsampling de token dinâmico baseado em gargalos de informações para modelo de linguagem compacto e eficiente | arXiv |
2023 | Remoção de token baseada em aprendizagem | SmartTrim: tokens adaptativos e remoção de parâmetros para modelos eficientes de linguagem de visão | arXiv |
2022 | Remoção de token baseada em aprendizagem | Transkimmer: Transformer aprende a deslizar em camadas | ACL |
2022 | Remoção de token baseada em pontuação | Poda de token aprendida para transformadores | KDD |
2021 | Remoção de token baseada em aprendizagem | TR-BERT: Redução dinâmica de token para acelerar a inferência de BERT | NAACL |
2021 | Remoção de token baseada em pontuação | Arquitetura eficiente de atenção escassa com token em cascata e remoção de cabeçalho | HPCA |
Projeto do sistema
Otimização de implantação
Data | Palavras-chave | Papel | Local |
---|
2024 | Otimização de hardware | LUT TENSOR CORE: tabela de pesquisa permite aceleração eficiente de inferência LLM de baixo bit | Arxiv |
2023 | Descarregamento de hardware | FlexGen: Inferência generativa de alto rendimento de modelos de linguagem grande com uma única GPU | PMLR |
2023 | Descarregamento de hardware | Inferência distribuída rápida servindo para modelos de linguagem grandes | arXiv |
2022 | Inferência colaborativa | Pétalas: Inferência Colaborativa e Ajuste Fino de Modelos Grandes | arXiv |
2022 | Descarregamento de hardware | Inferência DeepSpeed: possibilitando inferência eficiente de modelos de transformadores em escala sem precedentes | IEEE SC22 |
Infraestrutura de Suporte
Data | Palavras-chave | Papel | Local |
---|
2024 | Dispositivos de borda | MobileLLM: Otimizando modelos de linguagem de parâmetros de subbilhões para casos de uso no dispositivo | ICML |
2024 | Dispositivos de borda | EdgeShard: Inferência LLM eficiente por meio de Edge Computing colaborativo | Arxiv |
2024 | Dispositivos de borda | LLM de qualquer precisão: implantação de baixo custo de vários LLMs de tamanhos diferentes | ICML |
2024 | Dispositivos de borda | As soluções inovadoras de memória para melhor desempenho em inferência llm | Micro IEEE |
2024 | Dispositivos de borda | Ponto de fusão: avaliação móvel de transformadores de linguagem | MobiCom |
2024 | Dispositivos de borda | LLM como um serviço de sistema em dispositivos móveis | Arxiv |
2024 | Dispositivos de borda | LocMoE: um MoE de baixa sobrecarga para treinamento de modelos de linguagem grande | Arxiv |
2024 | Dispositivos de borda | Jetmoe: Alcançando o desempenho do llama2 com 0,1 milhão de dólares | Arxiv |
2023 | Dispositivos de borda | Treinamento de modelos de linguagem neural com grande vocabulário por aprendizagem federada privada para dispositivos com recursos limitados | ICASSP |
2023 | Dispositivos de borda | Ajuste fino federado de LLMs no limite: o bom, o mau, o feio | arXiv |
2023 | Bibliotecas | Colossal-AI: um sistema unificado de aprendizado profundo para treinamento paralelo em grande escala | ICPP |
2023 | Bibliotecas | GPT-NeoX-20B: um modelo de linguagem autorregressiva de código aberto | ACL |
2023 | Dispositivos de borda | Grandes modelos de linguagem capacitaram IA autônoma de borda para inteligência conectada | arXiv |
2022 | Bibliotecas | Inferência DeepSpeed: possibilitando inferência eficiente de modelos de transformadores em escala sem precedentes | IEEE SC22 |
2022 | Bibliotecas | Alpa: Automatizando o Paralelismo Inter e Intra-Operador para Aprendizado Profundo Distribuído | OSDI |
2022 | Dispositivos de borda | EdgeFormer: um transformador com parâmetros eficientes para geração Seq2seq no dispositivo | arXiv |
2022 | Dispositivos de borda | ProFormer: Rumo a transformadores baseados em projeção LSH no dispositivo | ACL |
2021 | Dispositivos de borda | Gere mais recursos com operações baratas para BERT | ACL |
2021 | Dispositivos de borda | SqueezeBERT: O que a visão computacional pode ensinar à PNL sobre redes neurais eficientes? | SustentarPNL |
2020 | Dispositivos de borda | Transformador Lite com atenção de longo e curto alcance | arXiv |
2019 | Bibliotecas | Megatron-LM: Treinamento de modelos de linguagem de vários bilhões de parâmetros usando paralelismo de modelos | IEEE SC22 |
2018 | Bibliotecas | Mesh-TensorFlow: aprendizado profundo para supercomputadores | NeuroIPS |
Outros sistemas
Data | Palavras-chave | Papel | Local |
---|
2023 | Outros sistemas | Tabi: um sistema de inferência multinível eficiente para grandes modelos de linguagem | EuroSys |
2023 | Outros sistemas | Pesquisa de sequência quase duplicada em escala para avaliação de memorização de modelos de linguagem grande | PACMMOD |
Métricas e benchmarks de avaliação de eficiência de recursos
? Métricas de computação
Métrica | Descrição | Exemplo de uso |
---|
FLOPs (operações de ponto flutuante) | o número de operações aritméticas em números de ponto flutuante | [FLOPS] |
Tempo de treinamento | a duração total necessária para o treinamento, normalmente medida em minutos, horas ou dias | [minutos, dias] [horas] |
Tempo/latência de inferência | o tempo médio necessário para gerar uma saída após receber uma entrada, normalmente medido em tempo de relógio de parede ou tempo de relógio de CPU/GPU/TPU em milissegundos ou segundos | [latência ponta a ponta em segundos] [latência da próxima geração de token em milissegundos] |
Taxa de transferência | a taxa de geração de tokens de saída ou conclusão de tarefas, normalmente medida em tokens por segundo (TPS) ou consultas por segundo (QPS) | [tokens/s] [consultas/s] |
Taxa de aceleração | a melhoria na velocidade de inferência em comparação com um modelo de linha de base | [aceleração do tempo de inferência] [aceleração da taxa de transferência] |
? Métricas de memória
Métrica | Descrição | Exemplo de uso |
---|
Número de parâmetros | o número de variáveis ajustáveis na rede neural do LLM | [número de parâmetros] |
Tamanho do modelo | o espaço de armazenamento necessário para armazenar todo o modelo | [pico de uso de memória em GB] |
⚡️ Métricas de Energia
Métrica | Descrição | Exemplo de uso |
---|
Consumo de energia | a energia elétrica usada durante o ciclo de vida do LLM | [kWh] |
Emissão de Carbono | as emissões de gases de efeito estufa associadas ao uso de energia do modelo | [kgCO2eq] |
A seguir estão disponíveis pacotes de software projetados para rastreamento em tempo real do consumo de energia e emissão de carbono.
- Código Carbono
- Carbontracker
- rastreador de impacto de experimento
Você também pode achar o seguinte útil para prever o uso de energia e a pegada de carbono antes do treinamento real ou
- Impacto de CO2 em ML
- LLMCarbono
? Métrica de Custo Financeiro
Métrica | Descrição | Exemplo de uso |
---|
Dólares por parâmetro | o custo total de treinamento (ou execução) do LLM pelo número de parâmetros | |
? Métrica de comunicação de rede
Métrica | Descrição | Exemplo de uso |
---|
Volume de comunicação | a quantidade total de dados transmitidos pela rede durante uma execução específica de LLM ou execução de treinamento | [volume de comunicação em TB] |
Outras métricas
Métrica | Descrição | Exemplo de uso |
---|
Taxa de compressão | a redução no tamanho do modelo compactado em comparação com o modelo original | [taxa de compressão] [porcentagem de pesos restantes] |
Lealdade/Fidelidade | a semelhança entre os modelos do professor e do aluno em termos de consistência das previsões e alinhamento das distribuições de probabilidade previstas | [lealdade] [fidelidade] |
Robustez | a resistência a ataques adversários, onde pequenas modificações de entrada podem potencialmente manipular a saída do modelo | [precisão pós-ataque, número da consulta] |
Otimalidade de Pareto | as compensações ideais entre vários fatores concorrentes | [Fronteira de Pareto (custo e precisão)] [Fronteira de Pareto (desempenho e FLOPs)] |
Referências
Referência | Descrição | Papel |
---|
Benchmarks gerais de PNL | uma extensa coleção de benchmarks gerais de PNL, como GLUE, SuperGLUE, WMT e SQuAD, etc. | Uma visão geral abrangente de grandes modelos de linguagem |
Dynaboard | uma plataforma de código aberto para avaliação de modelos de PNL na nuvem, oferecendo interação em tempo real e uma avaliação holística da qualidade do modelo com Dynascore personalizável | Dynaboard: uma plataforma de avaliação como serviço para benchmarking holístico de próxima geração |
Controle de qualidade eficiente | um desafio de resposta a perguntas (QA) de domínio aberto no NeurIPS 2020 que se concentra na construção de sistemas de controle de qualidade precisos e com uso eficiente de memória | Competição NeurIPS 2020 EfficientQA: Sistemas, Análises e Lições Aprendidas |
Tarefa Compartilhada SustaiNLP 2020 | um desafio para o desenvolvimento de modelos de PNL com eficiência energética, avaliando seu desempenho em oito tarefas de NLU usando métricas SuperGLUE e avaliando seu consumo de energia durante a inferência | Visão geral da tarefa compartilhada do SustaiNLP 2020 |
ELUE (Avaliação Eficiente de Compreensão Linguística) | uma plataforma de referência para avaliar a eficiência do modelo de PNL em diversas tarefas, oferecendo métricas on-line e exigindo apenas um arquivo de definição de modelo Python para envio | Rumo a uma PNL eficiente: uma avaliação padrão e uma linha de base sólida |
VLUE (Avaliação de Compreensão da Visão-Linguagem) | uma referência abrangente para avaliar modelos de linguagem visual em múltiplas tarefas, oferecendo uma plataforma online para avaliação e comparação | VLUE: uma referência multitarefa para avaliar modelos de visão-linguagem |
Arena de Longo Alcance (LAG) | um conjunto de benchmark que avalia modelos eficientes de Transformer em tarefas de longo contexto, abrangendo diversas modalidades e tipos de raciocínio, ao mesmo tempo que permite avaliações sob restrições controladas de recursos, destacando a eficiência do mundo real | Arena de Longo Alcance: Uma Referência para Transformadores Eficientes |
MS MARCO consciente da eficiência | um benchmark aprimorado de recuperação de informações MS MARCO que integra métricas de eficiência, como latência e custo por consulta, juntamente com precisão, facilitando uma avaliação abrangente dos sistemas de IR | Indo além da precisão das tarefas downstream para benchmarking de recuperação de informações |
Referência
Se você achar esta lista de artigos útil em sua pesquisa, considere citar:
@article{bai2024beyond,
title={Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models},
author={Bai, Guangji and Chai, Zheng and Ling, Chen and Wang, Shiyu and Lu, Jiaying and Zhang, Nan and Shi, Tingwei and Yu, Ziyang and Zhu, Mengdan and Zhang, Yifei and others},
journal={arXiv preprint arXiv:2401.00625},
year={2024}
}