Documentos PLM
Contribuição de Xiaolei Wang
Modelos de linguagem pré-treinados (PLMs) em larga escala, como BERT e GPT, alcançaram grande sucesso e se tornaram um marco na PNL.
Neste repositório, coletamos alguns artigos representativos de PLM nos últimos anos com base no número de citações e artigos publicados nas últimas conferências importantes (por exemplo, ACL, EMNLP, ICLR, ICML, NeurIPS).
Manteremos o repositório atualizado e receberemos solicitações e problemas de pull! Obrigado por suas estrelas e garfos!
Índice
- Enquete
- Referência
- Projeto PLM
- Em geral
- Conhecimento
- Multilíngue
- Multimodal
- Recuperação de Informação
- Código
- Outros
- Análise PLM
- Conhecimento
- Robustez
- Esparsidade
- Outros
- PLM eficiente
- Treinamento
- Inferência
- Compressão
- Adaptação PLM
- Dois estágios
- Multitarefa
- Adaptador
- Incitar
- Outros
Enquete
- "Modelos pré-treinados para processamento de linguagem natural: uma pesquisa".
Science China Technological Sciences(2020)
[PDF] - "Qual *BERT? Uma pesquisa organizando codificadores contextualizados".
EMNLP(2020)
[PDF] - "Uma cartilha em BERTologia: o que sabemos sobre como funciona o BERT" .
TACL(2020)
[PDF] - “Das representações de palavras estáticas às dinâmicas: uma pesquisa”.
International Journal of Machine Learning and Cybernetics(2020)
[PDF] - "Visão geral dos modelos baseados em transformadores para tarefas de PNL".
2020 15th Conference on Computer Science and Information Systems (FedCSIS)
[PDF] - "Uma pesquisa sobre incorporações contextuais".
arXiv(2020)
[PDF] - "O livro de receitas da PNL: receitas modernas para arquiteturas de aprendizado profundo baseadas em transformadores".
IEEE Access(2021)
[PDF] - “Modelos Pré-Treinados: Passado, Presente e Futuro”.
arXiv(2021)
[PDF] - "Pré-treinar, solicitar e prever: uma pesquisa sistemática de métodos de solicitação no processamento de linguagem natural".
arXiv(2021)
[PDF] - "AMMUS: Uma pesquisa de modelos pré-treinados baseados em transformadores em processamento de linguagem natural".
arXiv(2021)
[PDF] - “Sobre as oportunidades e riscos dos modelos de fundação”.
arXiv(2021)
[PDF] - "Mudança de paradigma no processamento de linguagem natural".
arXiv(2021)
[PDF] - "Avanços recentes no processamento de linguagem natural por meio de grandes modelos de linguagem pré-treinados: uma pesquisa".
arXiv(2021)
[PDF]
Referência
- XNLI : "XNLI: Avaliando representações de frases multilíngues".
EMNLP(2018)
[PDF] [Conjunto de dados] - GLUE : "GLUE: Uma plataforma multitarefa de referência e análise para compreensão da linguagem natural".
ICLR(2019)
[Página inicial] - SuperGLUE : "SuperGLUE: uma referência mais rígida para sistemas de compreensão de linguagem de uso geral".
NeurIPS(2019)
[Página inicial] - CLUE : "CLUE: Um benchmark de avaliação de compreensão da língua chinesa".
COLING(2020)
[Página inicial] - XTREME : "XTREME: um benchmark multitarefa massivamente multilíngue para avaliar a generalização multilíngue".
ICML(2020)
[Página inicial] - XGLUE : "XGLUE: Um novo conjunto de dados de referência para pré-treinamento, compreensão e geração multilíngues".
EMNLP(2020)
[Página inicial] - DialoGLUE : "DialoGLUE: uma referência de compreensão de linguagem natural para diálogo orientado a tarefas".
arXiv(2020)
[Página inicial]
Projeto PLM
Em geral
- GPT : "Melhorando a compreensão da linguagem por meio do pré-treinamento generativo".
OpenAI(2018)
[Projeto] - GPT-2 : "Modelos de linguagem são alunos multitarefa não supervisionados".
OpenAI(2019)
[Projeto] - BERT : "BERT: Pré-treinamento de transformadores bidirecionais profundos para compreensão de linguagem".
NAACL(2019)
[PDF] [Código] - XLNet : "XLNet: Pré-treinamento autorregressivo generalizado para compreensão da linguagem".
NeurIPS(2019)
[PDF] [Código] - SBERT : "Sentence-BERT: Embeddings de frases usando redes BERT siamesas".
ACL(2019)
[PDF] [Código] - UniLM : "Pré-treinamento de modelo de linguagem unificada para compreensão e geração de linguagem natural".
NeurIPS(2019)
[PDF] [Código] - MASS : "MASS: Pré-treinamento mascarado de sequência a sequência para geração de linguagem".
ICML(2019)
[PDF] [Código] - Chinese-BERT-wwm : "Pré-treinamento com mascaramento de palavras inteiras para BERT chinês".
arXiv(2019)
[PDF] [Código] - "Pré-treinamento de redes de autoatenção baseado em Cloze".
EMNLP(2019)
[PDF] - "BERT tem boca e deve falar: BERT como modelo de linguagem de campo aleatório de Markov".
Workshop on Methods for Optimizing and Evaluating Neural Language Generation(2019)
[PDF] [Código] - GPT-3 : "Modelos de linguagem são aprendizes rápidos".
NeurIPS(2020)
[PDF] [Código] - T5 : "Explorando os limites da aprendizagem por transferência com um transformador unificado de texto para texto".
JMLR(2020)
[PDF] [Código] - BART : "BART: Pré-treinamento de eliminação de ruído sequência a sequência para geração, tradução e compreensão de linguagem natural".
ACL(2020)
[PDF] [Código] - Poli-codificadores : "Poly-codificadores: Arquiteturas e estratégias de pré-treinamento para pontuação rápida e precisa de várias frases".
ICLR(2020)
[PDF] - SpanBERT : "SpanBERT: Melhorando o pré-treinamento representando e prevendo períodos".
TACL(2020)
[PDF] [Código] - ERNIE 2.0 : "ERNIE 2.0: Uma estrutura de pré-treinamento contínuo para compreensão da linguagem".
AAAI(2020)
[PDF] [Código] - SemBERT : "BERT com reconhecimento de semântica para compreensão da linguagem".
AAAI(2020)
[PDF] [Código] - "Aproveitando pontos de verificação pré-treinados para tarefas de geração de sequência".
TACL(2020)
[PDF] [Código] - ProphetNet : "ProphetNet: Prevendo N-gramas futuros para pré-treinamento de sequência a sequência".
EMNLP(2020)
[PDF] - UniLMv2 : "UniLMv2: Modelos de linguagem pseudo-mascarados para pré-treinamento de modelo de linguagem unificada".
ICML(2020)
[PDF] [Código] - MacBERT : "Revisitando modelos pré-treinados para processamento de linguagem natural chinesa".
EMNLP(2020)
[PDF] [Código] - MPNet : "MPNet: Pré-treinamento mascarado e permutado para compreensão da linguagem".
arXiv(2020)
[PDF] [Código] - DEBERTA : "DeBERTa: BERT aprimorado por decodificação com atenção desembaraçada".
ICLR(2021)
[PDF] [Código] - PALM : "PALM: Pré-treinamento de um modelo de linguagem autoencodificada e autorregressiva para geração condicionada ao contexto".
EMNLP(2020)
[PDF] - Optimus : "Optimus: Organizando Frases via Modelagem Pré-treinada de um Espaço Latente".
EMNLP(2020)
[PDF] [Código] - "O autotreinamento melhora o pré-treinamento para a compreensão da linguagem natural".
NAACL(2021)
[PDF] [Código] - CAPT : "Repensando a codificação automática denoised no pré-treinamento de linguagem".
EMNLP(2021)
[PDF] - "Alternativas de pré-treinamento frustrantemente simples para modelagem de linguagem mascarada".
EMNLP(2021)
[PDF] [Código] - "Convoluções e autoatenção: reinterpretando posições relativas em modelos de linguagem pré-treinados".
ACL(2021)
[PDF] [Código] - ERNIE-Doc : "ERNIE-Doc: Um transformador retrospectivo de modelagem de documentos longos".
ACL(2021)
[PDF] [Código] - "Pré-treinamento de Representação da Linguagem Universal".
ACL(2021)
[PDF] [Código]
Conhecimento
- ERNIE(Baidu) : "ERNIE: Representação Aprimorada através da Integração do Conhecimento".
arXiv(2019)
[PDF] [Código] - KnowBert : "Representações contextuais de palavras com conhecimento aprimorado".
EMNLP(2019)
[PDF] - ERNIE(Tsinghua) : "ERNIE: Representação Aprimorada de Linguagem com Entidades Informativas".
ACL(2019)
[PDF] [Código] - COMET : "COMET: Transformadores de senso comum para construção automática de gráficos de conhecimento".
ACL(2019)
[PDF] [Código] - K-BERT : "K-BERT: Habilitando Representação de Linguagem com Gráfico de Conhecimento".
AAAI(2020)
[PDF] [Código] - WKLM : "Enciclopédia Pré-treinada: Modelo de Linguagem Pré-treinada por Conhecimento Fracamente Supervisionado".
ICLR(2020)
[PDF] - LUKE : "LUKE: Representações de Entidades Contextualizadas Profundas com Autoatenção Consciente da Entidade".
EMNLP(2020)
[PDF] [Código] - K-Adapter : "K-Adapter: Infundindo conhecimento em modelos pré-treinados com adaptadores".
ICLR(2021)
[PDF] - KEPLER : "KEPLER: Um modelo unificado para incorporação de conhecimento e representação de linguagem pré-treinada".
TACL(2021)
[PDF] [Código] - RuleBERT : "RuleBERT: Ensinando regras flexíveis para modelos de linguagem pré-treinados".
EMNLP(2021)
[PDF] [Código] - BeliefBank : "Explorando o papel das representações do token BERT para explicar os resultados da investigação de frases".
EMNLP(2021)
[PDF] [Código] - Phrase-BERT : "Phrase-BERT: Embeddings de frases aprimorados do BERT com uma aplicação para exploração de corpus".
EMNLP(2021)
[PDF] [Código] - "Modelo pré-treinado com sintaxe aprimorada" .
ACL(2021)
[PDF] [Código] - StructFormer : "StructFormer: Indução Conjunta Não Supervisionada de Dependência e Estrutura Constituinte a partir de Modelagem de Linguagem Mascarada".
ACL(2021)
[PDF] - ERICA : "ERICA: Melhorando a compreensão de entidades e relações para modelos de linguagem pré-treinados por meio de aprendizagem contrastiva".
ACL(2021)
[PDF] [Código] - "Orientação Estrutural para Modelos de Linguagem de Transformadores".
ACL(2021)
[PDF] [Código] - HORNET : "HORNET: Enriquecendo representações de linguagem pré-treinadas com fontes de conhecimento heterogêneas".
CIKM(2021)
[PDF] - "Descartar redundante, encolher irrelevante: injeção seletiva de conhecimento para pré-treinamento de linguagem".
IJCAI(2021)
[PDF]
Multilíngue
- XLM : "Pré-treinamento de modelo de linguagem multilíngue".
arXiv(2019)
[PDF] [Código] - "Incorporações de frases massivamente multilíngues para transferência interlingual Zero-Shot e muito mais" .
TACL(2019)
[PDF] [Código] - UDify : "75 idiomas, 1 modelo: analisando dependências universais universalmente".
EMNLP(2019)
[PDF] [Código] - Unicoder : "Unicoder: um codificador de linguagem universal por pré-treinamento com múltiplas tarefas multilíngues".
EMNLP(2019)
[PDF] - XLM-R : "Aprendizagem de representação translingual não supervisionada em escala".
ACL(2020)
[PDF] - "Alinhamento multilíngue de representações contextuais de palavras".
ICLR(2020)
[PDF] - mBART : "Pré-treinamento de eliminação de ruído multilíngue para tradução automática neural".
TACL(2020)
[PDF] [Código] - mT5 : "mT5: um transformador de texto em texto pré-treinado massivamente multilíngue".
NAACL(2021)
[PDF] [Código] - InfoXLM : "InfoXLM: Uma estrutura teórica da informação para pré-treinamento de modelos de linguagem interlinguística".
NAACL(2021)
[PDF] [Código] - "Alocando grande capacidade de vocabulário para pré-treinamento de modelo de linguagem multilíngue".
EMNLP(2021)
[PDF] [Código] - ERNIE-M : "ERNIE-M: Representação Multilíngue Aprimorada ao Alinhar a Semântica Multilíngue com Corpora Monolíngues".
EMNLP(2021)
[PDF] [Código] - "Um método geométrico simples para transformações linguísticas interlinguais com autoencoders pré-treinados".
EMNLP(2021)
[PDF] - "Impulsionando a transferência interlíngue por meio de autoaprendizagem com estimativa de incerteza".
EMNLP(2021)
[PDF] - "Quão bom é o seu tokenizador? Sobre o desempenho monolíngue de modelos de linguagem multilíngue".
ACL(2021)
[PDF] [Código] - "Pré-treinamento multilíngue com aprendizagem por dependência universal".
NeurIPS(2021)
[PDF]
Multimodal
- ViLBERT : "ViLBERT: Pré-treinamento de representações visiolinguísticas independentes de tarefas para tarefas de visão e linguagem".
NeuralIPS(2019)
[PDF] - LXMERT : "LXMERT: Aprendendo representações de codificadores de modalidade cruzada a partir de transformadores".
EMNLP(2019)
[PDF] [Código] - VideoBERT : "VideoBERT: um modelo conjunto para aprendizagem de representação de vídeo e linguagem"
ICCV(2019)
[PDF] - VisualBERT : "VisualBERT: uma linha de base simples e de alto desempenho para visão e linguagem".
arXiv(2019)
[PDF] - B2T2 : "Fusão de objetos detectados em texto para resposta visual a perguntas".
EMNLP(2019)
[PDF] [Código] - VL-BERT : "VL-BERT: Pré-treinamento de representações visual-linguísticas genéricas".
ICLR(2020)
[PDF] [Código] - Unicoder-VL : "Unicoder-VL: Um codificador universal para visão e linguagem por pré-treinamento intermodal".
AAAI(2020)
[PDF] - VLP : "Pré-treinamento em linguagem de visão unificada para legendagem de imagens e VQA".
AAAI(2020)
[PDF] [Código] - UNITER : "UNITER: Aprendizagem universal de representação de imagem-TExto".
ECCV(2020)
[PDF] [Código] - Oscar : "Oscar: Pré-treinamento alinhado à semântica de objetos para tarefas de linguagem visual".
ECCV(2020)
[PDF] [Código] - "12 em 1: visão multitarefa e aprendizagem de representação de linguagem" .
CVPR(2020)
[PDF] [Código] - ActBERT : "ActBERT: Aprendendo representações de vídeo-texto globais-locais".
CVPR(2020)
[PDF] - VLN : "Navegação em linguagem de visão com tarefas de raciocínio auxiliar auto-supervisionadas".
CVPR(2020)
[PDF] - VILLA : "Treinamento Adversarial em Grande Escala para Aprendizagem de Representação de Visão e Linguagem".
arXiv(2020)
[PDF] [Código] - ImageBERT : "ImageBERT: Pré-treinamento cross-modal com dados de imagem-texto supervisionados fracamente em grande escala".
arXiv(2020)
[PDF] - ALIGN : "Ampliando a aprendizagem de representação de linguagem visual e visual com supervisão de texto barulhento".
ICML(2021)
[PDF] - ClipBERT : "Menos é mais: ClipBERT para aprendizagem de vídeo e linguagem por meio de amostragem esparsa".
CVPR(2021)
[PDF] [Código] - DALL·E : "Geração de texto para imagem Zero-Shot".
arXiv(2021)
[PDF] [Código] - CLIP : "Aprendendo modelos visuais transferíveis com supervisão de linguagem natural".
arXiv(2021)
[PDF] [Código] - IPT : "Transformador de processamento de imagem pré-treinado".
CVPR(2021)
[PDF] [Código] - CvT : "CvT: Apresentando Convoluções aos Transformadores de Visão".
ICCV(2021)
[PDF] [Código] - "Ampliando a aprendizagem de representação de linguagem visual e visual com supervisão de texto barulhento" .
ICML(2021)
[PDF] - TERA : "TERA: Aprendizagem Auto-Supervisionada de Representação de Codificador de Transformador para Fala".
TASLP(2021)
[PDF] [Código] - CaiT : "Indo mais fundo com Image Transformers".
ICCV(2021)
[PDF] [Código] - ViViT : "ViViT: um transformador de visão de vídeo".
ICCV(2021)
[PDF] [Código] - VirTex : "VirTex: Aprendendo representações visuais a partir de anotações textuais".
CVPR(2021)
[PDF] [Código] - M6 : "M6: Megatransformador multitarefa multimodal para multimodalidade para pré-treinamento unificado".
KDD(2021)
[PDF] - "Sondando a intermodalidade: análise visual com autoatenção para pré-treinamento de visão e linguagem".
NeurIPS(2021)
[PDF] - GilBERT : "GilBERT: Pré-treinamento de visão-linguagem generativa para tarefas visual-linguísticas incompletas de modalidade".
SIGIR(2021)
[PDF]
Recuperação de Informação
- ORQA : "Recuperação latente para resposta a perguntas de domínio aberto com supervisão fraca".
ACL(2019)
[PDF] - REALM : "REALM: Pré-treinamento do modelo de linguagem aumentada com recuperação".
arXiv(2020)
[PDF] - RAG : "Geração de recuperação aumentada para tarefas de PNL com uso intensivo de conhecimento".
NeurIPS(2020)
[PDF] [Código] - DPR : "Recuperação densa de passagens para resposta a perguntas de domínio aberto".
EMNLP(2020)
[PDF] [Código] - "Aproveitando a recuperação de passagens com modelos generativos para resposta a perguntas de domínio aberto".
EACL(2021)
[PDF] [Código]
Código
- CodeT5 : "CodeT5: Modelos codificadores-decodificadores unificados pré-treinados com reconhecimento de identificador para compreensão e geração de código".
EMNLP(2021)
[PDF] [Código] - Codex : "Avaliando grandes modelos de linguagem treinados em código".
arXiv(2021)
[PDF] [Código]
Outros
- ReasonBERT : "ReasonBERT: Pré-treinado para raciocinar com supervisão distante".
EMNLP(2021)
[PDF] [Código] - "Autoencoders de gargalo de frases de modelos de linguagem de transformadores" .
EMNLP(2021)
[PDF] [Código] - "A numeracia aumenta a alfabetização dos modelos de linguagem".
EMNLP(2021)
[PDF] [Código] - EnsLM : "EnsLM: Modelo de Linguagem Ensemble para Diversidade de Dados por Clustering Semântico".
ACL(2021)
[PDF] [Código] - "Decodificação reflexiva: além da geração unidirecional com modelos de linguagem prontos para uso".
ACL(2021)
[PDF] [Código] - BERTAC : "BERTAC: Aprimorando modelos de linguagem baseados em transformadores com redes neurais convolucionais pré-treinadas adversamente".
ACL(2021)
[PDF] [Código] - "Compreensão da linguagem natural com BERT que preserva a privacidade" .
CIKM(2021)
[PDF] - BANG : "BANG: Unindo Geração Autoregressiva e Não Autoregressiva com Pré-treinamento em Grande Escala".
ICML(2021)
[PDF] [Código]
Análise PLM
Conhecimento
- "O que o BERT olha? Uma análise da atenção do BERT".
BlackBoxNLP(2019)
[PDF] [Código] - "BERT redescobre o pipeline clássico da PNL" .
ACL(2019)
[PDF] - "Quão multilíngue é o BERT multilíngue?"
ACL(2019)
[PDF] - "Uma sonda estrutural para encontrar sintaxe em representações de palavras".
NAACL(2019)
[PDF] [Código] - "Modelos de linguagem como bases de conhecimento?".
EMNLP(2019)
[PDF] [Código] - "O que o BERT aprende sobre a estrutura da linguagem?".
ACL(2019)
[PDF] [Código] - “Conhecimento Linguístico e Transferibilidade de Representações Contextuais”.
NAACL(2019)
[PDF] - "Avaliando as habilidades sintáticas do BERT".
arXiv(2019)
[PDF] [Código] - "Sondando a compreensão da rede neural de argumentos de linguagem natural"
ACL(2019)
[PDF] - "Quão contextuais são as representações de palavras contextualizadas? Comparando a geometria dos embeddings BERT, ELMo e GPT-2".
EMNLP(2019)
[PDF] - “Visualizando e Medindo a Geometria do BERT”.
NeurIPS(2019)
[PDF] - "Projetando e Interpretando Sondas com Tarefas de Controle".
EMNLP(2019)
[PDF] - "Open Sesame: Conhecendo o conhecimento linguístico do BERT" .
BlackboxNLP(2019)
[PDF] [Código] - "O que você aprende com o contexto? Sondagem da estrutura das frases em representações de palavras contextualizadas".
ICLR(2019)
[PDF] [Código] - "Mineração de conhecimento de senso comum a partir de modelos pré-treinados".
EMNLP(2019)
[PDF] - "Os modelos de PNL conhecem os números? Sondando a numeracia em incorporações".
EMNLP(2019)
[PDF] - "Sobre a transferibilidade interlingual de representações monolíngues".
ACL(2020)
[PDF] - "Capacidade interlíngue de BERT multilíngue: um estudo empírico".
ICLR(2020)
[PDF] [Código] - "O que o BERT não é: lições de um novo conjunto de diagnósticos psicolinguísticos para modelos de linguagem".
TACL(2020)
[PDF] [Código] - "Quanto conhecimento você pode incluir nos parâmetros de um modelo de linguagem?".
EMNLP(2020)
[PDF] [Código] - "Como podemos saber o que os modelos de linguagem sabem?".
TACL(2020)
[PDF] [Código] - "oLMpics-On What Language Model Pré-treinamento captura" .
TACL(2020)
[PDF] [Código] - "Sondagem Teórica da Informação com Comprimento Mínimo de Descrição".
EMNLP(2020)
[PDF] [Código] - “Induzindo Conhecimento Relacional do BERT”.
AAAI(2020)
[PDF] - AutoPrompt : "AutoPrompt: Extraindo conhecimento de modelos de linguagem com prompts gerados automaticamente".
EMNLP(2020)
[PDF] [Código] - "Estrutura linguística emergente em redes neurais artificiais treinadas por autosupervisão".
PNAS(2020)
[PDF] - "Avaliando o senso comum em modelos de linguagem pré-treinados".
AAAI(2020)
[PDF] [Código] - “Induzindo Conhecimento Relacional do BERT”.
AAAI(2020)
[PDF] - "Editando conhecimento factual em modelos de linguagem".
EMNLP(2021)
[PDF] [Código] - "Quantos dados de pré-treinamento os modelos de linguagem precisam para aprender a sintaxe?".
EMNLP(2021)
[PDF] - "As madrastas são más e os acadêmicos são pretensiosos: o que os modelos de linguagem pré-treinados aprendem sobre você?".
EMNLP(2021)
[PDF] [Código] - "Colocando palavras na boca do BERT: navegando em espaços vetoriais contextualizados com pseudopalavras".
EMNLP(2021)
[PDF] [Código] - "Efeitos de frequência no aprendizado de regras sintáticas em transformadores".
EMNLP(2021)
[PDF] [Código] - "Explorando o papel das representações do token BERT para explicar os resultados da investigação de frases".
EMNLP(2021)
[PDF] [Código] - “Como o BERT fica surpreso? Detecção em camadas de anomalias linguísticas” .
ACL(2021)
[PDF] [Código] - "Representações implícitas de significado no modelo de linguagem neural".
ACL(2021)
[PDF] [Código] - "Suposição bem informada ou educada? Revisitando modelos de linguagem como bases de conhecimento".
ACL(2021)
[PDF] [Código]
Robustez
- "Gatilhos adversários universais para atacar e analisar a PNL".
EMNLP(2019)
[PDF] [Código] - "Transformadores pré-treinados melhoram a robustez fora da distribuição" .
ACL(2020)
[PDF] [Código] - BERT-ATTACK : "BERT-ATTACK: Ataque adversário contra BERT usando BERT".
EMNLP(2020)
[PDF] [Código] - "O BERT é realmente robusto? Uma base sólida para ataque de linguagem natural à classificação e implicação de texto".
AAAI(2020)
[PDF] [Código] - "O diabo está nos detalhes: truques simples melhoram a generalização sistemática dos transformadores".
EMNLP(2021)
[PDF] [Código] - "Classificando o ruído: Testando a robustez do processamento de informações em modelos de linguagem pré-treinados".
EMNLP(2021)
[PDF] [Código]
Esparsidade
- "Dezesseis cabeças são realmente melhores do que uma?"
NeurIPS(2019)
[PDF] [Código] - "Analisando a autoatenção de múltiplas cabeças: cabeças especializadas fazem o trabalho pesado, o resto pode ser podado" .
ACL(2019)
[PDF] [Código] - "Revelando os segredos obscuros do BERT" .
EMNLP(2019)
[PDF] - "A hipótese do bilhete de loteria para redes BERT pré-treinadas".
NeurIPS(2020)
[PDF] [Código] - "Quando o BERT joga na loteria, todos os ingressos estão ganhando" .
EMNLP(2020)
[PDF] [Código]
Outros
- "Leis de escala para modelos de linguagem neural".
arXiv(2020)
[PDF] - "Extraindo dados de treinamento de grandes modelos de linguagem".
arXiv(2020)
[PDF] [Código] - "Sobre os perigos dos papagaios estocásticos: os modelos de linguagem podem ser grandes demais??".
FACCT(2021)
[PDF] - "Extraindo dados de treinamento de grandes modelos de linguagem".
USENIX(2021)
[PDF] [Código] - "Modelagem de linguagem mascarada e a hipótese distributiva: a ordem das palavras importa antes do treinamento para pouco".
EMNLP(2021)
[PDF] [Código] - "Efeitos do crescimento da norma dos parâmetros durante o treinamento do transformador: polarização indutiva da descida gradiente".
EMNLP(2021)
[PDF] [Código] - "Gradientes integrados discretizados para explicar modelos de linguagem".
EMNLP(2021)
[PDF] [Código] - "Os modelos de linguagem de longo alcance realmente usam contexto de longo alcance?".
EMNLP(2021)
[PDF] - "Competição de formas de superfície: por que a resposta de maior probabilidade nem sempre é correta".
EMNLP(2021)
[PDF] [Código] - "Incorporando camadas residuais e de normalização na análise de modelos de linguagem mascarada".
EMNLP(2021)
[PDF] [Código] - "O comprimento da sequência é um domínio: overfitting baseado em comprimento em modelos de transformadores".
EMNLP(2021)
[PDF] - "As convoluções pré-treinadas são melhores do que os transformadores pré-treinados?".
ACL(2021)
[PDF] - "Artefatos posicionais se propagam por meio de incorporações de modelos de linguagem mascarada".
ACL(2021)
[PDF] - "Quando você precisa de bilhões de palavras de dados de pré-treinamento?"
ACL(2021)
[PDF] [Código] - "BERT está para a PNL o que AlexNet está para o CV: os modelos de linguagem pré-treinados podem identificar analogias?".
ACL(2021)
[PDF] [Código] - "Examinando o viés indutivo de modelos de linguagem neural com linguagens artificiais".
ACL(2021)
[PDF] [Código] - "Por que os modelos de linguagem pré-treinados ajudam nas tarefas posteriores? Uma análise do ajuste inicial e imediato".
NeurIPS(2021)
[PDF]
PLM eficiente
Treinamento
- RoBERTa : "RoBERTa: Uma abordagem de pré-treinamento BERT robustamente otimizada".
arXiv(2019)
[PDF] [Código] - “Treinamento Eficiente de BERT por Empilhamento Progressivo” .
ICML(2019)
[PDF] [Código] - Megatron-LM : "Megatron-LM: Treinamento de modelos de linguagem de vários bilhões de parâmetros usando paralelismo de modelos".
arXiv(2019)
[PDF] [Código] - ELECTRA : "ELECTRA: Codificadores de texto de pré-treinamento como discriminadores em vez de geradores".
ICLR(2020)
[PDF] [Código] - "Otimização de grandes lotes para aprendizado profundo: treinando BERT em 76 minutos" .
ICLR(2020)
[PDF] [Código] - GShard : "GShard: Dimensionando modelos gigantes com computação condicional e fragmentação automática".
arXiv(2020)
[PDF] - Admin : "Compreendendo a dificuldade de treinar transformadores".
EMNLP(2020)
[PDF] [Código] - ZeRO : "ZeRO: Otimizações de memória para treinar trilhões de modelos de parâmetros".
SC20: International Conference for High Performance Computing, Networking, Storage and Analysis
[PDF] [Código] - Transformadores de comutação : "Transformadores de comutação: dimensionando para trilhões de modelos de parâmetros com dispersão simples e eficiente".
arXiv(2021)
[PDF] [Código] - “Como treinar o BERT com orçamento acadêmico” .
EMNLP(2021)
[PDF] - "Otimizando transformadores mais profundos em pequenos conjuntos de dados".
ACL(2021)
[PDF] [Código] - "EarlyBERT: treinamento eficiente de BERT por meio de bilhetes de loteria antecipados" .
ACL(2021)
[PDF] [Código]
Inferência
- "BERT perde paciência: inferência rápida e robusta com saída antecipada" .
NeurIPS(2020)
[PDF] [Código] - GAML-BERT : "GAML-BERT: Melhorando a saída antecipada do BERT por meio do aprendizado mútuo alinhado ao gradiente".
EMNLP(2021)
[PDF] - "Modelos eficientes de linguagem do vizinho mais próximo".
EMNLP(2021)
[PDF] [Código] - GhostBERT : "GhostBERT: gere mais recursos com operações baratas para BERT".
ACL(2021)
[PDF] [Código] - LeeBERT : "LeeBERT: saída antecipada aprendida para BERT com otimização de nível cruzado".
ACL(2021)
[PDF] - "Transformador adaptativo de comprimento: treine uma vez com queda de comprimento, use a qualquer momento com pesquisa" .
ACL(2021)
[PDF] [Código] - "Destilando o conhecimento do BERT em redes neurais simples e totalmente conectadas para recuperação vertical eficiente".
CIKM(2021)
[PDF]
Compressão
- DistilBERT : “DistilBERT, uma versão destilada do BERT: menor, mais rápido, mais barato e mais leve”.
arXiv(2019)
[PDF] [Código] - PKD : "Destilação do Conhecimento do Paciente para Compressão do Modelo BERT".
EMNLP(2019)
[PDF] [Código] - "Destilando conhecimento específico de tarefas do BERT em redes neurais simples".
arXiv(2019)
[PDF] - Q8BERT : "Q8BERT: BERT quantizado de 8 bits".
5th Workshop on Energy Efficient Machine Learning and Cognitive Computing - NeurIPS 2019
[PDF] - ALBERT : "ALBERT: A Lite BERT para aprendizagem auto-supervisionada de representações de linguagem".
ICLR(2020)
[PDF] [Código] - TinyBERT : "TinyBERT: Destilando BERT para compreensão da linguagem natural".
EMNLP(2020)
[PDF] [Código] - Layerdrop : "Reduzindo a profundidade do transformador sob demanda com abandono estruturado".
ICLR(2020)
[PDF] [Código] - Q-BERT : "Q-BERT: Quantização de precisão ultrabaixa baseada em Hessian de BERT".
AAAI(2020)
[PDF] - MobileBERT : "MobileBERT: um BERT compacto e independente de tarefas para dispositivos com recursos limitados".
ACL(2020)
[PDF] [Código] - "Comprimindo BERT: Estudando os efeitos da redução de peso na aprendizagem por transferência".
5th Workshop on Representation Learning for NLP(2020)
[PDF] [Código] - MiniLM : "MiniLM: Destilação profunda de autoatenção para compressão independente de tarefas de transformadores pré-treinados".
arXiv(2020)
[PDF] [Código] - FastBERT : "FastBERT: um BERT autodestilado com tempo de inferência adaptativo".
ACL(2020)
[PDF] [Código] - DeeBERT : "DeeBERT: Saída antecipada dinâmica para acelerar a inferência de BERT".
ACL(2020)
[PDF] [Código] - "Compactando modelos baseados em transformadores de grande escala: um estudo de caso sobre BERT".
TACL(2021)
[PDF] - “Ganhar na loteria com esparsificação contínua” .
NeurIPS(2020)
[PDF] [Código] - SqueezeBERT : "SqueezeBERT: O que a visão computacional pode ensinar a PNL sobre redes neurais eficientes?".
SustaiNLP(2020)
[PDF] - Áudio ALBERT : "Audio Albert: A Lite Bert para aprendizagem auto-supervisionada de representação de áudio".
SLT(2021)
[PDF] [Código] - T2R : "Ajustando transformadores pré-treinados em RNNs".
EMNLP(2021)
[PDF] [Código] - "Além da precisão preservada: avaliando a lealdade e a robustez da compressão BERT".
EMNLP(2021)
[PDF] [Código] - Meta-KD : "Meta-KD: Uma estrutura de destilação de metaconhecimento para compactação de modelos de linguagem entre domínios".
ACL(2021)
[PDF] [Código] - "Super Tickets em modelos de linguagem pré-treinados: da compressão do modelo à melhoria da generalização".
ACL(2021)
[PDF] [Código] - BinaryBERT : "BinaryBERT: Empurrando o Limite da Quantização de BERT".
ACL(2021)
[PDF] [Código] - AutoTinyBERT : "AutoTinyBERT: Otimização automática de hiperparâmetros para modelos de linguagem pré-treinados eficientes".
ACL(2021)
[PDF] [Código] - "A utilidade marginal diminui: explorando o conhecimento mínimo para a destilação do conhecimento BERT".
ACL(2021)
[PDF] [Código] - "Habilitando ajuste fino leve para compactação de modelo de linguagem pré-treinada com base em operadores de produto matricial".
ACL(2021)
[PDF] [Código] - NAS-BERT : "NAS-BERT: Compressão BERT independente de tarefas e tamanho adaptável com pesquisa de arquitetura neural".
KDD(2021)
[PDF]
Adaptação PLM
Dois estágios
- "Codificadores de frases em STILTs: treinamento complementar em tarefas intermediárias de dados rotulados".
arXiv(2018)
[PDF] [Código] - "Como ajustar o BERT para classificação de texto?".
CCL(2019)
[PDF] - "Não pare de pré-treinamento: adapte modelos de linguagem a domínios e tarefas".
ACL(2020)
[PDF] [Código] - "Aprendizagem por transferência de tarefas intermediárias com modelos de linguagem pré-treinados: quando e por que funciona?".
ACL(2020)
[PDF] - "Em que pré-treinar? Seleção eficiente de tarefas intermediárias".
EMNLP(2021)
[PDF] [Código] - “Sobre a influência das políticas de mascaramento no pré-treinamento intermediário”.
EMNLP(2021)
[PDF] - TADPOLE : "TADPOLE: Pré-treinamento adaptado à tarefa via detecção de anomalias".
EMNLP(2021)
[PDF]
Multitarefa
- MT-DNN : "Redes Neurais Profundas Multitarefas para Compreensão da Linguagem Natural".
ACL(2019)
[PDF] [Código] - "BAM! Redes multitarefas renascidas para compreensão da linguagem natural" .
ACL(2019)
[PDF] [Código] - "Melhorando redes neurais profundas multitarefas por meio da destilação de conhecimento para compreensão da linguagem natural".
arXiv(2019)
[PDF] [Código] - GradTS : "GradTS: Um método de seleção automática de tarefas auxiliares baseado em gradiente baseado em redes de transformadores".
EMNLP(2021)
[PDF] - "O que se passa na sua cabeça? Comportamento emergente em modelos de transformadores multitarefa".
EMNLP(2021)
[PDF] - MTAdam : "MTAdam: Balanceamento Automático de Múltiplos Termos de Perda de Treinamento".
EMNLP(2021)
[PDF] - Muppet : "Muppet: representações multitarefa massivas com pré-ajuste".
EMNLP(2021)
[PDF] - "A hipótese das células-tronco: o dilema por trás da aprendizagem multitarefa com codificadores transformadores".
EMNLP(2021)
[PDF] [Código] - BERTGen : "BERTGen: Geração Multitarefa através do BERT".
ACL(2021)
[PDF] [Código] - "Ajuste fino multitarefa com parâmetros eficientes para transformadores por meio de hiperredes compartilhadas".
ACL(2021)
[PDF] [Código]
Adaptador
- "BERT e PALs: Camadas de atenção projetadas para adaptação eficiente na aprendizagem multitarefa".
ICML(2019)
[PDF] [Código] - Adaptador : "Aprendizado de transferência com eficiência de parâmetros para PNL".
ICML(2019)
[PDF] [Código] - AdapterDrop : "AdapterDrop: Sobre a eficiência de adaptadores em transformadores".
EMNLP(2021)
[PDF] - "Sobre a eficácia do ajuste baseado em adaptador para adaptação de modelo de linguagem pré-treinada".
ACL(2021)
[PDF] - "Aprendendo a gerar adaptadores específicos de tarefas a partir da descrição da tarefa".
ACL(2021)
[PDF] [Código]
Incitar
- PET : "Explorando perguntas Cloze para classificação de texto em poucas cenas e inferência de linguagem natural".
EACL(2021)
[PDF] [Código] - "Não é apenas o tamanho que importa: modelos de linguagem pequena também aprendem pouco".
NAACL(2021)
[PDF] [Código] - "Ajuste de prefixo: otimizando prompts contínuos para geração".
arXiv(2021)
[PDF] - LM-BFF : "Tornando modelos de linguagem pré-treinados melhores alunos em poucas tentativas".
ACL(2021)
[PDF] [Código] - "O que constitui bons exemplos no contexto para GPT-3?"
arXiv(2021)
[PDF] [Código] - "O poder da escala para ajuste de prompt com eficiência de parâmetros".
EMNLP(2021)
[PDF] [Código] - "Modelos de linguagem ajustados são alunos com chance zero" .
arXiv(2021)
[PDF] - "Calibrar antes de usar: melhorando o desempenho de modelos de linguagem em poucas tentativas" .
ICML(2021)
[PDF] [Código] - TransPrompt : "TransPrompt: Rumo a uma estrutura de solicitação transferível automática para classificação de texto em poucas fotos".
EMNLP(2021)
[PDF] [Código] - SFLM : "Revisitando o autotreinamento para a aprendizagem rápida do modelo de linguagem".
EMNLP(2021)
[PDF] [Código] - ADAPET : "Melhorando e Simplificando o Treinamento de Exploração de Padrões".
EMNLP(2021)
[PDF] [Código]
Outros
- "Afinar ou não afinar? Adaptando representações pré-treinadas a diversas tarefas".
RepL4NLP(2019)
[PDF] - "Uma abordagem embaraçosamente simples para transferência de aprendizagem de modelos de linguagem pré-treinados".
NAACL(2019)
[PDF] [Código] - "Modelos de linguagem pré-treinados de ajuste fino: inicializações de peso, pedidos de dados e parada antecipada".
arXiv(2020)
[PDF] - SMART : "SMART: Ajuste fino robusto e eficiente para modelos de linguagem natural pré-treinados por meio de otimização regularizada com princípios".
EMNLP(2020)
[PDF] [Código] - "Revisitando o ajuste fino do BERT de algumas amostras" .
ICLR(2021)
[PDF] - Mirror-BERT : "Rápido, eficaz e autosupervisionado: transformando modelos de linguagem mascarada em codificadores lexicais e de frases universais".
EMNLP(2021)
[PDF] [Código] - "Pré-treinar ou anotar? Adaptação de domínio com orçamento limitado" .
EMNLP(2021)
[PDF] [Código] - AVocaDo : "AVocaDo: Estratégia de Adaptação do Vocabulário ao Domínio Downstream".
EMNLP(2021)
[PDF] - CHILD-TUNING : "Criar uma criança em um modelo de linguagem ampla: rumo a um ajuste fino eficaz e generalizável".
EMNLP(2021)
[PDF] [Código] - "Domizando modelos de linguagem pré-treinados com representações de N-gramas para adaptação de domínio de poucos recursos".
ACL(2021)
[PDF] [Código] - LexFit : "LexFit: ajuste fino lexical de modelos de linguagem pré-treinados".
ACL(2021)
[PDF] [Código] - "Selecionar contextos informativos melhora o ajuste fino do modelo de linguagem".
ACL(2021)
[PDF] [Código] - "Um estudo empírico sobre otimização de hiperparâmetros para ajuste fino de modelos de linguagem pré-treinados".
ACL(2021)
[PDF] [Código] - "Como os modelos de linguagem pré-treinados devem ser ajustados para obter robustez adversária?".
NeurIPS(2021)
[PDF] [Código]