2017 | Transformador | Atenção é tudo que você precisa | O foco da pesquisa original estava em tarefas de tradução. | TensorFlow + artigo |
2018 | GPT | Melhorando a compreensão do idioma por meio do pré-treinamento generativo | O primeiro modelo Transformer pré-treinado, usado para ajuste fino em várias tarefas de PNL e obteve resultados de última geração | |
2018 | BERTO | BERT: Pré-treinamento de transformadores bidirecionais profundos para compreensão da linguagem | Outro grande modelo pré-treinado, projetado para produzir melhores resumos de frases | PyTorch |
2019 | GPT-2 | Modelos de linguagem são alunos multitarefa não supervisionados | Uma versão melhorada (e maior) do GPT que não foi imediatamente divulgada publicamente devido a questões éticas | |
2019 | DistilBERT - BERT destilado | DistilBERT, uma versão destilada do BERT: menor, mais rápido, mais barato e mais leve | Uma versão destilada do BERT que é 60% mais rápida, 40% mais leve em memória e ainda mantém 97% do desempenho do BERT | |
2019 | BARTO | BART: Pré-treinamento de eliminação de ruído sequência a sequência para geração, tradução e compreensão de linguagem natural | Grandes modelos pré-treinados usando a mesma arquitetura do modelo original do Transformer. | |
2019 | T5 | Explorando os limites da aprendizagem por transferência com um transformador unificado de texto em texto | Grandes modelos pré-treinados usando a mesma arquitetura do modelo original do Transformer. | |
2019 | ALBERTO | ALBERT: Um Lite BERT para aprendizagem autosupervisionada de representações linguísticas | | |
2019 | RoBERTa - Uma abordagem de pré-treinamento BERT robustamente otimizada | RoBERTa: uma abordagem de pré-treinamento BERT robustamente otimizada | | |
2019 | CTRL | CTRL: um modelo de linguagem de transformador condicional para geração controlável | | |
2019 | Transformador XL | Transformer-XL: modelos de linguagem atentos além de um contexto de comprimento fixo | Adota uma metodologia de recorrência sobre o estado passado, juntamente com codificação posicional relativa, permitindo dependências de longo prazo | |
2019 | Diablo GPT | DialoGPT: Pré-treinamento generativo em larga escala para geração de respostas conversacionais | Treinado em 147 milhões de trocas de conversa extraídas de cadeias de comentários do Reddit durante um período de 2005 a 2017 | PyTorch |
2019 | ERNIE | ERNIE: Representação Linguística Aprimorada com Entidades Informativas | Neste artigo, utilizamos corpora textuais em grande escala e KGs para treinar um modelo aprimorado de representação de linguagem (ERNIE), que pode aproveitar ao máximo as informações lexicais, sintáticas e de conhecimento simultaneamente. | |
2020 | GPT-3 | Modelos de linguagem são aprendizes rápidos | Uma versão ainda maior do GPT-2 que é capaz de funcionar bem em uma variedade de tarefas sem a necessidade de ajuste fino (chamado aprendizado zero-shot) | |
2020 | ELECTRA | ELECTRA: CODIFICADORES DE TEXTO DE PRÉ-TREINAMENTO COMO DISCRIMINADORES EM VEZ DE GERADORES | | |
2020 | mBART | Pré-treinamento de remoção de ruído multilíngue para tradução automática neural | | |
2021 | CLIP (Pré-treinamento de imagem-linguagem contrastiva) | Aprendendo modelos visuais transferíveis com supervisão de linguagem natural | CLIP é uma rede neural treinada em uma variedade de pares (imagem, texto). Ele pode ser instruído em linguagem natural para prever o trecho de texto mais relevante, dada uma imagem, sem otimização direta para a tarefa, semelhante aos recursos de disparo zero do GPT-2 e 3. | PyTorch |
2021 | DALL-E | Geração de texto para imagem Zero-Shot | | PyTorch |
2021 | Esquilo | Dimensionando modelos de linguagem: métodos, análises e insights do Training Gopher | | |
2021 | Transformador de decisão | Transformador de decisão: aprendizagem por reforço por meio de modelagem de sequência | Uma arquitetura que apresenta o problema de RL como modelagem de sequência condicional. | PyTorch |
2021 | GLam (Modelo de Linguagem Generalista) | GLaM: Dimensionamento Eficiente de Modelos de Linguagem com Mistura de Especialistas | Neste artigo, propomos e desenvolvemos uma família de modelos de linguagem chamada GLaM (Modelo de Linguagem Generalista), que usa uma arquitetura de mistura de especialistas escassamente ativada para dimensionar a capacidade do modelo, ao mesmo tempo que incorre em custos de treinamento substancialmente menores em comparação com variantes densas. | |
2022 | chatGPT/InstructGPT | Treinando modelos de linguagem para seguir instruções com feedback humano | Este modelo de linguagem treinado é muito melhor para seguir as intenções do usuário do que o GPT-3. O modelo é otimizado (ajustado) usando Aprendizado por Reforço com Feedback Humano (RLHF) para alcançar o diálogo conversacional. O modelo foi treinado usando uma variedade de dados que foram escritos por pessoas para obter respostas que parecessem humanas. | :-: |
2022 | Chinchila | Treinamento de modelos de linguagem grande com otimização de computação | Usa o mesmo orçamento de computação do Gopher, mas com parâmetros de 70B e 4x mais dados. | :-: |
2022 | LaMDA - Modelos de Linguagem para Aplicações de Diálogo | LaMDA | É uma família de modelos de linguagem neural baseados em Transformer especializados para diálogo. | |
2022 | DQ-BART | DQ-BART: Modelo Eficiente de Sequência a Sequência via Destilação Conjunta e Quantização | Propor destilar e quantizar conjuntamente o modelo, onde o conhecimento é transferido do modelo de professor de precisão total para o modelo de aluno quantizado e destilado de baixa precisão. | |
2022 | Flamingo | Flamingo: um modelo de linguagem visual para aprendizagem rápida | Construir modelos que possam ser rapidamente adaptados a novas tarefas usando apenas alguns exemplos anotados é um desafio aberto para a pesquisa em aprendizado de máquina multimodal. Apresentamos Flamingo, uma família de Modelos de Linguagem Visual (VLM) com essa capacidade. | |
2022 | gato | Um Agente Generalista | Inspirados pelo progresso na modelagem de linguagem em larga escala, aplicamos uma abordagem semelhante para construir um único agente generalista além do domínio dos resultados de texto. O agente, ao qual nos referimos como Gato, funciona como uma política generalista multimodal, multitarefa e multicorporificada. | |
2022 | GODEL: Pré-treinamento em larga escala para diálogo direcionado a metas | GODEL: Pré-treinamento em larga escala para diálogo direcionado a metas | Em contraste com modelos anteriores, como o DialoGPT, o GODEL aproveita uma nova fase de pré-treinamento fundamentado, projetado para melhor apoiar a adaptação do GODEL a uma ampla gama de tarefas de diálogo posteriores que exigem informações externas à conversa atual (por exemplo, um banco de dados ou documento) para produzir boas respostas. | PyTorch |
2023 | GPT-4 | Relatório Técnico GPT-4 | O modelo agora aceita entradas multimodais: imagens e texto | :-: |
2023 | BloombergGPT | BloombergGPT: um grande modelo de linguagem para finanças | LLM especializado no domínio financeiro treinado nas extensas fontes de dados da Bloomberg | |
2023 | FLORESCER | BLOOM: um modelo de linguagem multilíngue de acesso aberto com parâmetros 176B | BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) é um modelo de linguagem Transformer somente decodificador que foi treinado no corpus ROOTS, um conjunto de dados que compreende centenas de fontes em 46 linguagens naturais e 13 linguagens de programação (59 no total) | |
2023 | Lhama 2 | Lhama 2: Base aberta e modelos de bate-papo ajustados | | PyTorch #1 PyTorch #2 |
2023 | Cláudio | Cláudio | Claude pode analisar 75 mil palavras (100 mil tokens). GPT4 pode gerar apenas 32,7 mil tokens. | |
2023 | SelfCheckGPT | SelfCheckGPT: detecção de alucinações de caixa preta com recurso zero para modelos generativos de grandes linguagens | Uma abordagem simples baseada em amostragem que pode ser usada para verificar modelos de caixa preta sem recursos, ou seja, sem um banco de dados externo. | |