Download Awesome LLM Large Language Models Notes - Awesome LLM Large Language Models Notes Download do código-fonte

Awesome LLM Large Language Models Notes

Código-Fonte de IA

1.0.0

Baixar

Impressionante-LLM-Large-Language-Models-Notas

Modelos LLM conhecidos classificados por ano

Pequena introdução, artigo, código etc.

Ano	Nome	Papel	Informações	Implementação
2017	Transformador	Atenção é tudo que você precisa	O foco da pesquisa original estava em tarefas de tradução.	TensorFlow + artigo
2018	GPT	Melhorando a compreensão do idioma por meio do pré-treinamento generativo	O primeiro modelo Transformer pré-treinado, usado para ajuste fino em várias tarefas de PNL e obteve resultados de última geração
2018	BERTO	BERT: Pré-treinamento de transformadores bidirecionais profundos para compreensão da linguagem	Outro grande modelo pré-treinado, projetado para produzir melhores resumos de frases	PyTorch
2019	GPT-2	Modelos de linguagem são alunos multitarefa não supervisionados	Uma versão melhorada (e maior) do GPT que não foi imediatamente divulgada publicamente devido a questões éticas
2019	DistilBERT - BERT destilado	DistilBERT, uma versão destilada do BERT: menor, mais rápido, mais barato e mais leve	Uma versão destilada do BERT que é 60% mais rápida, 40% mais leve em memória e ainda mantém 97% do desempenho do BERT
2019	BARTO	BART: Pré-treinamento de eliminação de ruído sequência a sequência para geração, tradução e compreensão de linguagem natural	Grandes modelos pré-treinados usando a mesma arquitetura do modelo original do Transformer.
2019	T5	Explorando os limites da aprendizagem por transferência com um transformador unificado de texto em texto	Grandes modelos pré-treinados usando a mesma arquitetura do modelo original do Transformer.
2019	ALBERTO	ALBERT: Um Lite BERT para aprendizagem autosupervisionada de representações linguísticas
2019	RoBERTa - Uma abordagem de pré-treinamento BERT robustamente otimizada	RoBERTa: uma abordagem de pré-treinamento BERT robustamente otimizada
2019	CTRL	CTRL: um modelo de linguagem de transformador condicional para geração controlável
2019	Transformador XL	Transformer-XL: modelos de linguagem atentos além de um contexto de comprimento fixo	Adota uma metodologia de recorrência sobre o estado passado, juntamente com codificação posicional relativa, permitindo dependências de longo prazo
2019	Diablo GPT	DialoGPT: Pré-treinamento generativo em larga escala para geração de respostas conversacionais	Treinado em 147 milhões de trocas de conversa extraídas de cadeias de comentários do Reddit durante um período de 2005 a 2017	PyTorch
2019	ERNIE	ERNIE: Representação Linguística Aprimorada com Entidades Informativas	Neste artigo, utilizamos corpora textuais em grande escala e KGs para treinar um modelo aprimorado de representação de linguagem (ERNIE), que pode aproveitar ao máximo as informações lexicais, sintáticas e de conhecimento simultaneamente.
2020	GPT-3	Modelos de linguagem são aprendizes rápidos	Uma versão ainda maior do GPT-2 que é capaz de funcionar bem em uma variedade de tarefas sem a necessidade de ajuste fino (chamado aprendizado zero-shot)
2020	ELECTRA	ELECTRA: CODIFICADORES DE TEXTO DE PRÉ-TREINAMENTO COMO DISCRIMINADORES EM VEZ DE GERADORES
2020	mBART	Pré-treinamento de remoção de ruído multilíngue para tradução automática neural
2021	CLIP (Pré-treinamento de imagem-linguagem contrastiva)	Aprendendo modelos visuais transferíveis com supervisão de linguagem natural	CLIP é uma rede neural treinada em uma variedade de pares (imagem, texto). Ele pode ser instruído em linguagem natural para prever o trecho de texto mais relevante, dada uma imagem, sem otimização direta para a tarefa, semelhante aos recursos de disparo zero do GPT-2 e 3.	PyTorch
2021	DALL-E	Geração de texto para imagem Zero-Shot		PyTorch
2021	Esquilo	Dimensionando modelos de linguagem: métodos, análises e insights do Training Gopher
2021	Transformador de decisão	Transformador de decisão: aprendizagem por reforço por meio de modelagem de sequência	Uma arquitetura que apresenta o problema de RL como modelagem de sequência condicional.	PyTorch
2021	GLam (Modelo de Linguagem Generalista)	GLaM: Dimensionamento Eficiente de Modelos de Linguagem com Mistura de Especialistas	Neste artigo, propomos e desenvolvemos uma família de modelos de linguagem chamada GLaM (Modelo de Linguagem Generalista), que usa uma arquitetura de mistura de especialistas escassamente ativada para dimensionar a capacidade do modelo, ao mesmo tempo que incorre em custos de treinamento substancialmente menores em comparação com variantes densas.
2022	chatGPT/InstructGPT	Treinando modelos de linguagem para seguir instruções com feedback humano	Este modelo de linguagem treinado é muito melhor para seguir as intenções do usuário do que o GPT-3. O modelo é otimizado (ajustado) usando Aprendizado por Reforço com Feedback Humano (RLHF) para alcançar o diálogo conversacional. O modelo foi treinado usando uma variedade de dados que foram escritos por pessoas para obter respostas que parecessem humanas.	:-:
2022	Chinchila	Treinamento de modelos de linguagem grande com otimização de computação	Usa o mesmo orçamento de computação do Gopher, mas com parâmetros de 70B e 4x mais dados.	:-:
2022	LaMDA - Modelos de Linguagem para Aplicações de Diálogo	LaMDA	É uma família de modelos de linguagem neural baseados em Transformer especializados para diálogo.
2022	DQ-BART	DQ-BART: Modelo Eficiente de Sequência a Sequência via Destilação Conjunta e Quantização	Propor destilar e quantizar conjuntamente o modelo, onde o conhecimento é transferido do modelo de professor de precisão total para o modelo de aluno quantizado e destilado de baixa precisão.
2022	Flamingo	Flamingo: um modelo de linguagem visual para aprendizagem rápida	Construir modelos que possam ser rapidamente adaptados a novas tarefas usando apenas alguns exemplos anotados é um desafio aberto para a pesquisa em aprendizado de máquina multimodal. Apresentamos Flamingo, uma família de Modelos de Linguagem Visual (VLM) com essa capacidade.
2022	gato	Um Agente Generalista	Inspirados pelo progresso na modelagem de linguagem em larga escala, aplicamos uma abordagem semelhante para construir um único agente generalista além do domínio dos resultados de texto. O agente, ao qual nos referimos como Gato, funciona como uma política generalista multimodal, multitarefa e multicorporificada.
2022	GODEL: Pré-treinamento em larga escala para diálogo direcionado a metas	GODEL: Pré-treinamento em larga escala para diálogo direcionado a metas	Em contraste com modelos anteriores, como o DialoGPT, o GODEL aproveita uma nova fase de pré-treinamento fundamentado, projetado para melhor apoiar a adaptação do GODEL a uma ampla gama de tarefas de diálogo posteriores que exigem informações externas à conversa atual (por exemplo, um banco de dados ou documento) para produzir boas respostas.	PyTorch
2023	GPT-4	Relatório Técnico GPT-4	O modelo agora aceita entradas multimodais: imagens e texto	:-:
2023	BloombergGPT	BloombergGPT: um grande modelo de linguagem para finanças	LLM especializado no domínio financeiro treinado nas extensas fontes de dados da Bloomberg
2023	FLORESCER	BLOOM: um modelo de linguagem multilíngue de acesso aberto com parâmetros 176B	BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) é um modelo de linguagem Transformer somente decodificador que foi treinado no corpus ROOTS, um conjunto de dados que compreende centenas de fontes em 46 linguagens naturais e 13 linguagens de programação (59 no total)
2023	Lhama 2	Lhama 2: Base aberta e modelos de bate-papo ajustados		PyTorch #1 PyTorch #2
2023	Cláudio	Cláudio	Claude pode analisar 75 mil palavras (100 mil tokens). GPT4 pode gerar apenas 32,7 mil tokens.
2023	SelfCheckGPT	SelfCheckGPT: detecção de alucinações de caixa preta com recurso zero para modelos generativos de grandes linguagens	Uma abordagem simples baseada em amostragem que pode ser usada para verificar modelos de caixa preta sem recursos, ou seja, sem um banco de dados externo.

Modelos LLM classificados por tamanho

Nome	Tamanho (# parâmetros)	Tokens de treinamento	Dados de treinamento
GlaM	1,2T
Esquilo	280B	300B
FLORESCER	176B		Corpus ROOTS
GPT-3	175B
LaMDA	137B	168B	1,56T palavras de dados de diálogo público e texto da web
Chinchila	70B	1.4T
Lhama 2	7B, 13B e 70B
BloombergGPT	50B	363B+345B
Falcon40B	40B	1T	1.000 bilhões de tokens de RefinedWeb

M = Milhões | B = bilhões | T = trilhão

Modelos LLM classificados por nome

ALBERTO | Alpaca
BART | BERT | Pássaro Grande | FLOR |
Chinchila | CLIPE | CTRL | bate-papoGPT | Cláudio
DALL-E | DALL-E-2 | Transformadores de decisão | DialoGPT | DestilBERT | DQ-BART |
ELECTRA | ERNIE
Flamengo | Falcon40B
Gato | Esquilo | GlaM | DESLIZAR | GPT | GPT-2 | GPT-3 | GPT-4 | GPT-Neo | Gõdel | GPT-J
Imagem | InstruirGPT
Jurássico-1
LaMDA | Lhama 2
mBART | Megatron | Minerva | MT-NLG
OPTAR
Palma | Pégaso
RoBERTa
SeeKer | Transformador Swin | Mudar | SelfCheckGPT
Transformador | T5 | Transformadores de trajetória | Transformador XL | Turing-NLG
ViT
Wu Dao 2.0 |
XLM-RoBERTa | XLNet

Classificação por arquitetura

Arquitetura	Modelos	Tarefas
Somente codificador, também conhecido como modelos Transformer de codificação automática	ALBERT, BERT, DistilBERT, ELECTRA, RoBERTa	Classificação de frases, reconhecimento de entidade nomeada, resposta extrativa a perguntas
Modelos de transformador somente decodificador, também conhecidos como modelos de transformador auto-regressivos (ou causais)	CTRL, GPT, GPT-2, Transformador XL	Geração de texto com aviso
Encoder-Decoder, também conhecido como modelos de transformador sequência a sequência	BART, T5, Mariana, mBART	Resumo, tradução, resposta generativa a perguntas

O que há de tão especial no HuggingFace?

HuggingFace, uma biblioteca de PNL popular, mas também oferece uma maneira fácil de implantar modelos por meio de sua API de inferência. Ao construir um modelo usando a biblioteca HuggingFace, você pode treiná-lo e carregá-lo no Model Hub. Leia mais sobre isso aqui.
Lista de caderno

Artigos obrigatórios sobre LLM

2014 | Tradução automática neural aprendendo conjuntamente a alinhar e traduzir
2022 | UMA PESQUISA SOBRE GPT-3
2022 | Dimensionando com eficiência a inferência do transformador
Artigos obrigatórios sobre modelos de linguagem pré-treinados (PLMs)

Recapitulação | Deixe-me atualizado!

Acompanhando o estranho mundo dos LLMs

Artigos de blog

Construindo um sintetizador com ChatGPT
PubMed GPT: um modelo de linguagem grande específico de domínio para texto biomédico
ChatGPT – Onde falta
Prompts impressionantes do ChatGPT
ChatGPT vs. GPT3: a comparação definitiva
Prompt Engineering 101: Introdução e recursos
Modelos de transformadores: uma introdução e catálogo – Edição 2022
O GPT-3 ou o BERT podem algum dia compreender a linguagem?⁠ — Os limites dos modelos de linguagem de aprendizagem profunda
10 coisas que você precisa saber sobre o BERT e a arquitetura do transformador que estão remodelando o cenário da IA
Guia abrangente para transformadores
Desmascarando o BERT: a chave para o desempenho do modelo de transformador
Modelos Transformer NLP (Meena e LaMDA): eles são “sencientes” e o que isso significa para chatbots de domínio aberto?
Abraçando modelos pré-treinados de rosto: encontre o melhor para sua tarefa
Otimização de inferência de modelo de transformador grande
Tutorial de 4 partes sobre como funcionam os transformadores: Parte 1 | Parte 2 | Parte 3 | Parte 4
O que torna um agente de diálogo útil?
Compreendendo grandes modelos de linguagem – uma lista de leitura transformadora
Engenharia imediata
Construindo aplicativos LLM para produção
Guia do desenvolvedor para LLMOps: engenharia imediata, agentes LLM e observabilidade
Argumento para usar RL LLMs
Por que o Google e a OpenAI estão perdendo contra as comunidades de código aberto
Você provavelmente não sabe fazer Prompt Engineering!
A história completa dos grandes modelos de linguagem e RLHF
Compreendendo as avaliações da OpenAI
O que sabemos sobre LLMs (Primer)
Foda-se, mostre-me o prompt.

Conheça suas limitações!

ChatGPT e Wolfram|Alpha
Números que todo desenvolvedor LLM deve saber

Cenário de financiamento de startups

Financiamento inicial de PNL em 2022

Tutoriais disponíveis

Construindo um mecanismo de busca com um modelo BERT pré-treinado
Ajuste fino do modelo BERT pré-treinado na tarefa de classificação de texto
Ajuste fino do modelo BERT pré-treinado no conjunto de dados de avaliação de produtos da Amazon
Análise de sentimento com o transformador Hugging Face
Ajuste fino do modelo BERT pré-treinado na tarefa de classificação de revisão do YELP
API HuggingFace
Enchimento de máscara HuggingFace
Reconhecimento de entidade de nome HuggingFace NER
Resposta a perguntas do HuggingFace dentro do contexto
Geração de texto HuggingFace
Resumo de texto HuggingFace.ipynb
Aprendizado de tiro zero HuggingFace

Uma pequena nota sobre a renderização do notebook

Dois cadernos estão disponíveis:
- Um com caixas coloridas e pasta externa GitHub_MD_rendering
- Um em preto e branco na pasta GitHub_MD_rendering

Como rodar o notebook no Google Colab

A opção mais fácil seria clonar este repositório.
Navegue até o Google Colab e abra o notebook diretamente do Colab.
Você também pode escrevê-lo de volta no GitHub, desde que seja concedida permissão ao Colab. Todo o procedimento é automatizado.