Este repositório tem como objetivo implementar diferentes formas de modelo de transformador, incluindo seq2seq (a arquitetura original no artigo All You Need is Attention), modelos somente codificador, somente decodificador e modelos de transformador unificado.
Esses modelos não pretendem ser o estado da arte em nenhuma tarefa. Em vez disso, eles vêm com o propósito de me treinar com habilidades avançadas de programação e também fornecem referências para pessoas que compartilham o amor pelo aprendizado profundo e pela inteligência de máquina.
Este trabalho é inspirado e não seria possível sem os repositórios de código aberto de NanoGPT, ViT, MAE, CLIP e OpenCLIP. Um grande obrigado a eles por abrirem o código-fonte de seus modelos!
Este repositório também mantém uma lista de progressos recentes em modelos de transformadores.
Este repositório apresenta uma lista de designs:
Atualmente trabalhando na implementação do DINO, uma variante do ViT treinada de forma autossupervisionada
Modelo | Implementado | Treinado | Avaliado |
---|---|---|---|
Transformador | ✅ | Não | Não |
GPT | ✅ | Não | Não |
BERTO | ✅ | Sim | Não |
ViT | ✅ | Não | Não |
MAE | Não | Não | Não |
GRAMPO | Não | Não | Não |
AVISO LEGAL : Devido à popularidade e versatilidade dos Transformers, haverá muitas tarefas de curso relacionadas à implementação de parte ou de todos os modelos do Transformer. Este repositório foi desenvolvido exclusivamente para fins de autotreinamento e pode muito bem servir como referência para a implementação de um modelo Transformer. Mas copiar diretamente deste repositório é estritamente proibido e é uma violação do código de conduta da maioria dos institutos acadêmicos.
Para aqueles que precisam de uma atualização sobre o que é o Transformer ou como é a arquitetura detalhada do Transformer, consulte um blog bem ilustrado: http://nlp.seas.harvard.edu/annotated-transformer/#background
Aqui está um poema gerado pelo LLaMA2, um LLm de código aberto lançado pela Meta AI: Atenção é tudo que você precisa,
Para entender o que é dito e lido.
Transformadores aprendem relações,
Através de atenções multicabeças.
Codificador, arquitetura do decodificador,
Aprende recursos para boas imagens.
Treinamento em grandes conjuntos de dados,
Sua rapidez de desempenho aumenta.
Construído em cima de sequência em sequência,
Sua computação paralela economiza tempo de flexibilidade.
Compreender linguagem, texto e voz,
Com um aprendizado profundo que lhe deu equilíbrio.
Agnóstico de tarefas, ampla usabilidade,
Impulsionando o progresso na agilidade da IA.
Levando a PNL a novos patamares,
Os transformadores mostram seu poder.