Bem-vindo ao meu repositório! Eu implemento a arquitetura do transformador do zero usando PyTorch. Tentei examinar todos os subcomponentes principais, acrescentando notas e esclarecimentos extensos. O principal objetivo deste repositório é fornecer conhecimento e explicações precisas para cada componente.
Você examinará todos os componentes explicados no artigo original. Além de construir a arquitetura, as notas fornecem insights para compreender a lógica por trás de todos os blocos desta arquitetura. Também tentei definir parâmetros e variáveis que achei confusos ao estudá-los (por exemplo, d_v vs d_k).
Estes são os blocos que você aprenderá a construir com este repositório. Todos eles foram construídos do zero, o que lhe dará uma boa compreensão do que está por trás do capô.
A arquitetura do transformador é a arquitetura SOTA por trás dos avanços mais relevantes em IA. É fundamental entender o que está acontecendo na implementação original desta fera. Também é uma boa habilidade se você deseja seguir o caminho da pesquisa; é preciso entender as origens para saber o que melhorar!
A resposta a esta pergunta é sim. Deixe-me explicar.
Eu estaria mentindo se dissesse que você está bem sem experiência no fluxo de trabalho do PyTorch. Você precisa saber o básico, como inicializar objetos nn.Module, brincar com tensores ou entender por que as transformações precisam ser aplicadas. Além disso, você também precisará de conhecimento básico de aprendizado profundo/aprendizado de máquina (por exemplo, o que é uma camada linear? O que são dimensões? O que é uma incorporação?).