Uma arquitetura codificadora-decodificadora baseada em autoatenção. É usado principalmente para
Artigo - https://arxiv.org/abs/1706.03762
Uma arquitetura de codificador baseada em autoatenção. É usado principalmente para
Artigo - https://arxiv.org/abs/1810.04805
Um modelo autorregressivo baseado em decodificador baseado em autoatenção. É usado principalmente para
Artigo - https://paperswithcode.com/method/gpt
Um modelo autorregressivo baseado em decodificador baseado em autoatenção com uma ligeira mudança na arquitetura e treinado em um corpus de texto maior do que GPT-1. É usado principalmente para
Artigo - https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf
Uma arquitetura de codificador baseada em autoatenção de última geração para aplicação de visão computacional. É usado principalmente para
Artigo - https://arxiv.org/abs/2006.03677
Uma arquitetura codificadora-decodificadora baseada em autoatenção com complexidade de tempo linear diferente do transformador que possui complexidade de tempo quadrática. É usado principalmente
Artigo - https://arxiv.org/abs/2009.14794