¡Bienvenido a mi repositorio! Implemento la arquitectura del transformador desde cero usando PyTorch. Intenté repasar todos los subcomponentes clave, agregando notas y aclaraciones extensas. El objetivo clave de este repositorio es proporcionar conocimientos y explicaciones precisas para cada componente.
Revisará todos los componentes explicados en el artículo original. Además de construir la arquitectura, las notas brindan información para comprender el fundamento detrás de todos los bloques de esta arquitectura. También intenté definir parámetros y variables que me resultaron confusos al estudiarlos (por ejemplo, d_v vs d_k).
Estos son los bloques que aprenderás a construir con este repositorio. Todos estos fueron construidos desde cero, lo que le brindará una buena comprensión de lo que hay debajo del capó.
La arquitectura transformadora es la arquitectura SOTA detrás de los avances más relevantes en IA. Es clave entender qué está pasando en la implementación original de esta bestia. También es una buena habilidad si estás buscando seguir el camino de la investigación; ¡Necesitas entender los orígenes para poder saber qué mejorar!
La respuesta a esta pregunta es sí. Déjame explicarte.
Estaría mintiendo si le dijera que está bien sin experiencia en el flujo de trabajo de PyTorch. Necesita conocer los conceptos básicos, como cómo inicializar objetos nn.Module, jugar con tensores o comprender por qué es necesario aplicar transformaciones. Aparte de eso, también necesitará conocimientos básicos de aprendizaje profundo/aprendizaje automático (por ejemplo, ¿qué es una capa lineal? ¿Qué son las dimensiones? ¿Qué es una incrustación?).