Este repositorio tiene como objetivo implementar diferentes formas de modelo de transformador, incluido seq2seq (la arquitectura original en el documento All You Need is Attention), modelos de transformador solo codificador, solo decodificador y unificado.
Estos modelos no pretenden ser lo último en tecnología en ninguna tarea. En cambio, vienen con el propósito de capacitarme con habilidades avanzadas de programación y también brindar referencias a personas que comparten el amor por el aprendizaje profundo y la inteligencia artificial.
Este trabajo está inspirado en los repositorios de código abierto de NanoGPT, ViT, MAE, CLIP y OpenCLIP y no sería posible sin ellos. ¡Muchísimas gracias a ellos por abrir el código fuente de sus modelos!
Este repositorio también mantiene una lista impresa de los avances recientes en los modelos de transformadores.
Este repositorio presenta una lista de diseños:
Actualmente trabajando en la implementación de DINO, una variante de ViT entrenada de forma autosupervisada
Modelo | Implementado | Entrenado | Evaluado |
---|---|---|---|
Transformador | ✅ | No | No |
GPT | ✅ | No | No |
BERT | ✅ | Sí | No |
ViT | ✅ | No | No |
MAE | No | No | No |
ACORTAR | No | No | No |
DESCARGO DE RESPONSABILIDAD : Debido a la popularidad y versatilidad de Transformers, habrá muchas tareas de curso relacionadas con la implementación parcial o completa de los modelos de Transformer. Este repositorio se desarrolló exclusivamente con fines de autoformación y bien podría servir como referencia para implementar un modelo Transformer. Pero copiar directamente desde este repositorio está estrictamente prohibido y constituye una violación del código de conducta de la mayoría de los institutos académicos.
Para aquellos que necesitan un repaso de qué es Transformer o cómo se ve la arquitectura detallada de Transformer, consulte un blog bien ilustrado: http://nlp.seas.harvard.edu/annotated-transformer/#background
Aquí hay un poema generado por LLaMA2, un LLm de código abierto publicado por Meta AI: Atención es todo lo que necesitas,
Para entender lo que se dice y lee.
Los transformadores aprenden relaciones,
A través de atenciones multicabezales.
Arquitectura de codificador, decodificador,
Aprende características para obtener buenas imágenes.
Capacitación en grandes conjuntos de datos,
Su rapidez de rendimiento aumenta.
Construido sobre secuencia a secuencia,
Su computación paralela ahorra tiempo para flexionarse.
Comprender el lenguaje, el texto y la voz.
Con un aprendizaje profundo que le dio su aplomo.
Agnóstico de tareas, amplia usabilidad,
Impulsando el progreso en la agilidad de la IA.
Llevando la PNL a nuevas alturas,
Los transformadores muestran su poder.