2017 | Transformador | Atención es todo lo que necesitas | El foco de la investigación original fueron las tareas de traducción. | TensorFlow + artículo |
2018 | GPT | Mejorar la comprensión del lenguaje mediante preentrenamiento generativo | El primer modelo Transformer previamente entrenado, utilizado para realizar ajustes en varias tareas de PNL y obtener resultados de última generación. | |
2018 | BERT | BERT: Capacitación previa de transformadores bidireccionales profundos para la comprensión del lenguaje | Otro gran modelo previamente entrenado, éste diseñado para producir mejores resúmenes de oraciones. | PyTorch |
2019 | GPT-2 | Los modelos de lenguaje son estudiantes multitarea sin supervisión | Una versión mejorada (y más grande) de GPT que no se hizo pública de inmediato debido a preocupaciones éticas. | |
2019 | DistilBERT - BERT destilado | DistilBERT, una versión destilada de BERT: más pequeño, más rápido, más barato y más ligero | Una versión destilada de BERT que es un 60% más rápida, un 40% más liviana en memoria y aún conserva el 97% del rendimiento de BERT. | |
2019 | BART | BART: Entrenamiento previo de eliminación de ruido de secuencia a secuencia para la generación, traducción y comprensión del lenguaje natural | Grandes modelos previamente entrenados que utilizan la misma arquitectura que el modelo Transformer original. | |
2019 | T5 | Explorando los límites del aprendizaje por transferencia con un transformador unificado de texto a texto | Grandes modelos previamente entrenados que utilizan la misma arquitectura que el modelo Transformer original. | |
2019 | ALBERTO | ALBERT: un BERT ligero para el aprendizaje autosupervisado de representaciones lingüísticas | | |
2019 | RoBERTa: un enfoque de preentrenamiento BERT sólidamente optimizado | RoBERTa: un enfoque de preentrenamiento BERT sólidamente optimizado | | |
2019 | CONTROL | CTRL: un modelo de lenguaje transformador condicional para generación controlable | | |
2019 | Transformador XL | Transformer-XL: modelos de lenguaje atento más allá de un contexto de longitud fija | Adopta una metodología de recurrencia sobre el estado pasado junto con una codificación posicional relativa que permite dependencias a más largo plazo. | |
2019 | Diablo GPT | DialoGPT: preentrenamiento generativo a gran escala para la generación de respuestas conversacionales | Capacitado en 147 millones de intercambios similares a conversaciones extraídos de cadenas de comentarios de Reddit durante un período que abarca desde 2005 hasta 2017. | PyTorch |
2019 | ERNIE | ERNIE: Representación lingüística mejorada con entidades informativas | En este artículo, utilizamos corpus textuales a gran escala y KG para entrenar un modelo de representación del lenguaje mejorado (ERNIE), que puede aprovechar al máximo la información léxica, sintáctica y de conocimiento simultáneamente. | |
2020 | GPT-3 | Los modelos de lenguaje son aprendices de pocas oportunidades | Una versión aún más grande de GPT-2 que puede desempeñarse bien en una variedad de tareas sin necesidad de realizar ajustes (llamado aprendizaje de disparo cero) | |
2020 | ELECTRA | ELECTRA: CODIFICADORES DE TEXTO PREENTRENADOS COMO DISCRIMINADORES EN LUGAR DE GENERADORES | | |
2020 | mBART | Entrenamiento previo de eliminación de ruido multilingüe para la traducción automática neuronal | | |
2021 | CLIP (Preentrenamiento de imagen-lenguaje contrastante) | Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural | CLIP es una red neuronal entrenada en una variedad de pares (imagen, texto). Se le puede indicar en lenguaje natural que prediga el fragmento de texto más relevante, dada una imagen, sin optimizar directamente para la tarea, de manera similar a las capacidades de disparo cero de GPT-2 y 3. | PyTorch |
2021 | DALL-E | Generación de texto a imagen Zero-Shot | | PyTorch |
2021 | Ardilla de tierra | Escalamiento de modelos de lenguaje: métodos, análisis y conocimientos de Training Gopher | | |
2021 | Transformador de decisión | Transformador de decisiones: aprendizaje por refuerzo mediante modelado de secuencias | Una arquitectura que plantea el problema de RL como modelado de secuencia condicional. | PyTorch |
2021 | GLam (modelo de lenguaje generalista) | GLaM: escalamiento eficiente de modelos lingüísticos con una combinación de expertos | En este artículo, proponemos y desarrollamos una familia de modelos de lenguaje denominada GLaM (Modelo de lenguaje generalista), que utiliza una arquitectura de mezcla de expertos escasamente activada para escalar la capacidad del modelo y al mismo tiempo incurre en costos de capacitación sustancialmente menores en comparación con las variantes densas. | |
2022 | chatGPT/InstructGPT | Entrenar modelos de lenguaje para seguir instrucciones con retroalimentación humana. | Este modelo de lenguaje entrenado es mucho mejor que GPT-3 para seguir las intenciones del usuario. El modelo se optimiza (afina) utilizando el aprendizaje por refuerzo con retroalimentación humana (RLHF) para lograr un diálogo conversacional. El modelo se entrenó utilizando una variedad de datos escritos por personas para lograr respuestas que parecieran humanas. | :-: |
2022 | Chinchilla | Entrenamiento de modelos de lenguaje grande con cálculo óptimo | Utiliza el mismo presupuesto de computación que Gopher pero con 70 mil millones de parámetros y 4 veces más datos. | :-: |
2022 | LaMDA: modelos de lenguaje para aplicaciones de diálogo | LaMDA | Es una familia de modelos de lenguaje neuronal basados en Transformer especializados para el diálogo. | |
2022 | DQ-BART | DQ-BART: modelo eficiente de secuencia a secuencia mediante destilación y cuantificación conjuntas | Proponer destilar y cuantificar conjuntamente el modelo, donde el conocimiento se transfiere del modelo de maestro de precisión total al modelo de estudiante de baja precisión cuantificado y destilado. | |
2022 | Flamenco | Flamingo: un modelo de lenguaje visual para el aprendizaje en pocas oportunidades | Construir modelos que puedan adaptarse rápidamente a tareas novedosas utilizando solo un puñado de ejemplos anotados es un desafío abierto para la investigación del aprendizaje automático multimodal. Presentamos Flamingo, una familia de modelos de lenguaje visual (VLM) con esta capacidad. | |
2022 | gato | Un agente generalista | Inspirados por el progreso en el modelado del lenguaje a gran escala, aplicamos un enfoque similar para construir un agente generalista único más allá del ámbito de la producción de texto. El agente, al que nos referimos como Gato, funciona como una política generalista multimodal, multitarea y multiencarnación. | |
2022 | GODEL: Capacitación previa a gran escala para el diálogo dirigido a objetivos | GODEL: Capacitación previa a gran escala para el diálogo dirigido a objetivos | A diferencia de modelos anteriores como DialoGPT, GODEL aprovecha una nueva fase de preentrenamiento fundamentado diseñada para respaldar mejor la adaptación de GODEL a una amplia gama de tareas de diálogo posteriores que requieren información externa a la conversación actual (por ejemplo, una base de datos o un documento) para producir buenas respuestas. | PyTorch |
2023 | GPT-4 | Informe técnico GPT-4 | El modelo ahora acepta entradas multimodales: imágenes y texto. | :-: |
2023 | BloombergGPT | BloombergGPT: un gran modelo lingüístico para las finanzas | LLM especializado en el ámbito financiero capacitado en las amplias fuentes de datos de Bloomberg | |
2023 | FLORACIÓN | BLOOM: un modelo de lenguaje multilingüe de acceso abierto con parámetros 176B | BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) es un modelo de lenguaje Transformer solo decodificador que fue entrenado en el corpus ROOTS, un conjunto de datos que comprende cientos de fuentes en 46 lenguajes naturales y 13 de programación (59 en total). | |
2023 | Llama 2 | Llama 2: Fundación abierta y modelos de chat optimizados | | PyTorch n.º 1 PyTorch n.º 2 |
2023 | claudio | claudio | Claude puede analizar 75.000 palabras (100.000 tokens). GPT4 puede generar solo 32,7 mil tokens. | |
2023 | AutocomprobaciónGPT | SelfCheckGPT: Detección de alucinaciones de caja negra sin recursos para modelos generativos de lenguaje grande | Un enfoque simple basado en muestreo que se puede utilizar para verificar modelos de caja negra sin recursos, es decir, sin una base de datos externa. | |