Descarga Awesome LLM Large Language Models Notes - Awesome LLM Large Language Models Notes Descarga de código fuente

Awesome LLM Large Language Models Notes

Código Fuente de IA

1.0.0

Descargar

Awesome-LLM-Large-Language-Models-Notas

Modelos LLM conocidos clasificados por año

Pequeña introducción, papel, código, etc.

Año	Nombre	Papel	Información	Implementación
2017	Transformador	Atención es todo lo que necesitas	El foco de la investigación original fueron las tareas de traducción.	TensorFlow + artículo
2018	GPT	Mejorar la comprensión del lenguaje mediante preentrenamiento generativo	El primer modelo Transformer previamente entrenado, utilizado para realizar ajustes en varias tareas de PNL y obtener resultados de última generación.
2018	BERT	BERT: Capacitación previa de transformadores bidireccionales profundos para la comprensión del lenguaje	Otro gran modelo previamente entrenado, éste diseñado para producir mejores resúmenes de oraciones.	PyTorch
2019	GPT-2	Los modelos de lenguaje son estudiantes multitarea sin supervisión	Una versión mejorada (y más grande) de GPT que no se hizo pública de inmediato debido a preocupaciones éticas.
2019	DistilBERT - BERT destilado	DistilBERT, una versión destilada de BERT: más pequeño, más rápido, más barato y más ligero	Una versión destilada de BERT que es un 60% más rápida, un 40% más liviana en memoria y aún conserva el 97% del rendimiento de BERT.
2019	BART	BART: Entrenamiento previo de eliminación de ruido de secuencia a secuencia para la generación, traducción y comprensión del lenguaje natural	Grandes modelos previamente entrenados que utilizan la misma arquitectura que el modelo Transformer original.
2019	T5	Explorando los límites del aprendizaje por transferencia con un transformador unificado de texto a texto	Grandes modelos previamente entrenados que utilizan la misma arquitectura que el modelo Transformer original.
2019	ALBERTO	ALBERT: un BERT ligero para el aprendizaje autosupervisado de representaciones lingüísticas
2019	RoBERTa: un enfoque de preentrenamiento BERT sólidamente optimizado	RoBERTa: un enfoque de preentrenamiento BERT sólidamente optimizado
2019	CONTROL	CTRL: un modelo de lenguaje transformador condicional para generación controlable
2019	Transformador XL	Transformer-XL: modelos de lenguaje atento más allá de un contexto de longitud fija	Adopta una metodología de recurrencia sobre el estado pasado junto con una codificación posicional relativa que permite dependencias a más largo plazo.
2019	Diablo GPT	DialoGPT: preentrenamiento generativo a gran escala para la generación de respuestas conversacionales	Capacitado en 147 millones de intercambios similares a conversaciones extraídos de cadenas de comentarios de Reddit durante un período que abarca desde 2005 hasta 2017.	PyTorch
2019	ERNIE	ERNIE: Representación lingüística mejorada con entidades informativas	En este artículo, utilizamos corpus textuales a gran escala y KG para entrenar un modelo de representación del lenguaje mejorado (ERNIE), que puede aprovechar al máximo la información léxica, sintáctica y de conocimiento simultáneamente.
2020	GPT-3	Los modelos de lenguaje son aprendices de pocas oportunidades	Una versión aún más grande de GPT-2 que puede desempeñarse bien en una variedad de tareas sin necesidad de realizar ajustes (llamado aprendizaje de disparo cero)
2020	ELECTRA	ELECTRA: CODIFICADORES DE TEXTO PREENTRENADOS COMO DISCRIMINADORES EN LUGAR DE GENERADORES
2020	mBART	Entrenamiento previo de eliminación de ruido multilingüe para la traducción automática neuronal
2021	CLIP (Preentrenamiento de imagen-lenguaje contrastante)	Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural	CLIP es una red neuronal entrenada en una variedad de pares (imagen, texto). Se le puede indicar en lenguaje natural que prediga el fragmento de texto más relevante, dada una imagen, sin optimizar directamente para la tarea, de manera similar a las capacidades de disparo cero de GPT-2 y 3.	PyTorch
2021	DALL-E	Generación de texto a imagen Zero-Shot		PyTorch
2021	Ardilla de tierra	Escalamiento de modelos de lenguaje: métodos, análisis y conocimientos de Training Gopher
2021	Transformador de decisión	Transformador de decisiones: aprendizaje por refuerzo mediante modelado de secuencias	Una arquitectura que plantea el problema de RL como modelado de secuencia condicional.	PyTorch
2021	GLam (modelo de lenguaje generalista)	GLaM: escalamiento eficiente de modelos lingüísticos con una combinación de expertos	En este artículo, proponemos y desarrollamos una familia de modelos de lenguaje denominada GLaM (Modelo de lenguaje generalista), que utiliza una arquitectura de mezcla de expertos escasamente activada para escalar la capacidad del modelo y al mismo tiempo incurre en costos de capacitación sustancialmente menores en comparación con las variantes densas.
2022	chatGPT/InstructGPT	Entrenar modelos de lenguaje para seguir instrucciones con retroalimentación humana.	Este modelo de lenguaje entrenado es mucho mejor que GPT-3 para seguir las intenciones del usuario. El modelo se optimiza (afina) utilizando el aprendizaje por refuerzo con retroalimentación humana (RLHF) para lograr un diálogo conversacional. El modelo se entrenó utilizando una variedad de datos escritos por personas para lograr respuestas que parecieran humanas.	:-:
2022	Chinchilla	Entrenamiento de modelos de lenguaje grande con cálculo óptimo	Utiliza el mismo presupuesto de computación que Gopher pero con 70 mil millones de parámetros y 4 veces más datos.	:-:
2022	LaMDA: modelos de lenguaje para aplicaciones de diálogo	LaMDA	Es una familia de modelos de lenguaje neuronal basados en Transformer especializados para el diálogo.
2022	DQ-BART	DQ-BART: modelo eficiente de secuencia a secuencia mediante destilación y cuantificación conjuntas	Proponer destilar y cuantificar conjuntamente el modelo, donde el conocimiento se transfiere del modelo de maestro de precisión total al modelo de estudiante de baja precisión cuantificado y destilado.
2022	Flamenco	Flamingo: un modelo de lenguaje visual para el aprendizaje en pocas oportunidades	Construir modelos que puedan adaptarse rápidamente a tareas novedosas utilizando solo un puñado de ejemplos anotados es un desafío abierto para la investigación del aprendizaje automático multimodal. Presentamos Flamingo, una familia de modelos de lenguaje visual (VLM) con esta capacidad.
2022	gato	Un agente generalista	Inspirados por el progreso en el modelado del lenguaje a gran escala, aplicamos un enfoque similar para construir un agente generalista único más allá del ámbito de la producción de texto. El agente, al que nos referimos como Gato, funciona como una política generalista multimodal, multitarea y multiencarnación.
2022	GODEL: Capacitación previa a gran escala para el diálogo dirigido a objetivos	GODEL: Capacitación previa a gran escala para el diálogo dirigido a objetivos	A diferencia de modelos anteriores como DialoGPT, GODEL aprovecha una nueva fase de preentrenamiento fundamentado diseñada para respaldar mejor la adaptación de GODEL a una amplia gama de tareas de diálogo posteriores que requieren información externa a la conversación actual (por ejemplo, una base de datos o un documento) para producir buenas respuestas.	PyTorch
2023	GPT-4	Informe técnico GPT-4	El modelo ahora acepta entradas multimodales: imágenes y texto.	:-:
2023	BloombergGPT	BloombergGPT: un gran modelo lingüístico para las finanzas	LLM especializado en el ámbito financiero capacitado en las amplias fuentes de datos de Bloomberg
2023	FLORACIÓN	BLOOM: un modelo de lenguaje multilingüe de acceso abierto con parámetros 176B	BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) es un modelo de lenguaje Transformer solo decodificador que fue entrenado en el corpus ROOTS, un conjunto de datos que comprende cientos de fuentes en 46 lenguajes naturales y 13 de programación (59 en total).
2023	Llama 2	Llama 2: Fundación abierta y modelos de chat optimizados		PyTorch n.º 1 PyTorch n.º 2
2023	claudio	claudio	Claude puede analizar 75.000 palabras (100.000 tokens). GPT4 puede generar solo 32,7 mil tokens.
2023	AutocomprobaciónGPT	SelfCheckGPT: Detección de alucinaciones de caja negra sin recursos para modelos generativos de lenguaje grande	Un enfoque simple basado en muestreo que se puede utilizar para verificar modelos de caja negra sin recursos, es decir, sin una base de datos externa.

Modelos LLM clasificados por tamaño

Nombre	Tamaño (# Parámetros)	Fichas de entrenamiento	Datos de entrenamiento
GLAM	1,2 toneladas
Ardilla de tierra	280B	300B
FLORACIÓN	176B		Corpus de raíces
GPT-3	175B
LaMDA	137B	168B	1,56 billones de palabras de datos de diálogo público y texto web
Chinchilla	70B	1,4T
Llama 2	7B, 13B y 70B
BloombergGPT	50B	363B+345B
halcón40b	40B	1T	1.000 mil millones de tokens de RefinedWeb

M=millones | B=mil millones | T=billones

Modelos LLM clasificados por nombre

ALBERTO | Alpaca
BART | BERT | Pájaro grande | FLORACIÓN |
Chinchillas | CLIP | CTRL | chatGPT | claudio
DALL-E | DALL-E-2 | Transformadores de decisión | DiálogoGPT | DistilBERT | DQ-BART |
ELECTRA | ERNIE
Flamenco | halcón40b
gato | tuza | GLAM | DESLIZAMIENTO | GPT | GPT-2 | GPT-3 | GPT-4 | GPT-Neo | Gódel | GPT-J
Imagen | InstruirGPT
Jurásico-1
LaMDA | Llama 2
mBART | Megatrón | Minerva | MT-NLG
OPTAR
Palma | Pegaso
roberta
SeeKer | Transformador giratorio | Cambiar | AutocomprobaciónGPT
Transformador | T5 | Transformadores de trayectoria | Transformador XL | Turing-NLG
ViT
Wu Dao 2.0 |
XLM-RoBERTa | XLnet

Clasificación por arquitectura

Arquitectura	Modelos	Tareas
Modelos Transformer de solo codificador, también conocidos como modelos de codificación automática	ALBERT, BERT, DistilBERT, ELECTRA, RoBERTa	Clasificación de oraciones, reconocimiento de entidades nombradas, respuesta a preguntas extractivas.
Modelos de transformadores solo decodificadores, también conocidos como autorregresivos (o causales)	CTRL, GPT, GPT-2, Transformador XL	Generación de texto dada una indicación.
Codificador-Decodificador, también conocido como modelos de transformadores de secuencia a secuencia	BART, T5, Marian, mBART	Resumen, traducción, respuesta generativa a preguntas.

¿Qué tiene de especial HuggingFace?

HuggingFace, una biblioteca de PNL popular, pero también ofrece una manera fácil de implementar modelos a través de su API de inferencia. Cuando construyes un modelo usando la biblioteca HuggingFace, puedes entrenarlo y cargarlo en su Model Hub. Lea más sobre esto aquí.
Lista de cuaderno

Artículos imprescindibles sobre LLM

2014 | Traducción automática neuronal aprendiendo conjuntamente a alinear y traducir
2022 | UNA ENCUESTA SOBRE GPT-3
2022 | Escalar eficientemente la inferencia de transformadores
Artículos de lectura obligada sobre modelos de lenguaje previamente entrenados (PLM)

Resumen | ¡Ponme al día!

Ponerse al día con el extraño mundo de los LLM

Artículos de blogs

Construyendo un sintetizador con ChatGPT
PubMed GPT: un modelo de lenguaje grande de dominio específico para texto biomédico
ChatGPT: donde falta
Impresionantes indicaciones de ChatGPT
ChatGPT vs.GPT3: la comparación definitiva
Prompt Engineering 101: Introducción y recursos
Modelos de transformadores: introducción y catálogo - Edición 2022
¿Podrán GPT-3 o BERT alguna vez entender el lenguaje?⁠—Los límites de los modelos de lenguaje de aprendizaje profundo
Diez cosas que necesita saber sobre BERT y la arquitectura transformadora que están remodelando el panorama de la IA
Guía completa de transformadores
Desenmascarando BERT: la clave para el rendimiento del modelo de transformador
Modelos de PNL de Transformer (Meena y LaMDA): ¿son "sensibles" y qué significa para los chatbots de dominio abierto?
Modelos preentrenados de Hugging Face: encuentre el mejor para su tarea
Optimización de inferencia de modelos de transformadores grandes
Tutorial de 4 partes sobre cómo funcionan los transformadores: Parte 1 | Parte 2 | Parte 3 | parte 4
¿Qué hace que un agente de diálogo sea útil?
Comprensión de modelos de lenguaje grandes: una lista de lectura transformadora
Ingeniería rápida
Creación de aplicaciones LLM para producción
Guía del desarrollador de LLMOps: ingeniería rápida, agentes de LLM y observabilidad
Argumento a favor del uso de RL LLM
Por qué Google y OpenAI están perdiendo frente a las comunidades de código abierto
¡Probablemente no sepas cómo hacer Ingeniería Rápida!
La historia completa de los grandes modelos de lenguaje y RLHF
Comprender las evaluaciones de OpenAI
Lo que sabemos sobre los LLM (cartilla)
Que te jodan, muéstrame el mensaje.

¡Conozca sus limitaciones!

ChatGPT y Wolfram|Alpha
Números que todo desarrollador de LLM debe conocer

Panorama de la financiación inicial

Financiación inicial de PNL en 2022

Tutoriales disponibles

Creación de un motor de búsqueda con un modelo BERT previamente entrenado
Ajuste fino del modelo BERT previamente entrenado en la tarea de clasificación de texto
Ajuste fino del modelo BERT previamente entrenado en el conjunto de datos de revisión de productos de Amazon
Análisis de sentimiento con el transformador Hugging Face
Ajuste fino del modelo BERT previamente entrenado en la tarea de clasificación de revisión de YELP
API de HuggingFace
AbrazoRelleno de mascarilla facial
Reconocimiento de entidad de nombre HuggingFace NER
Respuesta a preguntas de HuggingFace dentro del contexto
Generación de texto HuggingFace
Resumen de texto de HuggingFace.ipynb
HuggingFace aprendizaje de tiro cero

Una pequeña nota sobre el renderizado del cuaderno.

Hay dos cuadernos disponibles:
- Uno con cuadros de colores y carpeta exterior GitHub_MD_rendering
- Uno en blanco y negro en la carpeta GitHub_MD_rendering

Cómo ejecutar el cuaderno en Google Colab

La opción más sencilla sería clonar este repositorio.
Navegue a Google Colab y abra el cuaderno directamente desde Colab.
Luego también puede volver a escribirlo en GitHub siempre que se le otorgue permiso para Colab. Todo el procedimiento está automatizado.