Documentos PLM
Contribuido por Xiaolei Wang
Los modelos de lenguaje preentrenados (PLM) a gran escala como BERT y GPT han logrado un gran éxito y se han convertido en un hito en la PNL.
En este repositorio, recopilamos algunos artículos representativos de PLM en los últimos años según la cantidad de citas y artículos publicados en las últimas conferencias importantes (por ejemplo, ACL, EMNLP, ICLR, ICML, NeurIPS).
Mantendremos el repositorio actualizado y aceptaremos solicitudes de extracción y problemas. ¡Gracias por tus estrellas y tenedores!
Tabla de contenido
- Encuesta
- Punto de referencia
- Diseño PLM
- General
- Conocimiento
- Plurilingüe
- Multimodal
- Recuperación de información
- Código
- Otros
- Análisis PLM
- Conocimiento
- Robustez
- Escasez
- Otros
- PLM eficiente
- Capacitación
- Inferencia
- Compresión
- Adaptación PLM
- Dos etapas
- Multitarea
- Adaptador
- Inmediato
- Otros
Encuesta
- "Modelos previamente entrenados para el procesamiento del lenguaje natural: una encuesta".
Science China Technological Sciences(2020)
[PDF] - "¿Qué *BERT? Una encuesta que organiza codificadores contextualizados".
EMNLP(2020)
[PDF] - "Introducción a BERTology: lo que sabemos sobre cómo funciona BERT".
TACL(2020)
[PDF] - "De las representaciones de palabras estáticas a las dinámicas: una encuesta".
International Journal of Machine Learning and Cybernetics(2020)
[PDF] - "Descripción general de los modelos basados en transformadores para tareas de PNL".
2020 15th Conference on Computer Science and Information Systems (FedCSIS)
[PDF] - "Una encuesta sobre incrustaciones contextuales".
arXiv(2020)
[PDF] - "El libro de cocina de PNL: recetas modernas para arquitecturas de aprendizaje profundo basadas en transformadores".
IEEE Access(2021)
[PDF] - "Modelos previamente entrenados: pasado, presente y futuro".
arXiv(2021)
[PDF] - "Preentrenar, indicar y predecir: un estudio sistemático de los métodos de indicación en el procesamiento del lenguaje natural".
arXiv(2021)
[PDF] - "AMMUS: una encuesta de modelos preentrenados basados en transformadores en el procesamiento del lenguaje natural".
arXiv(2021)
[PDF] - "Sobre las oportunidades y riesgos de los modelos de fundación".
arXiv(2021)
[PDF] - "Cambio de paradigma en el procesamiento del lenguaje natural".
arXiv(2021)
[PDF] - "Avances recientes en el procesamiento del lenguaje natural a través de grandes modelos de lenguaje previamente entrenados: una encuesta".
arXiv(2021)
[PDF]
Punto de referencia
- XNLI : "XNLI: Evaluación de representaciones de oraciones multilingües".
EMNLP(2018)
[PDF] [Conjunto de datos] - GLUE : "GLUE: una plataforma de análisis y referencia de tareas múltiples para la comprensión del lenguaje natural".
ICLR(2019)
[Página de inicio] - SuperGLUE : "SuperGLUE: un punto de referencia más estricto para sistemas de comprensión de lenguajes de uso general".
NeurIPS(2019)
[Página de inicio] - PISTA : "PISTA: Un punto de referencia de evaluación de la comprensión del idioma chino".
COLING(2020)
[Página principal] - XTREME : "XTREME: un punto de referencia multitarea masivamente multilingüe para evaluar la generalización multilingüe".
ICML(2020)
[Página de inicio] - XGLUE : "XGLUE: un nuevo conjunto de datos de referencia para la formación previa, la comprensión y la generación en varios idiomas".
EMNLP(2020)
[Página de inicio] - DialoGLUE : "DialoGLUE: un punto de referencia de comprensión del lenguaje natural para el diálogo orientado a tareas".
arXiv(2020)
[Página de inicio]
Diseño PLM
General
- GPT : "Mejora de la comprensión del lenguaje mediante formación previa generativa".
OpenAI(2018)
[Proyecto] - GPT-2 : "Los modelos de lenguaje son estudiantes multitarea sin supervisión".
OpenAI(2019)
[Proyecto] - BERT : "BERT: Entrenamiento previo de transformadores bidireccionales profundos para la comprensión del lenguaje".
NAACL(2019)
[PDF] [Código] - XLNet : "XLNet: preentrenamiento autorregresivo generalizado para la comprensión del lenguaje".
NeurIPS(2019)
[PDF] [Código] - SBERT : "Sentence-BERT: incrustaciones de oraciones utilizando redes BERT siamesas".
ACL(2019)
[PDF] [Código] - UniLM : "Preentrenamiento del modelo de lenguaje unificado para la comprensión y generación del lenguaje natural".
NeurIPS(2019)
[PDF] [Código] - MASS : "MASS: Preentrenamiento de secuencia enmascarada a secuencia para la generación del lenguaje".
ICML(2019)
[PDF] [Código] - Chinese-BERT-wwm : "Capacitación previa con enmascaramiento de palabras completas para BERT chino".
arXiv(2019)
[PDF] [Código] - "Preformación de redes de autoatención impulsada por Cloze".
EMNLP(2019)
[PDF] - "BERT tiene boca y debe hablar: BERT como modelo de lenguaje de campos aleatorios de Markov".
Workshop on Methods for Optimizing and Evaluating Neural Language Generation(2019)
[PDF] [Código] - GPT-3 : "Los modelos de lenguaje aprenden con pocas posibilidades".
NeurIPS(2020)
[PDF] [Código] - T5 : "Exploración de los límites del aprendizaje por transferencia con un transformador unificado de texto a texto".
JMLR(2020)
[PDF] [Código] - BART : "BART: Preentrenamiento de eliminación de ruido de secuencia a secuencia para la generación, traducción y comprensión del lenguaje natural".
ACL(2020)
[PDF] [Código] - Policodificadores : "Policodificadores: arquitecturas y estrategias de entrenamiento previo para una puntuación de múltiples oraciones rápida y precisa".
ICLR(2020)
[PDF] - SpanBERT : "SpanBERT: mejora del entrenamiento previo mediante la representación y predicción de tramos".
TACL(2020)
[PDF] [Código] - ERNIE 2.0 : "ERNIE 2.0: un marco de formación previa continua para la comprensión del lenguaje".
AAAI(2020)
[PDF] [Código] - SemBERT : "BERT consciente de la semántica para la comprensión del lenguaje".
AAAI(2020)
[PDF] [Código] - "Aprovechamiento de puntos de control previamente entrenados para tareas de generación de secuencias".
TACL(2020)
[PDF] [Código] - ProphetNet : "ProphetNet: Predicción de N-gramas futuros para el preentrenamiento de secuencia a secuencia".
EMNLP(2020)
[PDF] - UniLMv2 : "UniLMv2: modelos de lenguaje pseudoenmascarados para el entrenamiento previo del modelo de lenguaje unificado".
ICML(2020)
[PDF] [Código] - MacBERT : "Revisando modelos previamente entrenados para el procesamiento del lenguaje natural chino".
EMNLP(2020)
[PDF] [Código] - MPNet : "MPNet: preentrenamiento enmascarado y permutado para la comprensión del lenguaje".
arXiv(2020)
[PDF] [Código] - DEBERTA : "DeBERTa: BERT mejorado con decodificación y atención desenredada".
ICLR(2021)
[PDF] [Código] - PALM : "PALM: Entrenamiento previo de un modelo de lenguaje autorregresivo y de codificación automática para generación condicionada por el contexto".
EMNLP(2020)
[PDF] - Optimus : "Optimus: organización de oraciones mediante modelado previamente entrenado de un espacio latente".
EMNLP(2020)
[PDF] [Código] - "La autoformación mejora la formación previa para la comprensión del lenguaje natural".
NAACL(2021)
[PDF] [Código] - CAPT : "Repensar la codificación automática sin ruido en el entrenamiento previo del lenguaje".
EMNLP(2021)
[PDF] - "Alternativas de preentrenamiento frustrantemente simples al modelado de lenguaje enmascarado".
EMNLP(2021)
[PDF] [Código] - "Convoluciones y autoatención: reinterpretación de posiciones relativas en modelos de lenguaje previamente entrenados".
ACL(2021)
[PDF] [Código] - ERNIE-Doc : "ERNIE-Doc: un transformador retrospectivo de modelado de documentos largos".
ACL(2021)
[PDF] [Código] - "Representación del lenguaje universal previa a la formación".
ACL(2021)
[PDF] [Código]
Conocimiento
- ERNIE (Baidu) : "ERNIE: Representación mejorada mediante la integración del conocimiento".
arXiv(2019)
[PDF] [Código] - KnowBert : "Representaciones de palabras contextuales mejoradas para el conocimiento".
EMNLP(2019)
[PDF] - ERNIE (Tsinghua) : "ERNIE: representación lingüística mejorada con entidades informativas".
ACL(2019)
[PDF] [Código] - COMET : "COMET: Transformadores de sentido común para la construcción automática de gráficos de conocimiento".
ACL(2019)
[PDF] [Código] - K-BERT : "K-BERT: Habilitación de la representación del lenguaje con Knowledge Graph".
AAAI(2020)
[PDF] [Código] - WKLM : "Enciclopedia preentrenada: modelo de lenguaje preentrenado con conocimientos débilmente supervisados".
ICLR(2020)
[PDF] - LUKE : "LUKE: Representaciones de entidades contextualizadas profundas con autoatención consciente de la entidad".
EMNLP(2020)
[PDF] [Código] - K-Adapter : "K-Adapter: infundir conocimiento en modelos previamente entrenados con adaptadores".
ICLR(2021)
[PDF] - KEPLER : "KEPLER: un modelo unificado para la incorporación de conocimientos y la representación del lenguaje previamente entrenado".
TACL(2021)
[PDF] [Código] - RuleBERT : "RuleBERT: Enseñanza de reglas suaves a modelos de lenguaje previamente entrenados".
EMNLP(2021)
[PDF] [Código] - BeliefBank : "Explorando el papel de las representaciones de tokens BERT para explicar los resultados del sondeo de sentencias".
EMNLP(2021)
[PDF] [Código] - Phrase-BERT : "Phrase-BERT: incrustaciones de frases mejoradas de BERT con una aplicación a la exploración de corpus".
EMNLP(2021)
[PDF] [Código] - "Modelo preentrenado con sintaxis mejorada".
ACL(2021)
[PDF] [Código] - StructFormer : "StructFormer: Inducción conjunta no supervisada de dependencia y estructura de electores a partir del modelado de lenguaje enmascarado".
ACL(2021)
[PDF] - ERICA : "ERICA: Mejora de la comprensión de entidades y relaciones para modelos de lenguaje previamente entrenados mediante el aprendizaje contrastivo".
ACL(2021)
[PDF] [Código] - "Orientación estructural para modelos de lenguaje transformador".
ACL(2021)
[PDF] [Código] - HORNET : "HORNET: Enriquecimiento de representaciones lingüísticas previamente entrenadas con fuentes de conocimiento heterogéneas".
CIKM(2021)
[PDF] - "Eliminar lo redundante, reducir lo irrelevante: inyección selectiva de conocimientos para la formación previa del lenguaje".
IJCAI(2021)
[PDF]
Plurilingüe
- XLM : "Preentrenamiento del modelo de lenguaje multilingüe".
arXiv(2019)
[PDF] [Código] - "Incrustaciones de oraciones masivamente multilingües para transferencia interlingüística de disparo cero y más".
TACL(2019)
[PDF] [Código] - UDify : "75 idiomas, 1 modelo: análisis de dependencias universales de forma universal".
EMNLP(2019)
[PDF] [Código] - Unicoder : "Unicoder: un codificador de idiomas universal mediante entrenamiento previo con múltiples tareas multilingües".
EMNLP(2019)
[PDF] - XLM-R : "Aprendizaje de representación multilingüe no supervisado a escala".
ACL(2020)
[PDF] - "Alineación multilingüe de representaciones de palabras contextuales".
ICLR(2020)
[PDF] - mBART : "Preentrenamiento multilingüe de eliminación de ruido para traducción automática neuronal".
TACL(2020)
[PDF] [Código] - mT5 : "mT5: un transformador de texto a texto previamente entrenado masivamente multilingüe".
NAACL(2021)
[PDF] [Código] - InfoXLM : "InfoXLM: un marco teórico de la información para la formación previa del modelo de lenguaje multilingüe".
NAACL(2021)
[PDF] [Código] - "Asignación de una gran capacidad de vocabulario para la formación previa del modelo de lenguaje multilingüe".
EMNLP(2021)
[PDF] [Código] - ERNIE-M : "ERNIE-M: representación multilingüe mejorada mediante la alineación de la semántica multilingüe con corporaciones monolingües".
EMNLP(2021)
[PDF] [Código] - "Un método geométrico simple para transformaciones lingüísticas interlingües con codificadores automáticos previamente entrenados".
EMNLP(2021)
[PDF] - "Impulsar la transferencia interlingüística mediante el autoaprendizaje con estimación de la incertidumbre".
EMNLP(2021)
[PDF] - "¿Qué tan bueno es su tokenizador? Sobre el rendimiento monolingüe de modelos de lenguaje multilingüe".
ACL(2021)
[PDF] [Código] - "Preformación multilingüe con aprendizaje de dependencia universal".
NeurIPS(2021)
[PDF]
Multimodal
- ViLBERT : "ViLBERT: entrenamiento previo de representaciones visiolingüísticas independientes de las tareas para tareas de visión y lenguaje".
NeuralIPS(2019)
[PDF] - LXMERT : "LXMERT: Aprendizaje de representaciones de codificadores multimodales a partir de transformadores".
EMNLP(2019)
[PDF] [Código] - VideoBERT : "VideoBERT: un modelo conjunto para el aprendizaje de representación de lenguaje y vídeo"
ICCV(2019)
[PDF] - VisualBERT : "VisualBERT: una base simple y eficaz para la visión y el lenguaje".
arXiv(2019)
[PDF] - B2T2 : "Fusión de objetos detectados en texto para respuesta visual a preguntas".
EMNLP(2019)
[PDF] [Código] - VL-BERT : "VL-BERT: Pre-entrenamiento de Representaciones Visual-Lingüísticas Genéricas".
ICLR(2020)
[PDF] [Código] - Unicoder-VL : "Unicoder-VL: un codificador universal para la visión y el lenguaje mediante entrenamiento previo multimodal".
AAAI(2020)
[PDF] - VLP : "Preentrenamiento unificado de visión-lenguaje para subtítulos de imágenes y VQA".
AAAI(2020)
[PDF] [Código] - UNITER : "UNITER: Aprendizaje universal de representación de imágenes y textos".
ECCV(2020)
[PDF] [Código] - Oscar : "Oscar: Preentrenamiento alineado con semántica de objetos para tareas de visión-lenguaje".
ECCV(2020)
[PDF] [Código] - "12 en 1: aprendizaje de representación del lenguaje y visión multitarea".
CVPR(2020)
[PDF] [Código] - ActBERT : "ActBERT: Aprendizaje de representaciones de texto y vídeo locales y globales".
CVPR(2020)
[PDF] - VLN : "Navegación visión-lenguaje con tareas de razonamiento auxiliares autosupervisadas".
CVPR(2020)
[PDF] - VILLA : "Capacitación adversaria a gran escala para el aprendizaje de la representación del lenguaje y la visión".
arXiv(2020)
[PDF] [Código] - ImageBERT : "ImageBERT: preentrenamiento intermodal con datos de imagen y texto supervisados débilmente a gran escala".
arXiv(2020)
[PDF] - ALIGN : "Ampliación del aprendizaje de representación visual y del lenguaje visual con supervisión de texto ruidoso".
ICML(2021)
[PDF] - ClipBERT : "Menos es más: ClipBERT para el aprendizaje de idiomas y vídeos mediante muestreo disperso".
CVPR(2021)
[PDF] [Código] - DALL·E : "Generación de texto a imagen Zero-Shot".
arXiv(2021)
[PDF] [Código] - CLIP : "Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural".
arXiv(2021)
[PDF] [Código] - IPT : "Transformador de procesamiento de imágenes previamente entrenado".
CVPR(2021)
[PDF] [Código] - CvT : "CvT: Introducción de convoluciones a transformadores de visión".
ICCV(2021)
[PDF] [Código] - "Ampliación del aprendizaje de representación visual y del lenguaje visual con supervisión de texto ruidoso".
ICML(2021)
[PDF] - TERA : "TERA: Aprendizaje autosupervisado de la representación del codificador transformador para el habla".
TASLP(2021)
[PDF] [Código] - CaiT : "Profundizando con Image Transformers".
ICCV(2021)
[PDF] [Código] - ViViT : "ViViT: un transformador de visión de vídeo".
ICCV(2021)
[PDF] [Código] - VirTex : "VirTex: aprendizaje de representaciones visuales a partir de anotaciones textuales".
CVPR(2021)
[PDF] [Código] - M6 : "M6: Megatransformador multitarea multimodalidad a multimodalidad para preentrenamiento unificado".
KDD(2021)
[PDF] - "Sondeo intermodalidad: análisis visual con autoatención para el preentrenamiento de visión y lenguaje".
NeurIPS(2021)
[PDF] - GilBERT : "GilBERT: Preentrenamiento generativo de visión-lenguaje para tareas visual-lingüísticas incompletas de modalidad".
SIGIR(2021)
[PDF]
Recuperación de información
- ORQA : "Recuperación latente para respuestas a preguntas de dominio abierto débilmente supervisadas".
ACL(2019)
[PDF] - REINO : "REINO: Preentrenamiento del modelo de lenguaje aumentado de recuperación".
arXiv(2020)
[PDF] - RAG : "Generación de recuperación aumentada para tareas de PNL intensivas en conocimiento".
NeurIPS(2020)
[PDF] [Código] - DPR : "Recuperación de pasajes densos para responder preguntas en dominio abierto".
EMNLP(2020)
[PDF] [Código] - "Aprovechando la recuperación de pasajes con modelos generativos para responder preguntas de dominio abierto".
EACL(2021)
[PDF] [Código]
Código
- CodeT5 : "CodeT5: modelos de codificador-decodificador unificados preentrenados con reconocimiento de identificador para la comprensión y generación de código".
EMNLP(2021)
[PDF] [Código] - Codex : "Evaluación de modelos de lenguaje grandes entrenados en código".
arXiv(2021)
[PDF] [Código]
Otros
- ReasonBERT : "ReasonBERT: precapacitado para razonar con supervisión a distancia".
EMNLP(2021)
[PDF] [Código] - "Codificadores automáticos de cuello de botella de oraciones de modelos de lenguaje Transformer".
EMNLP(2021)
[PDF] [Código] - "La aritmética mejora la alfabetización de los modelos lingüísticos".
EMNLP(2021)
[PDF] [Código] - EnsLM : "EnsLM: modelo de lenguaje conjunto para la diversidad de datos mediante agrupación semántica".
ACL(2021)
[PDF] [Código] - "Decodificación reflexiva: más allá de la generación unidireccional con modelos de lenguaje disponibles".
ACL(2021)
[PDF] [Código] - BERTAC : "BERTAC: Mejora de modelos de lenguaje basados en transformadores con redes neuronales convolucionales preentrenadas de manera adversa".
ACL(2021)
[PDF] [Código] - "Comprensión del lenguaje natural con BERT que preserva la privacidad".
CIKM(2021)
[PDF] - BANG : "BANG: uniendo la generación autorregresiva y no autorregresiva con un preentrenamiento a gran escala".
ICML(2021)
[PDF] [Código]
Análisis PLM
Conocimiento
- "¿Qué mira BERT? Un análisis de la atención de BERT".
BlackBoxNLP(2019)
[PDF] [Código] - "BERT redescubre el canal de PNL clásico".
ACL(2019)
[PDF] - "¿Qué tan multilingüe es BERT multilingüe?".
ACL(2019)
[PDF] - "Una sonda estructural para encontrar sintaxis en representaciones de palabras".
NAACL(2019)
[PDF] [Código] - "¿Modelos de lenguaje como bases de conocimiento?".
EMNLP(2019)
[PDF] [Código] - "¿Qué aprende BERT sobre la estructura del lenguaje?".
ACL(2019)
[PDF] [Código] - "Conocimiento lingüístico y transferibilidad de representaciones contextuales".
NAACL(2019)
[PDF] - "Evaluación de las habilidades sintácticas de BERT".
arXiv(2019)
[PDF] [Código] - "Sondeo de la comprensión de la red neuronal de argumentos del lenguaje natural"
ACL(2019)
[PDF] - "¿Cuán contextuales son las representaciones de palabras contextualizadas? Comparación de la geometría de incrustaciones BERT, ELMo y GPT-2".
EMNLP(2019)
[PDF] - "Visualización y medición de la geometría de BERT".
NeurIPS(2019)
[PDF] - "Diseño e interpretación de sondas con tareas de control".
EMNLP(2019)
[PDF] - "Open Sesame: Adentrarse en el conocimiento lingüístico de BERT".
BlackboxNLP(2019)
[PDF] [Código] - "¿Qué se aprende del contexto? Investigación de la estructura de la oración en representaciones de palabras contextualizadas".
ICLR(2019)
[PDF] [Código] - "Minería de conocimientos de sentido común a partir de modelos previamente entrenados".
EMNLP(2019)
[PDF] - "¿Los modelos de PNL conocen números? Sondeo de aritmética en incrustaciones".
EMNLP(2019)
[PDF] - "Sobre la transferibilidad multilingüe de representaciones monolingües".
ACL(2020)
[PDF] - "Capacidad interlingüística de BERT multilingüe: un estudio empírico".
ICLR(2020)
[PDF] [Código] - "Lo que no es BERT: lecciones de un nuevo conjunto de diagnósticos psicolingüísticos para modelos de lenguaje".
TACL(2020)
[PDF] [Código] - "¿Cuánto conocimiento se puede incluir en los parámetros de un modelo de lenguaje?".
EMNLP(2020)
[PDF] [Código] - "¿Cómo podemos saber qué saben los modelos lingüísticos?".
TACL(2020)
[PDF] [Código] - "oLMpics: sobre qué capturas de preentrenamiento del modelo de lenguaje".
TACL(2020)
[PDF] [Código] - "Sondeo teórico de la información con longitud mínima de descripción".
EMNLP(2020)
[PDF] [Código] - "Inducir el conocimiento relacional desde BERT".
AAAI(2020)
[PDF] - AutoPrompt : "AutoPrompt: obtención de conocimientos a partir de modelos de lenguaje con indicaciones generadas automáticamente".
EMNLP(2020)
[PDF] [Código] - "Estructura lingüística emergente en redes neuronales artificiales entrenadas por autosupervisión".
PNAS(2020)
[PDF] - "Evaluación del sentido común en modelos de lenguaje previamente entrenados".
AAAI(2020)
[PDF] [Código] - "Inducir el conocimiento relacional desde BERT".
AAAI(2020)
[PDF] - "Edición de conocimientos fácticos en modelos lingüísticos".
EMNLP(2021)
[PDF] [Código] - "¿Cuántos datos de preentrenamiento necesitan los modelos de lenguaje para aprender la sintaxis?".
EMNLP(2021)
[PDF] - "Las madrastras son malas y los académicos son pretenciosos: ¿Qué aprenden sobre ti los modelos de lenguaje previamente entrenados?".
EMNLP(2021)
[PDF] [Código] - "Poner palabras en boca de BERT: navegar por espacios vectoriales contextualizados con pseudopalabras".
EMNLP(2021)
[PDF] [Código] - "Efectos de la frecuencia sobre el aprendizaje de reglas sintácticas en Transformers".
EMNLP(2021)
[PDF] [Código] - "Explorando el papel de las representaciones de tokens BERT para explicar los resultados del sondeo de oraciones".
EMNLP(2021)
[PDF] [Código] - "¿Cómo se sorprende BERT? Detección por capas de anomalías lingüísticas".
ACL(2021)
[PDF] [Código] - "Representaciones implícitas de significado en el modelo de lenguaje neuronal".
ACL(2021)
[PDF] [Código] - "¿Adivina con conocimiento o con conocimiento? Revisando los modelos de lenguaje como bases de conocimiento".
ACL(2021)
[PDF] [Código]
Robustez
- "Disparadores adversarios universales para atacar y analizar la PNL".
EMNLP(2019)
[PDF] [Código] - "Los transformadores previamente entrenados mejoran la robustez fuera de distribución".
ACL(2020)
[PDF] [Código] - BERT-ATTACK : "BERT-ATTACK: Ataque adversario contra BERT usando BERT".
EMNLP(2020)
[PDF] [Código] - "¿Es BERT realmente sólido? Una base sólida para el ataque del lenguaje natural a la clasificación y vinculación del texto".
AAAI(2020)
[PDF] [Código] - "El diablo está en los detalles: trucos simples mejoran la generalización sistemática de los transformadores".
EMNLP(2021)
[PDF] [Código] - "Clasificar el ruido: probar la solidez del procesamiento de la información en modelos de lenguaje previamente entrenados".
EMNLP(2021)
[PDF] [Código]
Escasez
- "¿Son realmente dieciséis cabezas mejores que una?".
NeurIPS(2019)
[PDF] [Código] - "Análisis de la autoatención de múltiples cabezales: los cabezales especializados hacen el trabajo pesado, el resto se puede podar".
ACL(2019)
[PDF] [Código] - "Revelando los oscuros secretos de BERT".
EMNLP(2019)
[PDF] - "La hipótesis del billete de lotería para redes BERT previamente capacitadas".
NeurIPS(2020)
[PDF] [Código] - "Cuando BERT juega a la lotería, todos los billetes ganan".
EMNLP(2020)
[PDF] [Código]
Otros
- "Leyes de escala para modelos de lenguaje neuronal".
arXiv(2020)
[PDF] - "Extracción de datos de formación de modelos de lenguaje grandes".
arXiv(2020)
[PDF] [Código] - "Sobre los peligros de los loros estocásticos: ¿pueden los modelos de lenguaje ser demasiado grandes?".
FACCT(2021)
[PDF] - "Extracción de datos de formación de modelos de lenguaje grandes".
USENIX(2021)
[PDF] [Código] - "Modelado de lenguaje enmascarado y la hipótesis distributiva: el orden de las palabras importa, entrenamiento previo para los pequeños".
EMNLP(2021)
[PDF] [Código] - "Efectos del crecimiento de la norma de parámetros durante el entrenamiento del transformador: sesgo inductivo del descenso de gradiente".
EMNLP(2021)
[PDF] [Código] - "Gradientes integrados discretizados para explicar modelos de lenguaje".
EMNLP(2021)
[PDF] [Código] - "¿Los modelos de lenguaje de largo alcance utilizan realmente un contexto de largo alcance?".
EMNLP(2021)
[PDF] - "Competencia de formas de superficie: por qué la respuesta de mayor probabilidad no siempre es correcta".
EMNLP(2021)
[PDF] [Código] - "Incorporación de capas residuales y de normalización en el análisis de modelos de lenguaje enmascarado".
EMNLP(2021)
[PDF] [Código] - "La longitud de la secuencia es un dominio: sobreajuste basado en la longitud en modelos de transformadores".
EMNLP(2021)
[PDF] - "¿Son las convoluciones preentrenadas mejores que los transformadores preentrenados?".
ACL(2021)
[PDF] - "Los artefactos posicionales se propagan a través de incrustaciones de modelos de lenguaje enmascarado".
ACL(2021)
[PDF] - "¿Cuándo se necesitan miles de millones de palabras de datos de preentrenamiento?".
ACL(2021)
[PDF] [Código] - "BERT es para la PNL lo que AlexNet es para CV: ¿Pueden los modelos de lenguaje previamente entrenados identificar analogías?".
ACL(2021)
[PDF] [Código] - "Examen del sesgo inductivo de modelos de lenguaje neuronal con lenguajes artificiales".
ACL(2021)
[PDF] [Código] - "¿Por qué los modelos de lenguaje previamente entrenados ayudan en las tareas posteriores? Un análisis de la sintonización rápida y principal".
NeurIPS(2021)
[PDF]
PLM eficiente
Capacitación
- RoBERTa : "RoBERTa: un enfoque de preentrenamiento BERT sólidamente optimizado".
arXiv(2019)
[PDF] [Código] - "Capacitación eficiente de BERT mediante apilamiento progresivo".
ICML(2019)
[PDF] [Código] - Megatron-LM : "Megatron-LM: entrenamiento de modelos de lenguaje de parámetros multimillonarios utilizando el paralelismo de modelos".
arXiv(2019)
[PDF] [Código] - ELECTRA : "ELECTRA: codificadores de texto de entrenamiento previo como discriminadores en lugar de generadores".
ICLR(2020)
[PDF] [Código] - "Optimización de grandes lotes para el aprendizaje profundo: capacitación de BERT en 76 minutos".
ICLR(2020)
[PDF] [Código] - GShard : "GShard: escalamiento de modelos gigantes con computación condicional y fragmentación automática".
arXiv(2020)
[PDF] - Administrador : "Comprender la dificultad de entrenar transformadores".
EMNLP(2020)
[PDF] [Código] - ZeRO : "ZeRO: optimizaciones de memoria para entrenar modelos de billones de parámetros".
SC20: International Conference for High Performance Computing, Networking, Storage and Analysis
[PDF] [Código] - Transformadores de conmutación : "Transformadores de conmutación: escalamiento a modelos de billones de parámetros con escasez simple y eficiente".
arXiv(2021)
[PDF] [Código] - "Cómo formar BERT con un presupuesto académico".
EMNLP(2021)
[PDF] - "Optimización de transformadores más profundos en conjuntos de datos pequeños".
ACL(2021)
[PDF] [Código] - "EarlyBERT: formación BERT eficiente mediante billetes de lotería anticipados".
ACL(2021)
[PDF] [Código]
Inferencia
- "BERT pierde paciencia: inferencia rápida y sólida con salida anticipada".
NeurIPS(2020)
[PDF] [Código] - GAML-BERT : "GAML-BERT: Mejora de la salida temprana de BERT mediante el aprendizaje mutuo alineado con gradientes".
EMNLP(2021)
[PDF] - "Modelos eficientes de lenguaje del vecino más cercano".
EMNLP(2021)
[PDF] [Código] - GhostBERT : "GhostBERT: genere más funciones con operaciones económicas para BERT".
ACL(2021)
[PDF] [Código] - LeeBERT : "LeeBERT: Salida anticipada aprendida para BERT con optimización entre niveles".
ACL(2021)
[PDF] - "Transformador de longitud adaptable: entrene una vez con caída de longitud, utilícelo en cualquier momento con la búsqueda".
ACL(2021)
[PDF] [Código] - "Destilación del conocimiento de BERT en redes neuronales simples totalmente conectadas para una recuperación vertical eficiente".
CIKM(2021)
[PDF]
Compresión
- DistilBERT : "DistilBERT, una versión destilada de BERT: más pequeño, más rápido, más barato y más ligero".
arXiv(2019)
[PDF] [Código] - PKD : "Destilación del conocimiento del paciente para la compresión del modelo BERT".
EMNLP(2019)
[PDF] [Código] - "Destilación del conocimiento específico de tareas de BERT en redes neuronales simples".
arXiv(2019)
[PDF] - Q8BERT : "Q8BERT: BERT de 8 bits cuantificado".
5th Workshop on Energy Efficient Machine Learning and Cognitive Computing - NeurIPS 2019
[PDF] - ALBERT : "ALBERT: Un BERT ligero para el aprendizaje autosupervisado de representaciones lingüísticas".
ICLR(2020)
[PDF] [Código] - TinyBERT : "TinyBERT: Destilación de BERT para la comprensión del lenguaje natural".
EMNLP(2020)
[PDF] [Código] - Layerdrop : "Reducción de la profundidad del transformador según demanda con caída estructurada".
ICLR(2020)
[PDF] [Código] - Q-BERT : "Q-BERT: Cuantización de BERT de precisión ultrabaja basada en arpillera".
AAAI(2020)
[PDF] - MobileBERT : "MobileBERT: un BERT compacto e independiente de tareas para dispositivos con recursos limitados".
ACL(2020)
[PDF] [Código] - "Comprimir BERT: estudiar los efectos de la poda de peso en el aprendizaje por transferencia".
5th Workshop on Representation Learning for NLP(2020)
[PDF] [Código] - MiniLM : "MiniLM: destilación profunda de autoatención para la compresión independiente de la tarea de transformadores previamente entrenados".
arXiv(2020)
[PDF] [Código] - FastBERT : "FastBERT: un BERT autodestilado con tiempo de inferencia adaptativo".
ACL(2020)
[PDF] [Código] - DeeBERT : "DeeBERT: salida temprana dinámica para acelerar la inferencia BERT".
ACL(2020)
[PDF] [Código] - "Compresión de modelos basados en transformadores a gran escala: un estudio de caso sobre BERT".
TACL(2021)
[PDF] - "Ganar la lotería con escasez continua".
NeurIPS(2020)
[PDF] [Código] - SqueezeBERT : "SqueezeBERT: ¿Qué puede enseñar la visión por computadora a la PNL sobre redes neuronales eficientes?".
SustaiNLP(2020)
[PDF] - Audio ALBERT : "Audio Albert: un Lite Bert para el aprendizaje autosupervisado de la representación de audio".
SLT(2021)
[PDF] [Código] - T2R : "Ajuste de transformadores previamente entrenados en RNN".
EMNLP(2021)
[PDF] [Código] - "Más allá de la precisión preservada: evaluación de la lealtad y la solidez de la compresión BERT".
EMNLP(2021)
[PDF] [Código] - Meta-KD : "Meta-KD: un marco de destilación de metaconocimiento para la compresión de modelos de lenguaje en todos los dominios".
ACL(2021)
[PDF] [Código] - "Supertickets en modelos de lenguaje previamente entrenados: de la compresión del modelo a la mejora de la generalización".
ACL(2021)
[PDF] [Código] - BinaryBERT : "BinaryBERT: superando el límite de la cuantificación de BERT".
ACL(2021)
[PDF] [Código] - AutoTinyBERT : "AutoTinyBERT: optimización automática de hiperparámetros para modelos de lenguaje preentrenados eficientes".
ACL(2021)
[PDF] [Código] - "La utilidad marginal disminuye: exploración del conocimiento mínimo para la destilación del conocimiento BERT".
ACL(2021)
[PDF] [Código] - "Permitir un ajuste ligero para la compresión de modelos de lenguaje previamente entrenados basado en operadores de productos matriciales".
ACL(2021)
[PDF] [Código] - NAS-BERT : "NAS-BERT: compresión BERT independiente de tareas y de tamaño adaptable con búsqueda de arquitectura neuronal".
KDD(2021)
[PDF]
Adaptación PLM
Dos etapas
- "Codificadores de oraciones en STILT: capacitación complementaria sobre tareas intermedias de datos etiquetados".
arXiv(2018)
[PDF] [Código] - "¿Cómo ajustar BERT para la clasificación de texto?".
CCL(2019)
[PDF] - "No deje de realizar la formación previa: adapte los modelos de lenguaje a dominios y tareas".
ACL(2020)
[PDF] [Código] - "Aprendizaje por transferencia de tareas intermedias con modelos de lenguaje previamente entrenados: ¿cuándo y por qué funciona?".
ACL(2020)
[PDF] - "¿En qué capacitarse previamente? Selección eficiente de tareas intermedias".
EMNLP(2021)
[PDF] [Código] - "Sobre la influencia de las políticas de enmascaramiento en la formación previa intermedia".
EMNLP(2021)
[PDF] - TADPOLE : "TADPOLE: Preentrenamiento adaptado a tareas mediante AnOmaLy DEtection".
EMNLP(2021)
[PDF]
Multitarea
- MT-DNN : "Redes neuronales profundas multitarea para la comprensión del lenguaje natural".
ACL(2019)
[PDF] [Código] - "¡BAM! Redes multitarea nacidas de nuevo para la comprensión del lenguaje natural".
ACL(2019)
[PDF] [Código] - "Mejora de las redes neuronales profundas multitarea mediante la destilación del conocimiento para la comprensión del lenguaje natural".
arXiv(2019)
[PDF] [Código] - GradTS : "GradTS: un método de selección automática de tareas auxiliares basado en gradientes basado en redes de transformadores".
EMNLP(2021)
[PDF] - "¿Qué hay en tu cabeza? Comportamiento emergente en modelos de transformadores multitarea".
EMNLP(2021)
[PDF] - MTAdam : "MTAdam: Equilibrio automático de múltiples términos de pérdida de entrenamiento".
EMNLP(2021)
[PDF] - Muppet : "Muppet: representaciones masivas de tareas múltiples con ajuste previo".
EMNLP(2021)
[PDF] - "La hipótesis de las células madre: dilema detrás del aprendizaje multitarea con codificadores transformadores".
EMNLP(2021)
[PDF] [Código] - BERTGen : "BERTGen: Generación multitarea a través de BERT".
ACL(2021)
[PDF] [Código] - "Ajuste multitarea eficiente en parámetros para transformadores a través de hiperredes compartidas".
ACL(2021)
[PDF] [Código]
Adaptador
- "BERT y PAL: capas de atención proyectadas para una adaptación eficiente en el aprendizaje multitarea".
ICML(2019)
[PDF] [Código] - Adaptador : "Aprendizaje por transferencia eficiente de parámetros para PNL".
ICML(2019)
[PDF] [Código] - AdapterDrop : "AdapterDrop: sobre la eficiencia de los adaptadores en los transformadores".
EMNLP(2021)
[PDF] - "Sobre la eficacia del ajuste basado en adaptadores para la adaptación de modelos de lenguaje previamente entrenados".
ACL(2021)
[PDF] - "Aprender a generar adaptadores específicos de tareas a partir de la descripción de la tarea".
ACL(2021)
[PDF] [Código]
Inmediato
- PET : "Explotación de preguntas cerradas para clasificación de texto de pocas tomas e inferencia del lenguaje natural".
EACL(2021)
[PDF] [Código] - "No es sólo el tamaño lo que importa: los modelos de lenguaje pequeños también aprenden con pocas posibilidades".
NAACL(2021)
[PDF] [Código] - "Ajuste de prefijo: optimización de indicaciones continuas para la generación".
arXiv(2021)
[PDF] - LM-BFF : "Hacer que los modelos de lenguaje previamente entrenados sean mejores para los estudiantes con pocas posibilidades".
ACL(2021)
[PDF] [Código] - "¿Qué constituye buenos ejemplos en contexto para GPT-3?".
arXiv(2021)
[PDF] [Código] - "El poder de la escala para un ajuste rápido eficiente en los parámetros".
EMNLP(2021)
[PDF] [Código] - "Los modelos de lenguaje perfeccionados son estudiantes de cero posibilidades".
arXiv(2021)
[PDF] - "Calibrar antes de usar: mejorar el rendimiento de los modelos de lenguaje en pocas tomas".
ICML(2021)
[PDF] [Código] - TransPrompt : "TransPrompt: hacia un marco de indicaciones automático y transferible para la clasificación de texto en pocas tomas".
EMNLP(2021)
[PDF] [Código] - SFLM : "Revisando la autoformación para el modelo de aprendizaje del lenguaje con pocas posibilidades".
EMNLP(2021)
[PDF] [Código] - ADAPET : "Mejora y simplificación de la formación en explotación de patrones".
EMNLP(2021)
[PDF] [Código]
Otros
- "¿Sintonizar o no sintonizar? Adaptación de representaciones previamente entrenadas a diversas tareas".
RepL4NLP(2019)
[PDF] - "Un enfoque vergonzosamente simple para transferir el aprendizaje a partir de modelos de lenguaje previamente entrenados".
NAACL(2019)
[PDF] [Código] - "Ajuste de modelos de lenguaje previamente entrenados: inicializaciones de peso, pedidos de datos y detención anticipada".
arXiv(2020)
[PDF] - SMART : "SMART: Ajuste fino robusto y eficiente para modelos de lenguaje natural previamente entrenados mediante una optimización regularizada de principios".
EMNLP(2020)
[PDF] [Código] - "Revisando el ajuste fino de BERT de pocas muestras".
ICLR(2021)
[PDF] - Mirror-BERT : "Rápido, eficaz y autosupervisado: transformación de modelos de lenguaje enmascarado en codificadores léxicos y de oraciones universales".
EMNLP(2021)
[PDF] [Código] - "¿Preparar o anotar? Adaptación de dominio con un presupuesto limitado".
EMNLP(2021)
[PDF] [Código] - AVocaDo : "AVocaDo: estrategia para adaptar el vocabulario al dominio posterior".
EMNLP(2021)
[PDF] - AJUSTE INFANTIL : "Criar a un niño en un modelo de lenguaje amplio: hacia un ajuste eficaz y generalizable".
EMNLP(2021)
[PDF] [Código] - "Domesticación de modelos de lenguaje previamente entrenados con representaciones de N-gramas para la adaptación a dominios de bajos recursos".
ACL(2021)
[PDF] [Código] - LexFit : "LexFit: ajuste léxico de modelos de lenguaje previamente entrenados".
ACL(2021)
[PDF] [Código] - "La selección de contextos informativos mejora el ajuste del modelo de lenguaje".
ACL(2021)
[PDF] [Código] - "Un estudio empírico sobre la optimización de hiperparámetros para ajustar modelos de lenguaje previamente entrenados".
ACL(2021)
[PDF] [Código] - "¿Cómo deberían ajustarse los modelos de lenguaje previamente entrenados para lograr una robustez adversa?".
NeurIPS(2021)
[PDF] [Código]