Esta lista de artículos se centra en el análisis teórico y empírico de los modelos de lenguaje, especialmente los modelos de lenguaje grandes (LLM). Los artículos de esta lista investigan el comportamiento de aprendizaje, la capacidad de generalización y otras propiedades de los modelos lingüísticos mediante análisis teórico, análisis empírico o una combinación de ambos.
Alcance de esta lista:
Limitaciones de esta lista:
Estadísticas de esta lista de artículos:
Si tiene alguna sugerencia o desea contribuir, no dude en abrir un problema o una solicitud de extracción.
Para obtener detalles sobre cómo contribuir, consulte las pautas de contribución.
También puede compartir sus pensamientos y discutir con otros en las Discusiones.
Nota
Para la versión sin categoría, consulte aquí.
^ back to top ^
Categorías que se centran en diferentes fenómenos, propiedades y comportamientos observados en modelos de lenguaje grande (LLM) y modelos basados en transformadores.
^ back to top ^
Artículos centrados en el análisis teórico y empírico del aprendizaje en contexto en grandes modelos lingüísticos.
Aprendizaje demostrable en contexto con transformadores: un estudio de caso sobre regresión lineal [enlace en papel] 2024-11-04
Dake Bu; Wei Huang; Andi Han; Atsushi Nitanda; Taiji Suzuki; Qingfu Zhang; Hau San Wong
El transformador previamente entrenado aprende de manera eficiente funciones objetivo de baja dimensión en contexto [enlace en papel] 2024-11-04
Kazusato Oko; Canción Yujin; Taiji Suzuki; Denny Wu
Hacia la comprensión del aprendizaje en contexto versus el aprendizaje en peso [enlace en papel] 2024-10-30
Bryan Chan; Xinyi Chen; András György; Dale Schuurmans
Sobre el papel de la profundidad y el bucle para el aprendizaje en contexto con diversidad de tareas [enlace del documento] 2024-10-29
Khashayar Gatmiry; Nikunj Saunshi; Sashank J. Reddi; Stefanie Jegelka; Sanjiv Kumar
Mecanismos de procesamiento de símbolos para el aprendizaje en contexto en redes de transformadores [enlace en papel] 2024-10-23
Pablo Smolensky; Roldán Fernández; Zhenghao Herbert Zhou; Mattia Opper; Jianfeng Gao
¿Pueden los transformadores aprender en contexto el comportamiento de un sistema dinámico lineal? [enlace en papel] 2024-10-21
Usman Akram; Haris Vikalo
Leyes de escala bayesiana para el aprendizaje en contexto [enlace en papel] 2024-10-21
Aryaman Arora; Dan Jurafsky; Cristóbal Potts; Noé D. Goodman
Aprendizaje demostrable en contexto para una combinación de regresiones lineales utilizando transformadores [enlace en papel] 2024-10-18
Yanhao Jin; Krishnakumar Balasubramanian; Lifeng Lai
Aprendizaje en contexto y la navaja de Occam [enlace en papel] 2024-10-17
Eric Elmoznino; Tom Marty; Tejas Kasetty; Léo Gagnon; Sarthak Mittal; Mahan Fathi; Dhanya Sridhar; Guillaume Lajoie
Escalamiento de contexto versus escalamiento de tareas en el aprendizaje en contexto [enlace del documento] 2024-10-16
Amirhesam Abedsoltan; Adityanarayanan Radhakrishnan; Jingfeng Wu; Mijaíl Belkin
Evitando la dependencia exponencial: los transformadores en bucle aprenden de manera eficiente en contexto mediante un descenso de gradiente de varios pasos [enlace en papel] 2024-10-15
Bo Chen; Xiaoyu Li; Yingyu Liang; Zhenmei Shi; canción de zhao
Cómo los transformadores implementan cabezales de inducción: análisis de aproximación y optimización [enlace en papel] 2024-10-15
Mingze Wang; Ruoxi Yu; Weinan E; Lei Wu
Sobre la convergencia del entrenamiento de transformadores para la clasificación en contexto [enlace en papel] 2024-10-15
Wei Shen; Ruida Zhou; Jing Yang; Cong Shen
Los transformadores aprenden cadenas de Markov de orden variable en contexto [enlace en papel] 2024-10-07
Ruida Zhou; Chao Tian; Suhas Diggavi
Revisando el circuito de inferencia de aprendizaje en contexto en modelos de lenguaje grandes [enlace en papel] 2024-10-06
Hakaze Cho; Mariko Kato; Yoshihiro Sakai; Naoya Inoue
Clasificadores de transformadores capacitados generalizan y exhiben un sobreajuste benigno en contexto [enlace en papel] 2024-10-02
Spencer Frei; Gal Vardi
Los transformadores manejan la endogeneidad en la regresión lineal en contexto [enlace del documento] 2024-10-02
Hao Dong Liang; Krishnakumar Balasubramanian; Lifeng Lai
Presentación de cabezales de inducción: dinámica de entrenamiento demostrable y aprendizaje de funciones en transformadores [enlace en papel] 2024-09-10
Siyu Chen; Heejune Brillo; Tianhao Wang; Zhuoran Yang
Aprendizaje versus recuperación: el papel de los ejemplos en contexto en la regresión con LLM [enlace del documento] 2024-09-06
Aliakbar Nafar; Kristen Brent Venable; Parisa Kordjamshidi
Los transformadores son estudiantes en contexto no paramétricos óptimos Minimax [enlace en papel] 2024-08-22
Juno Kim; Tai Nakamaki; Taiji Suzuki
Memorización en el aprendizaje en contexto [enlace en papel] 2024-08-21
Shahriar Golchin; Mihai Surdeanu; Steven Bethard; Eduardo Blanco; Ellen Riloff
Aprendizaje en contexto con representaciones: generalización contextual de transformadores entrenados [enlace en papel] 2024-08-19
Tong Yang; Yu Huang; Yingbin Liang; Yujie Chi
Atribución de conjuntos de datos de entrenamiento rápido mediante aprendizaje en contexto [enlace en papel] 2024-08-14
Milad Fotouhi; Mohammad Taha Bahadori; Oluwaseyi Feyisetan; Payman Arabshahi; David Heckerman
¿Cómo utilizan los transformadores la atención de múltiples cabezas en el aprendizaje en contexto? Un estudio de caso sobre regresión lineal dispersa [enlace del artículo] 2024-08-08
Xingwu Chen; Lei Zhao; Difan Zou
Los transformadores son estudiantes universales en contexto [enlace en papel] 2024-08-02
Takashi Furuya; Martín V. de Hoop; Gabriel Peyré
La regresión polinómica como tarea para comprender el aprendizaje en contexto mediante el ajuste y la alineación [enlace del documento] 2024-07-27
Max Wilcoxson; Morten Svendgard; Ria Doshi; Dylan Davis; Reya Vir; anant sahai
Revelando el aprendizaje en contexto: un sistema de coordenadas para comprender su mecanismo de funcionamiento [enlace en papel] 2024-07-24
Anhao Zhao; Fanghua Ye; Jinlan Fu; Xiao Yu Shen
El transformador de una capa aprende demostrablemente al vecino más cercano en contexto [enlace en papel] 2024-07-24
Zihao Li; Yuan Cao; Cheng Gao; Yihan Él; Han Liu; Jason M. Klusowski; Fan de Jianqing; Mengdi Wang
¿Cuándo pueden los transformadores generalizar composicionalmente en contexto? [enlace en papel] 2024-07-17
Seijin Kobayashi; Simón Schug; Yasir Akram; Florián Redhardt; Johannes von Oswald; Razvan Pascanu; Guillaume Lajoie; Juan Sacramento
En contexto Aprendizaje en contexto con procesos neuronales transformadores [enlace en papel] 2024-06-19
Mateo Ashman; Cristiana Diaconu; Adrián Weller; Richard Turner
Sondeo de los límites de decisión del aprendizaje en contexto en modelos de lenguaje grandes [enlace en papel] 2024-06-17
Siyan Zhao; Tung Nguyen; Aditya Grover
Sopa de estado: aprendizaje, recuperación y combinación de habilidades en contexto [enlace en papel] 2024-06-12
Maciej Pióro; Maciej Wołczyk; Razvan Pascanu; Johannes von Oswald; Juan Sacramento
Estimación de la tasa de alucinaciones de la IA generativa [enlace en papel] 2024-06-11
Andrés Jesson; Nicolás Beltrán-Vélez; Quentin Chu; Sweta Karlekar; Jannik Kossen; Yarin Gal; John P. Cunningham; David Blei
Los BERT son estudiantes generativos en contexto [enlace en papel] 2024-06-07
David Samuel
Mejora del rendimiento del aprendizaje en contexto con solo la poda de peso basada en SVD: una perspectiva teórica [enlace del documento] 2024-06-06
Xinhao Yao; Xiaolin Hu; Shenzhi Yang; Yong Liu
¿Qué aprenden los modelos de lenguaje en contexto? La hipótesis de la tarea estructurada [enlace del artículo] 2024-06-06
Jiaoda Li; Yifan Hou; Mrinmaya Sachan; Ryan Cotterell
Conversión exacta del aprendizaje en contexto para modelar pesos en transformadores de atención linealizada [enlace en papel] 2024-06-05
Brian K. Chen; Tianyang Hu; Hui Jin; Hwee Kuan Lee; Kenji Kawaguchi
Aprender a asimilar: aparición del aprendizaje en contexto y la composición de habilidades en tareas aritméticas modulares [enlace en papel] 2024-06-04
Tianyu Él; Darshil Doshi; Aritra Das; Andrey Grómov
¿Por qué los modelos de lenguaje más grandes realizan el aprendizaje en contexto de manera diferente? [enlace en papel] 2024-05-30
Zhenmei Shi; Jun Yi Wei; Zhuoyan Xu; Yingyu Liang
¿Es suficiente el aprendizaje en contexto para seguir la instrucción en los LLM? [enlace en papel] 2024-05-30
Hao Zhao; Maksym Andriushchenko; Francisco Croce; Nicolás Flammarion
¿Aprender las variables latentes adecuadas mejora necesariamente el aprendizaje en contexto? [enlace en papel] 2024-05-29
Sarthak Mittal; Eric Elmoznino; Léo Gagnon; Sangnie Bhardwaj; Dhanya Sridhar; Guillaume Lajoie
Una teoría del aprendizaje en contexto en Transformers [enlace en papel] 2024-05-29
Yifei Wang; Yuyang Wu; Zeming Wei; Stefanie Jegelka; Yisen Wang
Sobre la optimización de Mesa en transformadores entrenados autorregresivamente: aparición y capacidad [enlace en papel] 2024-05-27
Chenyu Zheng; Wei Huang; Rongzhen Wang; Guoqiang Wu; Jun Zhu; Chongxuan Li
Aprendizaje en contexto de Transformer para datos categóricos [enlace en papel] 2024-05-27
Aaron T. Wang; Ricardo Henao; Lorenzo Carin
Adaptación automática del dominio por parte de transformadores en el aprendizaje en contexto [enlace en papel] 2024-05-27
Ryuichiro Hataya; Kota Matsui; Masaaki Imaizumi
Unificación de la selección y compresión de demostración para el aprendizaje en contexto [enlace en papel] 2024-05-27
juan gao
Sobre la solidez del ruido del aprendizaje en contexto para la generación de texto [enlace en papel] 2024-05-27
Hongfu Gao; Feipeng Zhang; Wenyu Jiang; Jun Shu; Feng Zheng; Hongxin Wei
Los MLP aprenden en contexto [enlace en papel] 2024-05-24
William L. Tong; Cengiz Pehlevan
Hacia una mejor comprensión de la capacidad de aprendizaje en contexto a partir de la cuantificación de la incertidumbre en contexto [enlace del documento] 2024-05-24
Shang Liu; Zhongze Cai; Guanting Chen; Xiaocheng Li
¿Pueden los transformadores en bucle aprender a implementar el descenso de gradiente de varios pasos para el aprendizaje en contexto? [enlace en papel] 2024-05-02
Khashayar Gatmiry; Nikunj Saunshi; Sashank J. Reddi; Stefanie Jegelka; Sanjiv Kumar
Aprendizaje en contexto sobre clases de funciones presentado para transformadores [enlace en papel] 2024-05-02
Zhijie Wang; Bo Jiang; Shuai Li
Aprendizaje en contexto con modelos de contexto largo: una exploración en profundidad [enlace del documento] 2024-04-30
Amanda Bertsch; Maor Ivgi; Uri Alón; Jonathan Berant; Mateo R. Gormley; Graham Neubig
¿Qué debe funcionar bien en un cabezal de inducción? Un estudio mecanicista de los circuitos de aprendizaje en contexto y su formación [enlace en papel] 2024-04-10
Aaditya K. Singh; Ted Moskovitz; Félix Hill; Stephanie CY Chan; Andrew M. Sajonia
¿Se requiere atención para ICL? Explorando la relación entre la arquitectura del modelo y la capacidad de aprendizaje en contexto [enlace del documento] 2024-04-01
Iván Lee; Nan Jiang; Taylor Berg-Kirkpatrick
Dinámica de entrenamiento de la atención Softmax de múltiples cabezales para el aprendizaje en contexto: aparición, convergencia y optimización [enlace en papel] 2024-02-29
Siyu Chen; Heejune Brillo; Tianhao Wang; Zhuoran Yang
Cómo los transformadores aprenden la estructura causal con el descenso de gradiente [enlace en papel] 2024-02-22
Eshaan Nichani; Álex Damián; Jason Lee
Aprendizaje en contexto de un bloque transformador lineal: beneficios del componente MLP y la inicialización GD en un solo paso [enlace en papel] 2024-02-22
Ruiqi Zhang; Jingfeng Wu; Peter L. Bartlett
Identificación de cabezas de inducción semántica para comprender el aprendizaje en contexto [enlace del documento] 2024-02-20
Jie Ren; Qipeng Guo; Cuelga Yan; Dongrui Liu; Xipeng Qiu; Dahua Lin
¿Cómo realizan los Transformers el aprendizaje autorregresivo en contexto? [enlace en papel] 2024-02-08
Michael E. Sander; Raja Giryes; Taiji Suzuki; Mathieu Blondel; Gabriel Peyré
¿Puede Mamba aprender a aprender? Un estudio comparativo sobre tareas de aprendizaje en contexto [enlace en papel] 2024-02-06
Parque Jongho; Parque Jaeseung; Zheyang Xiong; Nayoung Lee; Jaewoong Cho; Samet Oymak; Kangwook Lee; Dimitris Papailiopoulos
Un análisis teórico de la información del aprendizaje en contexto [enlace del artículo] 2024-01-28
Hong Jun Jeon; Jason D. Lee; Qi Lei; Benjamín Van Roy
La naturaleza transitoria del aprendizaje emergente en contexto en Transformers [enlace en papel] 2023-12-11
Aaditya K. Singh; Stephanie CY Chan; Ted Moskovitz; Beca Erin; Andrew M. Sajonia; Félix colina
Funciones de aprendizaje en contexto con número variable de mínimos [enlace en papel] 2023-11-21
David Oniani; Yanshan Wang
Explorando la relación entre el aprendizaje en contexto y el ajuste de la instrucción [enlace en papel] 2023-11-17
Hanyu Duan; Yixuan Tang; Yi Yang; Ahmed Abbasi; Kar Yan Tam
¿Cuándo se queda corto el aprendizaje en contexto y por qué? Un estudio sobre tareas con muchas especificaciones [enlace en papel] 2023-11-15
Hao Peng; Xiaozhi Wang; Jianhui Chen; Weikai Li; Yunjia Qi; Zimu Wang; Zhili Wu; Kaisheng Zeng; Bin Xu; Lei Hou; Juanzi Li
El aprendizaje en contexto se generaliza, pero no siempre de manera sólida: el caso de la sintaxis [enlace en papel] 2023-11-13
Aarón Mueller; Albert Webson; Jackson pequeño; Tal Linzen
Los transformadores aprenden a implementar el descenso de gradiente precondicionado para el aprendizaje en contexto [enlace en papel] 2023-11-09
Kwangjun Ahn; Xiang Cheng; Hadi Daneshmand; Suvrit Sra
Los transformadores aprenden métodos de optimización de orden superior para el aprendizaje en contexto: un estudio con modelos lineales [enlace en papel] 2023-10-26
Deqing Fu; Tian-Qi Chen; Robin Jia; Vatsal Sharan
El aprendizaje en contexto crea vectores de tareas [enlace en papel] 2023-10-24
Roee Hendel; Mor Geva; Amir Globerson
Vectores de funciones en modelos de lenguaje grandes [enlace en papel] 2023-10-23
Eric Todd; Millicent L. Li; Arnab Sen Sharma; Aarón Mueller; Byron C. Wallace; David Bau
El aprendizaje en contexto con Transformer es realmente equivalente a un patrón de aprendizaje contrastivo [enlace en papel] 2023-10-19
Rui Feng Ren; Yong Liu
Los transformadores entrenados aprenden modelos lineales en contexto [enlace en papel] 2023-10-19
Ruiqi Zhang; Spencer Frei; Peter L. Bartlett
¿Cómo aprenden los transformadores en contexto más allá de las funciones simples? Un estudio de caso sobre el aprendizaje con representaciones [enlace en papel] 2023-10-16
Tianyu Guo; Wei Hu; Canción Mei; Huan Wang; Caiming Xiong; Silvio Savarese; Yubai
Comprensión del aprendizaje en contexto en transformadores y LLM mediante el aprendizaje de funciones discretas [enlace en papel] 2023-10-13
Satwik Bhattamishra; Arkil Patel; Phil Blunsom; Varun Kanade
¿Cuántas tareas de preentrenamiento se necesitan para el aprendizaje en contexto de la regresión lineal? [enlace en papel] 2023-10-13
Jingfeng Wu; Difan Zou; Zixiang Chen; Vladimir Braverman; Quanquan Gu; Peter Bartlett
El aprendizaje en contexto aprende a etiquetar relaciones, pero no es un aprendizaje convencional [enlace en papel] 2023-10-13
Jannik Kossen; Yarin Gal; Tom Rainforth
Convergencia de transformadores en contexto [enlace en papel] 2023-10-13
Yu Huang; Yuan Cheng; Yingbin Liang
Aprendizaje en contexto a través del prisma bayesiano [enlace del artículo] 2023-10-13
Madhur Panwar; Kabir Ahuja; Navin Goyal
¿Los transformadores previamente entrenados realmente aprenden en contexto mediante gradiente de descenso? [enlace en papel] 2023-10-12
Lingfeng Shen; Aayush Mishra; Daniel Khashabi
¿Qué y cómo aprende el aprendizaje en contexto? Promedio, parametrización y generalización del modelo bayesiano [enlace en papel] 2023-10-10
Yufeng Zhang; Fengzhuo Zhang; Zhuoran Yang; Zhaoran Wang
Explicación del aprendizaje emergente en contexto como regresión del núcleo [enlace del documento] 2023-10-05
Chi Han; Ziqi Wang; Han Zhao; Heng Ji
CausalLM no es óptimo para el aprendizaje en contexto [enlace en papel] 2023-09-02
Nan Ding; Tomer Levinboim; Jialin Wu; Sebastián Goodman; Radu Soricut
Un paso del descenso de gradiente es probablemente el alumno óptimo en contexto con una capa de autoatención lineal [enlace en papel] 2023-07-07
Arvind Mahankali; Tatsunori B. Hashimoto; Tengyu Ma
Transformadores como estadísticos: aprendizaje demostrable en contexto con selección de algoritmos en contexto [enlace en papel] 2023-07-06
Yubai; Fan Chen; Huan Wang; Caiming Xiong; canción mei
Los transformadores aprenden en contexto mediante el descenso de gradientes [enlace en papel] 2023-06-15
Johannes von Oswald; Eyvind Niklasson; Ettore Randazzo; Joao Sacramento; Alejandro Mordvintsev; Andréi Zhmoginov; Max Vladymyrov
La cercanía del aprendizaje en contexto y el cambio de peso para la regresión Softmax [enlace en papel] 2023-04-26
Shuai Li; canción de Zhao; Yu Xia; Tong Yu; Tianyi Zhou
Una teoría del aprendizaje emergente en contexto como inducción de estructura implícita [enlace del artículo] 2023-03-14
Michael Hahn; Navin Goyal
La capacidad de aprendizaje del aprendizaje en contexto [enlace en papel] 2023-03-14
Noam Wies; Yoav Levine; Amnón Shashua
¿Qué pueden aprender los transformadores en contexto? Un estudio de caso de clases de funciones simples [enlace en papel] 2023-01-14
Shivam Garg; Dimitris Tsipras; Percy Liang; Gregorio Valiente
Los transformadores generalizan de manera diferente a la información almacenada en contexto versus en pesos [enlace en papel] 2022-10-13
Stephanie CY Chan; Ishita Dasgupta; Junkyung Kim; Dharshan Kumaran; Andrew K. Lampinen; Félix colina
Jefes de inducción y aprendizaje en contexto [enlace en papel] 2022-09-24
Catalina Olsson; Nelson Elhage; Neel Nanda; Nicolás José; Nova DasSarma; Tom Henighan; Ben Mann; Amanda Askell; Yuntao Bai; Anna Chen; Tom Conerly; Drenaje del amanecer; Ganguli profundo; Zac Hatfield-Dodds; Danny Hernández; Scott Johnston; Andy Jones; Jackson Kernion; Liane Lovitt; Kamal Ndousse; Darío Amodei; Tom Brown; Jack Clark; Jared Kaplan; Sam McCandlish; Chris Olah
^ back to top ^
Artículos que analizan el fenómeno de la cadena de pensamiento en grandes modelos lingüísticos, explorando perspectivas teóricas y empíricas.
Qué sucedió en las capas de LLM cuando se capacitó para el pensamiento rápido versus el pensamiento lento: una perspectiva de gradiente [enlace en papel] 2024-10-31
Ming Li; Yan Hong Li; Tianyi Zhou
Una comprensión teórica de la cadena de pensamiento: razonamiento coherente y demostración consciente de los errores [enlace en papel] 2024-10-21
Yingqian Cui; Pengfei Él; Xianfeng Tang; Qi Él; Chen Luo; Jiliang Tang; Yue Xing
De una dependencia escasa a una atención escasa: revelando cómo la cadena de pensamiento mejora la eficiencia de las muestras de transformadores [enlace en papel] 2024-10-07
Kaiyue Wen; Huaqing Zhang; Hongzhou Lin; Jingzhao Zhang
Entrenamiento de transformadores no lineales para la inferencia de cadena de pensamiento: un análisis de generalización teórica [enlace en papel] 2024-10-03
Hongkang Li; Meng Wang; Songtao Lu; Xiao Dong Cui; Pin-Yu Chen
Autoregresivo + Cadena de pensamiento (CoT) ≃ Recurrente: el papel de la recurrencia en los modelos de lenguaje y una revisión del transformador recurrente [enlace en papel] 2024-09-14
Xiang Zhang; Muhammad Abdul-Mageed; Laks VS Lakshmanan
Revelando los fundamentos estadísticos de los métodos de estimulación de cadenas de pensamiento [enlace en papel] 2024-08-25
Xinyang Hu; Fengzhuo Zhang; Siyu Chen; Zhuoran Yang
Descifrando los factores que influyen en la eficacia de la cadena de pensamiento: probabilidad, memorización y razonamiento ruidoso [enlace en papel] 2024-07-01
Akshara Prabhakar; Thomas L. Griffiths; R. Thomas McCoy
Sobre la capacidad de representación de los modelos de lenguaje neuronal con razonamiento en cadena de pensamiento [enlace del artículo] 2024-06-20
Franz Nowak; Anej Svete; Alexandra Butoi; Ryan Cotterell
Cabeza de iteración: un estudio mecanicista de la cadena de pensamiento [enlace en papel] 2024-06-04
Vivien Cabannes; Carlos Arnal; Wassim Bouaziz; Alicia Yang; Francois Charton; Julia Kempe
Pensemos punto por punto: computación oculta en modelos de lenguaje transformador [enlace en papel] 2024-04-24
Jacob Pfau; William Merrill; Samuel R. Bowman
La cadena de pensamiento permite a los transformadores resolver problemas inherentemente seriales [enlace en papel] 2024-02-20
Zhiyuan Li; Hong Liu; Denny Zhou; Tengyu Ma
Hacia revelar el misterio detrás de la cadena de pensamiento: una perspectiva teórica [enlace en papel] 2023-12-22
Guhao Feng; Bohang Zhang; Yuntian Gu; Haotian Ye; Di él; Li Wei Wang
¿Por qué los modelos de lenguaje grandes pueden generar cadenas de pensamientos correctas? [enlace en papel] 2023-10-20
Rasúl Tutunov; Antoine Grosnit; Juliusz Ziomek; Jun Wang; Haitham Bou-Ammar
¿Cómo implementan los modelos de lenguaje grandes la cadena de pensamiento? [enlace en papel] 2023-10-13
Yiqun Wang; Sile Hu; Yonggang Zhang; Xiang Tian; Xuesong Liu; Yaowu Chen; Xu Shen; Jieping Ye
El poder expresivo de los transformadores con cadena de pensamiento [enlace en papel] 2023-10-13
William Merrill; Ashish Sabharwal
^ back to top ^
Artículos que examinan el fenómeno de las alucinaciones en modelos del lenguaje, incluidos análisis teóricos y empíricos.
No hay almuerzo gratis: límites fundamentales del aprendizaje de modelos generativos no alucinantes [enlace en papel] 2024-10-24
Changlong Wu; Ananth Grama; Wojciech Szpankowski
Imaginación compartida: los LLM alucinan por igual [enlace en papel] 2024-07-23
Yilun Zhou; Caiming Xiong; Silvio Savarese; Chien-Sheng Wu
Estimación de la tasa de alucinaciones de la IA generativa [enlace en papel] 2024-06-11
Andrés Jesson; Nicolás Beltrán-Vélez; Quentin Chu; Sweta Karlekar; Jannik Kossen; Yarin Gal; John P. Cunningham; David Blei
¿El ajuste de los LLM sobre nuevos conocimientos fomenta las alucinaciones? [enlace en papel] 2024-05-09
Zorik Gekhman; Gal Yona; Roee Aharoni; Matán Eyal; Amir Feder; Rey Reichart; Jonathan Herzig
Mecanismos de alucinaciones no fácticas en modelos de lenguaje [enlace en papel] 2024-03-26
Lei Yu; Meng Cao; Jackie Chi Kit Cheung; yue dong
Ejemplos de ajuste desconocidos controlan cómo alucinan los modelos lingüísticos [enlace en papel] 2024-03-08
Katie Kang; Eric Wallace; Claire Tomlin; Aviral Kumar; Sergei Levine
La nitidez en contexto como alertas: una perspectiva de representación interna para la mitigación de las alucinaciones [enlace en papel] 2024-03-05
Shiqi Chen; Miao Xiong; Junteng Liu; Zhengxuan Wu; Teng Xiao; Siyang Gao; Junxian He
Los modelos de lenguaje calibrados deben alucinar [enlace en papel] 2023-11-24
Adam Tauman Kalai; Santosh S. Vempala
El curioso caso de la incontestabilidad alucinatoria: encontrar verdades en los estados ocultos de modelos de lenguaje grandes demasiado confiados [enlace en papel] 2023-10-18
Aviv Slobodkin; Ömer Goldman; Avi Caciularu; Ido Dagán; Shauli Ravfogel
^ back to top ^
Artículos que analizan el fenómeno de la maldición inversa en grandes modelos de lenguaje.
Hacia una comprensión teórica de la 'maldición inversa' a través de la dinámica del entrenamiento [enlace del artículo] 2024-05-07
Hanlin Zhu; Baihe Huang; Shaolun Zhang; Michael Jordán; Jiantao Jiao; Yuan Dong Tian; Estuardo Russell
La maldición de la reversión: los LLM formados en "A es B" no aprenden "B es A" [enlace en papel] 2024-04-04
Lukás Berglund; Meg Tong; Max Kaufmann; Mikita Balesni; Asa Cooper Stickland; Tomasz Korbak; Owain Evans
Una investigación de la ineficacia de los LLM para comprender las relaciones inversas [enlace en papel] 2023-12-01
Chengwen Qi; Bowen Li; Binyuan Hui; Bailin Wang; Jinyang Li; Jinwang Wu; Yuanjun Laili
Física de modelos de lenguaje: Parte 3.2, Manipulación del conocimiento [enlace en papel] 2023-09-25
Zeyuan Allen-Zhu; Yuanzhi Li
La maldición de la reversión: qué tokens predices subyacen a la maldición de la factorización y más [enlace en papel] 2023-06-07
Ouail Kitouni; Niklas Nolte; Diana Bouchacourt; Adina Williams; Mike Rabbat; Marcos Ibrahim
^ back to top ^
Artículos que exploran cómo el rendimiento del modelo aumenta con el tamaño del modelo, el tamaño de los datos o los recursos computacionales, y la aparición de habilidades inesperadas.
Descubriendo la teoría detrás del escalamiento de redes neuronales de 1 bit [enlace en papel] 2024-11-03
Majid Daliri; canción de Zhao; Chiwun Yang
¿Cómo se escala el tamaño de lote crítico en la capacitación previa? [enlace en papel] 2024-10-29
Hanlin Zhang; Depen Morwani; Nikhil Vyas; Jingfeng Wu; Difan Zou; Udaya Ghai; Decano Foster; Kakade falso
Una teoría de la información sobre la escala, el surgimiento y las mesetas del tamaño óptimo de la computación en modelos de lenguaje [enlace en papel] 2024-10-15
Anuj K. Nayak; Lav R. Varshney
Guía del autoestopista para la estimación de la ley de escala [enlace en papel] 2024-10-15
Leshem Joshen; Yang Zhang; jacob andreas
Leyes de escala en arquitecturas de modelos: un análisis comparativo de modelos densos y MoE en modelos de lenguaje grande [enlace de documento] 2024-10-08
Siqi Wang; Zhengyu Chen; Bei Li; Keqing Él; Min Zhang; Jingang Wang
Asimilando al borde de la separabilidad lineal [enlace en papel] 2024-10-06
Alon Beck; Noam Levi; Yohai Bar-Sinaí
Un estudio empírico de las leyes de escala para la transferencia [enlace en papel] 2024-08-30
Mateo Barnett
Un modelo de emergencia de percolación: análisis de transformadores entrenados en un lenguaje formal [enlace en papel] 2024-08-22
Ekdeep Singh Lubana; Kyogo Kawaguchi; Robert P. Dick; Hidenori Tanaka
Ley de escala con recocido de tasa de aprendizaje [enlace en papel] 2024-08-20
Tejido Howe; Venus Wang; Lu Wang
Ley de rendimiento de modelos de lenguajes grandes [enlace en papel] 2024-08-19
Chuhan Wu; Tang Ruiming
Las medidas de progreso basadas en la teoría de la información revelan que Grokking es una transición de fase emergente [enlace en papel] 2024-08-16
Kenzo Clauw; Sebastián Stramaglia; Daniele Marinazzo
Monos de lenguaje grande: cálculo de inferencia escalable con muestreo repetido [enlace en papel] 2024-07-31
Bradley Brown; Jordán Juravsky; Ryan Ehrlich; Ronald Clark; Quoc V. Le; Christopher Ré; Azalia Mirhoseini
Aparición de modelos no neuronales: asimilar la aritmética modular mediante el producto exterior de gradiente medio [enlace en papel] 2024-07-29
Neil Mallinar; Daniel Beaglehole; Libin Zhu; Adityanarayanan Radhakrishnan; Parthe Pandit; Mijaíl Belkin
Explorando las tendencias de escala en la solidez de los LLM [enlace en papel] 2024-07-25
Nicolás Howe; Michał Zajac; Ian McKenzie; Oskar Hollinsworth; Tom Tseng; Pierre-Luc Bacon; Adam Gleave
Comprensión de la interacción de escala, datos y sesgos en los modelos lingüísticos: un estudio de caso con BERT [enlace en papel] 2024-07-25
Mahoma Alí; Panda Swetasudha; Qinlan Shen; Michael Wick; Ari Kobren
Escalar leyes con vocabulario: los modelos más grandes merecen vocabularios más amplios [enlace en papel] 2024-07-18
Chaofan Tao; Qian Liu; Longxu Dou; Niklas Muennighoff; Zhongwei Wan; Ping Luo; Min Lin; Ngai Wong
¿Por qué asimilas? Un análisis teórico de la adición modular de Grokking [enlace en papel] 2024-07-17
Mohamad Amin Mohamadi; Zhiyuan Li; Lei Wu; Danica J. Sutherland
Predicción de capacidades emergentes mediante ajuste [enlace en papel] 2024-07-10
Charlie Víctor Snell; Eric Wallace; Dan Klein; Sergey Levin
Resolución de discrepancias en el escalado óptimo de computación de modelos de lenguaje [enlace en papel] 2024-06-25
Tomer Porian; Mitchell Wortsman; Jenia Jitsev; Ludwig Schmidt; Yair Carmon
Leyes de escala para modelos de lenguaje de complejidad lineal [enlace en papel] 2024-06-24
Xuyang Shen; Dong Li; Ruitao Leng; Zhen Qin; Weigao sol; Yiran Zhong
Leyes de escala para la memorización de hechos de modelos lingüísticos grandes [enlace en papel] 2024-06-22
Xingyu Lu; Xiaonan Li; Qinyuan Cheng; Kai Ding; Xuanjing Huang; Xipeng Qiu
Conciliación de las leyes de escala de Kaplan y Chinchilla [enlace en papel] 2024-06-12
Tim Pearce; Canción de Jinyeop
Deep Grokking: ¿Se generalizarían mejor las redes neuronales profundas? [enlace en papel] 2024-05-29
Fan Simín; Razvan Pascanu; Martín Jaggi
Colapso lingüístico: colapso neuronal en modelos de lenguaje (grandes) [enlace en papel] 2024-05-28
Robert Wu; Vardan Papyan
Leyes de escalamiento y capacitación informática óptima más allá de las duraciones de capacitación fijas [enlace en papel] 2024-05-28
Alexander Hägele; Elie Bakouch; Atli Kosson; Loubna Ben Allal; Leandro Von Werra; Martín Jaggi
gzip predice leyes de escala dependientes de datos [enlace en papel] 2024-05-26
Rohan Pandey
Aparición de una fase de abstracción de alta dimensión en los transformadores del lenguaje [enlace en papel] 2024-05-24
Emily Cheng; Diego Doimo; Corentin Kervadec; Iuri Macocco; Jade Yu; Alejandro Laio; Marco Baroni
Un fundamento desde la perspectiva de la frecuencia para asimilar el entrenamiento de redes neuronales [enlace en papel] 2024-05-24
Zhangchen Zhou; Yaoyu Zhang; Zhi-Qin John Xu
Los transformadores asimilados son razonadores implícitos: un viaje mecanicista al borde de la generalización [enlace en papel] 2024-05-23
Boshi Wang; Xiang Yue; Yu Su; Huan Sun
Mezcla de datos eficiente: una ley de escala bivariada para el preentrenamiento de modelos lingüísticos [enlace en papel] 2024-05-23
Ce Ge; Zhijian Ma; Daoyuan Chen; Yaliang Li; Bolin Ding
4+3 fases de las leyes de escalamiento neuronal óptimas para la computación [enlace en papel] 2024-05-23
Elliot Paqueta; Courtney Paquette; Lechao Xiao; Jeffrey Pennington
Esclavos de la ley de los grandes números: una propiedad de equipartición asintótica para la perplejidad en modelos de lenguaje generativo [enlace en papel] 2024-05-22
Raghu Mudumbai; tyler campana
Cuantificación de la aparición de modelos de lenguaje grandes [enlace en papel] 2024-05-21
colgar Chen; Xinyu Yang; Jiaying Zhu; Wenya Wang
Más allá de las leyes de escala: comprensión del rendimiento del transformador con memoria asociativa [enlace en papel] 2024-05-14
Xueyan Niu; Bo Bai; Lei Deng; Wei Han
Lo que necesita es más computación [enlace en papel] 2024-04-30
zhen guo
Un modelo exactamente solucionable para las leyes de emergencia y escalamiento [enlace en papel] 2024-04-26
Yoonsoo Nam; Nayara Fonseca; Seok Hyeong Lee; Ard Luis
¿Por qué los modelos de lenguajes pequeños tienen un rendimiento inferior? Estudio de la saturación del modelo de lenguaje a través del cuello de botella de Softmax [enlace en papel] 2024-04-11
Natán Godey; Éric de la Clergerie; Benoît Sagot
Una exploración a gran escala de
Lucas Lingle
Habilidades emergentes en modelos de lenguaje generativo de escala reducida [enlace en papel] 2024-04-02
Sherin Muckatira; Vijeta Deshpande; Vladislav Lialin; Anna Rumshisky
Comprensión de las capacidades emergentes de los modelos lingüísticos desde la perspectiva de la pérdida [enlace del documento] 2024-03-23
Zhengxiao Du; Aohan Zeng; Yuxiao Dong; Jie Tang
Desentrañando el misterio de las leyes de escala: Parte I [enlace en papel] 2024-03-21
Hui Su; Zhi Tian; Xiaoyu Shen; Xunliang Cai
Los modelos de lenguaje se escalan de manera confiable con sobreentrenamiento y en tareas posteriores [enlace en papel] 2024-03-13
Samir Yitzhak Gadre; Georgios Esmirnis; Vaishaal Shankar; Suchin Gururangan; Mitchell Wortsman; Rulin Shao; Jean Mercado; Alex Colmillo; Jeffrey Li; Sedrick Keh; Rui Xin; Mariana Nezhurina; Igor Vasiljevic; Jenia Jitsev; Alexandros G. Dimakis; Gabriel Ilharco; Canción Shuran; Thomas Kollar; Yair Carmón; Achal Dave; Reinhard Heckel; Niklas Muennighoff; Luis Schmidt
Cuando el escalado se une al ajuste fino de LLM: el efecto de los datos, el modelo y el método de ajuste fino [enlace en papel] 2024-02-26
Biao Zhang; Zhongtao Liu; Colin cereza; Orhan Firat
Interpretación de transformadores grokked en aritmética modular compleja [enlace en papel] 2024-02-26
Hiroki Furuta; Gouki Minegishi; Yusuke Iwasawa; Yutaka Matsuo
A Tale of Tails: El colapso del modelo como cambio de las leyes de escala [enlace del documento] 2024-02-10
Elvis Dohmatob; Yunzhen Feng; Pu Yang; Francois Charton; Julia Kempe
Escalado de modelos de lenguaje restringidos por datos [enlace en papel] 2023-10-25
Niklas Muennighoff; Alejandro M. Rush; Booz Barac; Téven Le Scao; Aleksandra Piktus; Nouamane Tazi; Sampo Pyysalo; Tomás Lobo; Colin Raffel
El costo de reducir los modelos lingüísticos: el recuerdo de hechos se deteriora antes del aprendizaje en contexto [enlace en papel] 2023-10-06
Tian Jin; Nolan Clemente; Xin Dong; Vaishnavh Nagarajan; Michael Carbin; Jonathan Ragan-Kelley; Gintare Karolina Dziugaite
¿Son las capacidades emergentes de los grandes modelos lingüísticos un espejismo? [enlace en papel] 2023-04-28
Rylan Schaeffer; Brando Miranda; Sanmi Koyejo
Entrenamiento de modelos de lenguaje grande optimizados para computación [enlace en papel] 2022-03-29
Jordán Hoffmann; Sebastián Borgeaud; Arturo Mensch; Elena Buchatskaya; Trevor Cai; Eliza Rutherford; Diego de Las Casas; Lisa Anne Hendricks; Johannes Welbl; Aidan Clark; Tom Hennigan; Eric Noland; Katie Millican; George van den Driessche; Bogdan Damoc; Aurelia Chico; Simón Osindero; Karen Simonyan; Erich Elsen; Jack W. Rae; Oriol Vinyals; Laurent Sifré
Leyes de escala para modelos de lenguaje neuronal [enlace en papel] 2020-01-22
Jared Kaplan; Sam McCandlish; Tom Henighan; Tom B. Brown; Benjamín Ajedrez; Niño Rewon; Scott Gray; Alec Radford; Jeffrey Wu; Dario Amodei
^ back to top ^
Artículos que se centran en cómo los grandes modelos lingüísticos almacenan, recuperan y utilizan el conocimiento, analizando los mecanismos de memoria involucrados.
Un marco geométrico para comprender la memorización en modelos generativos [enlace en papel] 2024-10-31
Brendan Leigh Ross; Hamidreza Kamkari; Tongzi Wu; Rasa Hosseinzadeh; Zhaoyan Liu; George Stein; Jesse C. Cresswell; Gabriel Loaiza Ganem
Capacidad óptima de memorización de transformadores [enlace en papel] 2024-09-26
Tokio Kajitsuka; Issei Sato
Memoria de Schrodingers: modelos de lenguaje grandes [enlace en papel] 2024-09-16
Wei Wang; Li Qing
La autoatención limita la capacidad de la memoria de trabajo de los modelos basados en transformadores [enlace en papel] 2024-09-16
Dongyu Gong; Hantao Zhang
Gran memoria, razonamiento superficial: límites de los kNN-LM [enlace en papel] 2024-08-21
Shangyi Geng; Yendo Zhao; Alejandro Rush
Memorización en aprendizaje en contexto [enlace en papel] 2024-08-21
Shahriar Golchin; Mihai Surdeanu; Steven Bethard; Eduardo Blanco; Ellen Riloff
Generalización primero, memorización en segundo lugar? Localización de memorización para tareas de clasificación de lenguaje natural [enlace en papel] 2024-08-09
Verna Dankers; Ivan Titov
Comprensión de la memorización en LLM: dinámica, factores de influencia e implicaciones [enlace en papel] 2024-07-27
Hasta Speicher; Mohammad Aflah Khan; Qinyuan Wu; Vedant Nanda; Soumi Das; Bishwamittra Ghosh; Krishna P. Gummadi; Evimaria Terzi
Desmystificante de memorización literal en modelos de idiomas grandes [enlace de papel] 2024-07-25
Jing Huang; Diyi yang; Christopher Potts
Desde conflicto interno hasta adaptación contextual de modelos de lenguaje [enlace en papel] 2024-07-24
Sara Vera Marjanović; Haeun Yu; Pepa Atanasova; Maria Maistro; Christina Lioma; Isabelle Augenstein
Generalización versus memorización: capacidades de rastreo de modelos de lenguaje a los datos de previación [enlace de papel] 2024-07-20
Antonis Antoniades; Xinyi Wang; Yanai Elazar; Alfonso Amayuelas; Alon Albalak; KEXUN ZHANG; William Yang Wang
Física de modelos de idiomas: Parte 3.1, Almacenamiento y extracción de conocimiento [enlace en papel] 2024-07-16
Zeyuan Allen-Zhu; Yuanzhi li
Los cabezales de inducción como mecanismo esencial para la coincidencia de patrones en el aprendizaje en contexto [enlace en papel] 2024-07-09
J. Crosbie; E. Shutova
¿LLMS sueñan con elefantes (cuando se les dice que no lo hagan)? Asociación de concepto latente y memoria asociativa en Transformers [enlace en papel] 2024-06-26
Yibo Jiang; Goutham Rajendran; Pradeep Ravikumar; Bryon Aragam
Leyes de escala para la memorización de hechos de modelos de idiomas grandes [enlace en papel] 2024-06-22
Xingyu lu; Xiaonan Li; Qinyuan Cheng; Kai Ding; Xuanjing Huang; Xipeng qiu
Conectando los puntos: LLMS puede inferir y verbalizar la estructura latente a partir de datos de entrenamiento dispares [enlace de papel] 2024-06-20
Johannes Treutlein; Dami Choi; Jan Betley; Cem anil; Samuel Marks; Roger Baker Grosse; Owain Evans
Descubrimiento de recuerdos latentes: evaluación de la fuga de datos y patrones de memorización en modelos de idiomas grandes [enlace de papel] 2024-06-20
Sunny Duan; Mikail Khona; Abhiram Iyer; Rylan Schaeffer; Ila R Fiete
Comprender la sintonía para la extracción de conocimiento objetivo [enlace en papel] 2024-06-20
Gaurav Ghosal; Tatsunori Hashimoto; Aditi Raghunathan
Estimación del conocimiento en modelos de idiomas grandes sin generar un solo token [enlace en papel] 2024-06-18
Daniela Gottesman; Mor Geva
¿Cómo adquieren los modelos de idiomas grandes el conocimiento fáctico durante el pretrénmente? [Enlace en papel] 2024-06-17
Hoyeon Chang; Jinho Park; Seonghyeon Ye; Sohee Yang; Youngkyung Seo; Du-Seong Chang; Minjoon SEO
¡Sea como un pez dorado, no memorice! Mitigación de la memorización en LLM generativos [enlace en papel] 2024-06-14
Abhimanyu Hans; Yuxin Wen; Neel Jain; John Kirchenbauer; Hamid Kazemi; Prajwal Singhania; Siddharth Singh; Gowthami Somepalli; Jonas Geiping; Abhinav Bhatele; Tom Goldstein
Circuitos de conocimiento en transformadores previos a la aparición [enlace en papel] 2024-05-28
Yunzhi Yao; Ningyu Zhang; Zekun Xi; Mengru Wang; Ziwen Xu; Shumin Deng; Huajun Chen
Límites de la capacidad de memoria superior e inferior de los transformadores para la predicción de la siguiente token [enlace en papel] 2024-05-22
Liam Madden; Curtis Fox; Christos Thramponidis
Un análisis multiperspectiva de la memorización en modelos de idiomas grandes [enlace en papel] 2024-05-19
Bowen Chen; Namgi Han; Yusuke Miyao
Física de modelos de idiomas: Parte 3.3, Leyes de escala de capacidad de conocimiento [enlace en papel] 2024-04-08
Zeyuan Allen-Zhu; Yuanzhi li
Capacidad de memorización de atención de múltiples cabezas en Transformers [enlace de papel] 2024-03-02
Sadegh Mahdavi; Renjie Liao; Christos Thramponidis
Nacimiento de un transformador: un punto de vista de memoria [enlace en papel] 2023-11-06
Alberto Bietti; Vivien Cabannes; Diane Bouchacourt; Herve Jegou; Leon Botou
Física de modelos de idiomas: Parte 3.2, Manipulación de conocimiento [enlace en papel] 2023-09-25
Zeyuan Allen-Zhu; Yuanzhi li
¿Se puede localizar la memorización de la red neuronal? [Enlace en papel] 2023-07-18
Pratyush Maini; Michael C. Mozer; Hanie Sedghi; Zachary C. Lipton; J. Zico Kolter; Chiyuan zhang
Cuantificación de la memorización en modelos de lenguaje neuronal [enlace en papel] 2022-02-15
Nicholas Carlini; Daphne Ippolito; Matthew Jagielski; Katherine Lee; Tramer de Florian; Chiyuan zhang
^ back to top ^
Documentos que discuten varios aspectos del proceso de capacitación, incluida la optimización, el ajuste fino y el panorama de capacitación de modelos de idiomas grandes.
Convergencia global en la capacitación de transformadores a gran escala [enlace en papel] 2024-10-31
Cheng Gao; Yuan Cao; Zihao Li; Yihan él; Mengdi Wang; Han Liu; Jason Matthew Klusowski; Fan de Jianqing
Lo que sucedió en las capas de LLMS cuando está entrenado para un pensamiento rápido frente a la lenta: una perspectiva de gradiente [enlace de papel] 2024-10-31
Ming Li; Yanhong Li; Tianyi Zhou
Aprender y transferir bigrams contextuales escasos con transformadores lineales [enlace de papel] 2024-10-30
Yunwei Ren; Zixuan Wang; Jason D. Lee
Aprendizaje abrupto en Transformers: un estudio de caso sobre la finalización de la matriz [enlace en papel] 2024-10-29
Pulkit Gopalani; Ekdeep Singh Lubana; Wei hu
Lora vs ajuste completo: una ilusión de equivalencia [enlace en papel] 2024-10-28
Reece Shuttleworth; Jacob Andreas; Antonio Torralba; Pratyusha sharma
Un sesgo de simplicidad de distribución en la dinámica de aprendizaje de los transformadores [enlace en papel] 2024-10-25
Riccardo Renda; Federica Gerace; Alessandro Laio; Sebastian Goldt
Cabezas de atención activa-desmantelada: fenómenos de tratamiento extremo-token mecánico en LLMS [enlace de papel] 2024-10-17
Tianyu Guo; Druv Pai; Yu Bai; Jiantao Jiao; Michael I. Jordan; Canción mei
Cómo los transformadores implementan cabezales de inducción: aproximación y análisis de optimización [enlace en papel] 2024-10-15
Mingze Wang; Ruoxi Yu; Weinan E; Lei Wu
¿Qué significa ser un transformador? Insights de un análisis teórico de Hesse [enlace en papel] 2024-10-14
Weronika Ormaniec; Felix Dangel; Sidak Pal Singh
Adaptación Odyssey en LLM: ¿Por qué el preenaje adicional a veces no mejora? [Enlace en papel] 2024-10-08
Fırat Öncel; Matthias Bethge; Beyza Ermis; Mirco Ravanelli; Cem Subakan; Çağatay yıldız
Sobre la optimización y generalización de transformadores de dos capas con descenso de gradiente de signos [enlace de papel] 2024-10-07
Bingrui Li; Wei Huang; Andi Han; Zhanpeng Zhou; Taiji Suzuki; Jun Zhu; Jianfei chen
Comprensión de las tasas de aprendizaje de calentamiento-estable-decayas: una perspectiva del paisaje de River Valley La pérdida [enlace en papel] 2024-10-07
Kaiyue Wen; Zhiyuan Li; Jason Wang; David Hall; Percy Liang; Tengyu ma
Transformadores no lineales de capacitación para la inferencia de la cadena de pensamiento: un análisis de generalización teórica [enlace de papel] 2024-10-03
Hongkang Li; Meng Wang; Songtao lu; Xiaodong Cui; Pin-yu chen
Información teórica sobre el mecanismo de atención de ajuste fino: generalización y optimización [enlace en papel] 2024-10-03
Xinhao Yao; Hongjin Qian; Xiaolin Hu; Gengze Xu; Yong Liu
Los clasificadores de transformadores entrenados generalizan y exhiben un sobrecargador benigno en contexto [enlace en papel] 2024-10-02
Spencer Frei; Gal Vardi
Hacia una comprensión teórica de los datos sintéticos en LLM después de la capacitación: una perspectiva de cuento de reverso [enlace en papel] 2024-10-02
Zeyu gan; Yong Liu
Investigar el impacto de la complejidad del modelo en modelos de idiomas grandes [enlace en papel] 2024-10-01
Jing Luo; Huiyuan Wang; Weiran Huang
Benigh o no acorralado no bendeado en la selección de token de mecanismo de atención [enlace de papel] 2024-09-26
Keitaro Sakamoto; Issei Sato
Convergencia no asintótica de los transformadores de entrenamiento para la predicción de la próxima token [enlace en papel] 2024-09-25
Ruiquan Huang; Yingbin Liang; jing yang
Leyes de hiper-parámetro de optimización para modelos de idiomas grandes [enlace de papel] 2024-09-07
Xingyu Xie; Kuangyu Ding; Shuicheng Yan; Kim-Chuan Toh; Tianwen Wei
El optimizador Ademamix: mejor, más rápido, más antiguo [enlace de papel] 2024-09-05
Matteo Pagliardini; Pierre Ablin; David Grangier
Agrupación y alineación: Comprensión de la dinámica de entrenamiento en la adición modular [enlace en papel] 2024-08-18
Tiberiu Musat
Convergencia global en la capacitación de transformadores a gran escala [enlace en papel] 2024-08
Cheng Gao; Yuan Cao; Zihao Li; Yihan él; Mengdi Wang; Han Liu; Jason M. Klusowski; Fan de Jianqing
Sobre la convergencia de transformadores poco profundos solo del codificador [enlace en papel] 2024-08
Yongtao Wu; FANGHUI LIU; Grigorios G Chrysos; Volkan Cevher
Autorización fino de los parámetros para el aprendizaje continuo: una perspectiva de núcleo tangente neuronal [enlace en papel] 2024-07-24
JINGREN LIU; Zhong Ji; Yunlong Yu; Jialle Cao; Yanwei Pang; Jungong Han; Xuelong Li
Dynamics de aprendizaje de LLM Finetuning [enlace de papel] 2024-07-15
Yi Ren; Danica J. Sutherland
Deconstrucción de lo que hace un buen optimizador para modelos de idiomas [enlace de papel] 2024-07-10
Rosie Zhao; Depen Morwani; David Brandfonbrener; Nikhil Vyas; Kakade simulada
Generalización de disparo cero durante el ajuste de las instrucciones: información por similitud y granularidad [enlace de papel] 2024-06-17
Bingxiang él; Ning ding; Cheng Qian; Jia Deng; Ganqu Cui; Lifan Yuan; Huan-Ang Gao; Huimin Chen; Zhiyuan Liu; Sol maosong
Comprender el sondeo lineal luego modelos de lenguaje ajustado desde la perspectiva NTK [enlace en papel] 2024-05-27
Akiyoshi Tomihari; Issei Sato
Límites infinitos de la dinámica del transformador múltiple [enlace en papel] 2024-05-24
Blake Bordelon; Hamza Tahir Chaudhry; Cengiz Pehlevan
Hacia una comprensión teórica de la 'Curse de reversión' a través de la dinámica de entrenamiento [enlace de papel] 2024-05-07
Hanlin Zhu; Baihe Huang; Shaolun Zhang; Michael Jordan; Jiantao Jiao; Yuandong Tian; Stuart Russell
Control del enfoque teórico para ajustar y transferir el aprendizaje [enlace de papel] 2024-04-16
Erkan Bayram; Shenyu Liu; Mohamed-Ali Belabbas; Tamer Başar
Mire el texto: los modelos de lenguaje ajustados a instrucciones son selectores de opción múltiple más robustos de lo que cree [enlace de papel] 2024-04-12
Xinpeng Wang; Chengzhi Hu; Bolei Ma; Paul Röttger; Tablón de barbara
Sobre la influencia de los datos de entrenamiento de los modelos GPT [enlace en papel] 2024-04-11
Qingyi Liu; Yekun Chai; Shuohuan Wang; Yu sol; Keze Wang; Hua wu
Las mejores prácticas y lecciones aprendidas sobre datos sintéticos para modelos de lenguaje [enlace en papel] 2024-04-11
Ruibo Liu; Jerry Wei; Fangyu Liu; Chenglei Si; Yanzhe Zhang; Jinmeng Rao; Steven Zheng; Daiyi Peng; Diyi yang; Denny Zhou; Andrew M. Dai
¿Qué tan mala es la capacitación en datos sintéticos? Un análisis estadístico del colapso del modelo de lenguaje [enlace en papel] 2024-04-07
Mohamed El Amine Seddik; Suei-Wen Chen; Soufiane Hayou; Pierre Youssef; Merouane Debbah
Presentación del poder de generalización de los modelos de idiomas grandes sintonizados [enlace de papel] 2024-03-14
Haoran Yang; Yumeng Zhang; Jiaqi Xu; Hongyuan Lu; Pheng Ann Heng; Wai lam
Los transformadores se están estable: una teoría de propagación de señal de extremo a extremo para modelos de lenguaje [enlace de papel] 2024-03-14
Akhil Kedia; Mohd Abbas Zaidi; Sushil Khyalia; Jungho Jung; Harshith Goka; Haejun Lee
La atención lineal es (tal vez) todo lo que necesita (para comprender la optimización del transformador) [enlace de papel] 2024-03-13
Kwangjun Ahn; Xiang Cheng; Canción de Minhak; Chulhee Yun; Ali Jadbabaie; Suvrit SRA
Trayectorias de optimización de las marcas de optimización en redes neuronales y LLM: las longitudes, las curvas y los callejones sin salida [el enlace de papel] 2024-03-12
Sidak Pal Singh; Bobby él; Thomas Hofmann; Bernhard Schölkopf
El núcleo heurístico: comprensión de la generalización de la subred en modelos de lenguaje previos a la aparición [enlace de papel] 2024-03-06
Adithya Bhaskar; Dan Friedman; Chen danqi
Dinámica de entrenamiento de la atención Softmax de múltiples cabezas para el aprendizaje en contexto: emergencia, convergencia y optimización [enlace de papel] 2024-02-29
Siyu Chen; Heejune Sheen; Tianhao Wang; Zhuoran yang
Cómo los transformadores aprenden estructura causal con descenso de gradiente [enlace de papel] 2024-02-22
Eshaan Nichani; Alex Damian; Jason D. Lee
El entrenamiento de Lora en el régimen NTK no tiene mínimos locales espurios [enlace en papel] 2024-02-19
Uijeong Jang; Jason D. Lee; Ernest K. Ryu
Sobre la aparición de la linealidad de la tarea cruzada en el paradigma de finalización previa a la entrega [enlace de papel] 2024-02-06
Zhanpeng Zhou; Zijun Chen; Yilan Chen; Bo Zhang; Junchi yan
Los transformadores aprenden a través del aumento de rango gradual [enlace en papel] 2023-12-10
Enric Boix-Adsera; Etai Littwin; Emmanuel Abbe; Samy Bengio; Joshua Susskind
Analizando mecánicamente los efectos del ajuste fino en las tareas definidas de procedimiento [enlace de papel] 2023-11-21
Samyak Jain; Robert Kirk; Ekdeep Singh Lubana; Robert P. Dick; Hidenori Tanaka; Edward Grefenstette; Tim Rocktäschel; David Scott Krueger
Conectando el modelo de lenguaje previamente capacitado y la tarea aguas abajo a través de propiedades de la representación [enlace en papel] 2023-11-02
Chenwei Wu; Holden Lee; Rong GE
Escaneo y SNAP: Comprensión de la dinámica de entrenamiento y la composición del token en el transformador de 1 capa [enlace de papel] 2023-07-02
Yuandong Tian; Yiping Wang; Beidi Chen; Simon du
Una vista basada en el núcleo del modelo de idioma ajustado [enlace en papel] 2023-06-15
Sadhika Malladi; Alexander Wettig; Dingli Yu; Danqi Chen; Sanjeev Arora
Un análisis de estabilidad de ajuste de un modelo previamente capacitado [enlace de papel] 2023-01-24
Zihao Fu; Anthony Man-Cho So; Nigel Collier
^ back to top ^
Documentos que analizan las capacidades de aprendizaje y el rendimiento de la generalización de los modelos de lenguaje, desde una generalización débil hasta fuerte.
Generalización y límites de riesgo para redes neuronales recurrentes [enlace en papel] 2024-11-05
Xuewei Cheng; Ke Huang; Shujie ma
Generalización de longitud comprobable en la predicción de secuencia a través del filtrado espectral [enlace de papel] 2024-11-01
Annie Marsden; Evan Dogariu; Naman Agarwal; Xinyi Chen; Daniel Suo; Elad Hazan
RL-Star: Análisis teórico de marcos de aprendizaje de refuerzo para razonador autodidacta [enlace en papel] 2024-10-31
Fu-Chieh Chang; Yu-ting lee; Hui-eying shih; Pei-yuan wu
Mezcla de loros: los expertos mejoran la memorización más que el razonamiento [enlace en papel] 2024-10-24
Samy Jelassi; Clara Mohri; David Brandfonbrener; Alex Gu; Nikhil Vyas; Nikhil Anand; David Álvarez-Melis; Yuanzhi Li; Sham M. Kakade; Eran Malach
Cómo la precisión numérica afecta las capacidades de razonamiento matemático de LLMS [enlace en papel] 2024-10-17
Guhao Feng; Kai Yang; Yuntian Gu; Xinyue ai; Shengjie Luo; Jiacheng Sun; Di él; Zhenguo Li; Liwei wang
En los límites de error de generalización dependientes de rango para transformadores [enlace en papel] 2024-10-15
Lan V. Truong
Overecita benigna en atención de una sola cabeza [enlace de papel] 2024-10-10
Roey Magen; Shuning Shang; Zhiwei Xu; Spencer Frei; Wei Hu; Gal Vardi
Dinámica del aprendizaje conceptual y generalización de composición [enlace en papel] 2024-10-10
Yongyi Yang; Core Francisco Park; Ekdeep Singh Lubana; Maya Okawa; Wei Hu; Hidenori Tanaka
El sobreajuste benigno para la regresión con redes Relu de dos capas capacitadas [enlace de papel] 2024-10-08
Parque Junhyung; Patrick Bloebaum; Shiva Prasad Kasiviswanathan
Generalización probable de débil a fuerte a través del sobreajuste benigno [enlace en papel] 2024-10-06
David X. Wu; Anant sahai
Un marco formal para la generalización de la longitud de comprensión en Transformers [enlace en papel] 2024-10-03
Xinting Huang; Andy Yang; Satwik Bhattamishra; Yash Sarrof; Andreas Krebs; Hattie Zhou; Preetum Nakkiran; Michael Hahn
Los clasificadores de transformadores entrenados generalizan y exhiben un sobrecargador benigno en contexto [enlace en papel] 2024-10-02
Spencer Frei; Gal Vardi
Líneas de pensamiento en modelos de idiomas grandes [enlace en papel] 2024-10-02
Raphaël Sarfati; Toni JB Liu; Nicolas Boullé; Christopher J. Earls
Investigar el impacto de la complejidad del modelo en modelos de idiomas grandes [enlace en papel] 2024-10-01
Jing Luo; Huiyuan Wang; Weiran Huang
El sobreajuste benigno o no benigno en la selección de token de mecanismo de atención [enlace de papel] 2024-09-26
Keitaro Sakamoto; Issei Sato
Comprender el sesgo de simplicidad hacia las asignaciones compositivas a través de la dinámica de aprendizaje [enlace en papel] 2024-09-15
Yi Ren; Danica J. Sutherland
Generalización inolvidable en modelos de idiomas [enlace en papel] 2024-09-03
Eric Zhang; Leshem elegido; Jacob Andreas
Las muchas caras de aprendizaje óptimo a débil a fuerte [enlace en papel] 2024-08-30
Mikael Møller Høgsgaard; Kasper Green Larsen; Markus Engelund Mathiasen
Física de modelos de idiomas: Parte 2.2, Cómo aprender de los errores sobre problemas de matemáticas de la escuela primaria [enlace de papel] 2024-08-29
Tian Ye; Zicheng Xu; Yuanzhi Li; Zeyuan Allen-Zhu
Generalización fuera de distribución a través de la composición: una lente a través de cabezales de inducción en transformadores [enlace de papel] 2024-08-18
Canción Jiajun; Zhuoyan Xu; Yiqiao Zhong
Sobre la generalización del aprendizaje de preferencia con DPO [enlace en papel] 2024-08-06
Shawn im; Yixuan li
Inductivo o deductivo? Repensar las capacidades de razonamiento fundamental de LLM [enlace en papel] 2024-07-31
Kewei Cheng; Jingfeng Yang; Haoming Jiang; Zhengyang Wang; Binxuan Huang; Ruirui Li; Shiyang Li; Zheng Li; Yifan Gao; Xian Li; Bing Yin; Yizhou sol