Esta lista de artigos concentra-se na análise teórica e empírica de modelos de linguagem, especialmente modelos de linguagem de grande porte (LLMs). Os artigos nesta lista investigam o comportamento de aprendizagem, a capacidade de generalização e outras propriedades dos modelos de linguagem por meio de análise teórica, análise empírica ou uma combinação de ambas.
Escopo desta lista:
Limitações desta lista:
Estatísticas desta lista de artigos:
Se você tiver alguma sugestão ou quiser contribuir, sinta-se à vontade para abrir um problema ou pull request.
Para obter detalhes sobre como contribuir, consulte as diretrizes de contribuição.
Você também pode compartilhar suas idéias e discutir com outras pessoas nas Discussões.
Observação
Para versão não categorizada, consulte aqui.
^ back to top ^
Categorias com foco em diferentes fenômenos, propriedades e comportamentos observados em grandes modelos de linguagem (LLMs) e modelos baseados em transformadores.
^ back to top ^
Artigos com foco na análise teórica e empírica da aprendizagem contextual em grandes modelos de linguagem.
Aprendizagem em contexto comprovável com transformadores: um estudo de caso sobre regressão linear [link do documento] 04/11/2024
Dake Bu; Wei Huang; Andi Han; Atsushi Nitanda; Taiji Suzuki; Qingfu Zhang; Hau-San Wong
O transformador pré-treinado aprende com eficiência funções alvo de baixa dimensão no contexto [link do documento] 04/11/2024
Kazusato Oko; Canção Yujin; Taiji Suzuki; Denny Wu
Rumo à compreensão da aprendizagem no contexto versus aprendizagem em peso [link do documento] 30/10/2024
Bryan Chan; Xin Yi Chen; András György; Dale Schuurmans
Sobre o papel da profundidade e do loop para a aprendizagem no contexto com diversidade de tarefas [link do documento] 29/10/2024
Khashayar Gatmiry; Nikunj Saunshi; Sashank J. Reddi; Stefanie Jegelka; Sanjiv Kumar
Mecanismos de processamento de símbolos para aprendizagem em contexto em redes de transformadores [link do documento] 23/10/2024
Paulo Smolensky; Roland Fernández; Zhenghao Herbert Zhou; Mattia Opper; Jianfeng Gao
Os transformadores em contexto podem aprender o comportamento de um sistema dinâmico linear? [link do documento] 2024/10/21
Usman Akram; Haris Vikalo
Leis de escala bayesiana para aprendizagem em contexto [link do documento] 21/10/2024
Aryaman Arora; Dan Jurafsky; Cristóvão Potts; Noah D. Goodman
Aprendizagem em contexto comprovável para mistura de regressões lineares usando transformadores [link do documento] 18/10/2024
Yanhao Jin; Krishnakumar Balasubramanian; Lifeng Lai
Aprendizagem contextual e a navalha de Occam [link do artigo] 17/10/2024
Eric Elmoznino; Tom Marty; Tejas Kasetty; Leo Gagnon; Sarthak Mittal; Mahan Fathi; Dhanya Sridhar; Guillaume Lajoie
Dimensionamento de contexto versus dimensionamento de tarefas na aprendizagem em contexto [link do documento] 16/10/2024
Amirhesam Abedsoltan; Adityanarayanan Radhakrishnan; Jing Feng Wu; Michael Belkin
Ignorando a dependência exponencial: transformadores em loop aprendem com eficiência no contexto por meio de gradiente descendente em várias etapas [link do documento] 15/10/2024
BoChen; Xiao Yu Li; Ying Yu Liang; Zhen Mei Shi; Canção de Zhao
Como os transformadores implementam cabeçotes de indução: análise de aproximação e otimização [link do documento] 15/10/2024
Mingze Wang; Ruoxi Yu; Weinan E; Lei Wu
Sobre a convergência de treinamento de transformadores para classificação no contexto [link do documento] 15/10/2024
Wei Shen; Ruida Zhou; Jing Yang; Cong Shen
Transformadores aprendem cadeias de Markov de ordem variável no contexto [link do papel] 07/10/2024
Ruida Zhou; Chao Tian; Suhas Diggavi
Revisitando o circuito de inferência de aprendizagem no contexto em grandes modelos de linguagem [link do documento] 06/10/2024
Hakaze Cho; Mariko Kato; Yoshihiro Sakai; Naoya Inoue
Classificadores de transformadores treinados generalizam e exibem overfitting benigno no contexto [link do documento] 02/10/2024
Spencer Frei; Gal Vardi
Transformadores lidam com endogeneidade em regressão linear no contexto [link do documento] 02/10/2024
Haodong Liang; Krishnakumar Balasubramanian; Lifeng Lai
Revelando cabeças de indução: dinâmicas de treinamento comprováveis e aprendizado de recursos em transformadores [link do documento] 10/09/2024
Si Yu Chen; Heejune Sheen; Tianhao Wang; Zhuoran Yang
Aprendizagem versus recuperação: o papel dos exemplos no contexto na regressão com LLMs [link do documento] 06/09/2024
Aliakbar Nafar; Kristen Brent Venable; Parisa Kordjamshidi
Os transformadores são alunos ideais não paramétricos em contexto Minimax [link do documento] 22/08/2024
Juno Kim; Tai Nakamaki; Taiji Suzuki
Memorização na aprendizagem em contexto [link do documento] 21/08/2024
Shahriar Golchin; Mihai Surdeanu; Steven Bethard; Eduardo Blanco; Ellen Riloff
Aprendizagem em contexto com representações: generalização contextual de transformadores treinados [link do documento] 19/08/2024
Tong Yang; Yu Huang; Ying Bin Liang; Yuejie Chi
Atribuição rápida de conjunto de dados de treinamento por meio de aprendizagem no contexto [link do documento] 14/08/2024
Milad Fotouhi; Mohammad Taha Bahadori; Oluwaseyi Feyisetan; Payman Arabshahi; David Heckerman
Como os transformadores utilizam a atenção de múltiplas cabeças na aprendizagem em contexto? Um estudo de caso sobre regressão linear esparsa [link do artigo] 08/08/2024
Xing Wu Chen; Lei Zhao; Difan Zou
Os transformadores são alunos universais no contexto [link do documento] 02/08/2024
Takashi Furuya; Maarten V. de Hoop; Gabriel Peyré
Regressão polinomial como uma tarefa para compreender a aprendizagem no contexto por meio de ajuste fino e alinhamento [link do documento] 27/07/2024
Max Wilcoxson; Morten Svendgard; Ria Doshi; Dylan Davis; Reya Vir; Anant Sahai
Revelando a aprendizagem no contexto: um sistema de coordenadas para compreender seu mecanismo de funcionamento [link do documento] 24/07/2024
Anhao Zhao; Fanghua Ye; Jin Lan Fu; Xiao Yu Shen
O transformador de uma camada provavelmente aprende um vizinho mais próximo no contexto [link do documento] 24/07/2024
Zihao Li; Yuan Cao; Cheng Gao; Yihan Ele; Han Liu; Jason M. Klusowski; Ventilador Jianqing; Mengdi Wang
Quando os transformadores podem generalizar a composição no contexto? [link do documento] 17/07/2024
Seijin Kobayashi; Simon Schug; Yasser Akram; Florian Redhardt; Johannes von Oswald; Razvan Pascanu; Guillaume Lajoie; João Sacramento
Aprendizagem em contexto com processos neurais de transformadores [link do documento] 19/06/2024
Matthew Ashman; Cristiana Diaconu; Adriano Weller; Richard E. Turner
Sondando os limites de decisão da aprendizagem contextual em grandes modelos de linguagem [link do documento] 17/06/2024
Siyan Zhao; Tung Nguyen; Aditya Grover
Sopa de estado: aprendizagem, recuperação e mixagem de habilidades no contexto [link do documento] 12/06/2024
Maciej Pióro; Maciej Wołczyk; Razvan Pascanu; Johannes von Oswald; João Sacramento
Estimando a taxa de alucinação da IA generativa [link do documento] 11/06/2024
André Jesson; Nicolás Beltrán-Vélez; Quentin Chu; Sweta Karlekar; Jannik Kossen; Yarin Gal; John P. Cunningham; David Blei
BERTs são alunos generativos no contexto [link do documento] 07/06/2024
Davi Samuel
Melhorando o desempenho da aprendizagem no contexto apenas com a redução de peso baseada em SVD: uma perspectiva teórica [link do documento] 2024-06-06
Xinhao Yao; Xiaolin Hu; Shenzhi Yang; Yong Liu
O que os modelos de linguagem aprendem no contexto? A hipótese da tarefa estruturada [link do documento] 06/06/2024
Jiaoda Li; Yifan Hou; Mrinmaya Sachan; Ryan Cotterell
Conversão exata de aprendizagem em contexto para pesos de modelo em transformadores de atenção linearizada [link do documento] 05/06/2024
Brian K Chen; Tianyang Hu; Hui Jin; Hwee Kuan Lee; Kenji Kawaguchi
Aprendendo a grok: surgimento da aprendizagem no contexto e composição de habilidades em tarefas aritméticas modulares [link do artigo] 04/06/2024
Tianyu Ele; Darshil Doshi; Aritra Das; Andrey Gromov
Por que modelos de linguagem maiores realizam a aprendizagem contextual de maneira diferente? [link do artigo] 30/05/2024
Zhen Mei Shi; Junyi Wei; Zhuoyan Xu; Ying Yu Liang
A aprendizagem no contexto é suficiente para seguir a instrução nos LLMs? [link do artigo] 30/05/2024
Hao Zhao; Maksym Andriushchenko; Francesco Croce; Nicolas Flammarion
Aprender as variáveis latentes certas necessariamente melhora a aprendizagem contextual? [link do artigo] 29/05/2024
Sarthak Mittal; Eric Elmoznino; Leo Gagnon; Sangnie Bhardwaj; Dhanya Sridhar; Guillaume Lajoie
Uma teoria de aprendizagem no contexto em transformadores [link do artigo] 29/05/2024
Yifei Wang; Yu Yang Wu; Zeming Wei; Stefanie Jegelka; Yisen Wang
On Mesa-Optimization em transformadores treinados autoregressivamente: emergência e capacidade [link do documento] 27/05/2024
Chen Yu Zheng; Wei Huang; Rongzhen Wang; Guoqiang Wu; Jun Zhu; Chongxuan Li
Aprendizado no contexto do transformador para dados categóricos [link do documento] 27/05/2024
Aaron T. Wang; Ricardo Henao; Lawrence Carin
Adaptação automática de domínio por transformadores na aprendizagem em contexto [link do documento] 27/05/2024
Ryuichiro Hataya; Kota Matsui; Masaaki Imaizumi
Unificando seleção e compactação de demonstração para aprendizagem em contexto [link do documento] 27/05/2024
Jun Gao
Sobre a robustez do ruído na aprendizagem em contexto para geração de texto [link do documento] 27/05/2024
Hong Fu Gao; FeipengZhang; WenyuJiang; Jun Shu; Feng Zheng; Hongxin Wei
MLPs aprendem no contexto [link do documento] 24/05/2024
William L.Tong; Cengiz Pehlevan
Rumo a uma melhor compreensão da capacidade de aprendizagem no contexto a partir da quantificação da incerteza no contexto [link do documento] 24/05/2024
Shang Liu; Zhongze Cai; Guanting Chen; Xiaocheng Li
Os transformadores em loop podem aprender a implementar o gradiente descendente em várias etapas para aprendizagem no contexto? [link do artigo] 02/05/2024
Khashayar Gatmiry; Nikunj Saunshi; Sashank J. Reddi; Stefanie Jegelka; Sanjiv Kumar
Aprendizado em contexto sobre classes de função revelada para transformadores [link do documento] 02/05/2024
Zhijie Wang; Bo Jiang; Shuai Li
Aprendizagem em contexto com modelos de longo contexto: uma exploração aprofundada [link do documento] 30/04/2024
Amanda Bertsch; Maor Ivgi; Uri Alon; Jonathan Berant; Matthew R. Gormley; Graham Neubig
O que precisa dar certo para um cabeçote de indução? Um estudo mecanicista de circuitos de aprendizagem em contexto e sua formação [link do artigo] 10/04/2024
Aaditya K. Singh; Ted Moskovitz; Colina Félix; Stephanie CY Chan; André M. Saxe
A atenção é necessária para ICL? Explorando a relação entre a arquitetura do modelo e a capacidade de aprendizagem no contexto [link do documento] 01/04/2024
Ivan Lee; NanJiang; Taylor Berg-Kirkpatrick
Dinâmica de treinamento de atenção Softmax multi-cabeça para aprendizagem em contexto: emergência, convergência e otimização [link do documento] 29/02/2024
Si Yu Chen; Heejune Sheen; Tianhao Wang; Zhuoran Yang
Como os transformadores aprendem a estrutura causal com gradiente descendente [link do documento] 22/02/2024
Eshaan Nichani; Alex Damião; Jason D.Lee
Aprendizagem no contexto de um bloco transformador linear: benefícios do componente MLP e inicialização GD em uma etapa [link do documento] 22/02/2024
Ruiqi Zhang; Jing Feng Wu; Pedro L. Bartlett
Identificando cabeças de indução semântica para compreender a aprendizagem no contexto [link do documento] 20/02/2024
Ji Ren; Qi Peng Guo; Pendure Yan; Dongrui Liu; Xipeng Qiu; Dahua Lin
Como os Transformers realizam a aprendizagem autorregressiva no contexto? [link do documento] 08/02/2024
Michael E. Sander; Raja Giryes; Taiji Suzuki; Mathieu Blondel; Gabriel Peyré
O Mamba pode aprender a aprender? Um estudo comparativo sobre tarefas de aprendizagem em contexto [link do artigo] 2024-02-06
Parque Jongho; Parque Jaeseung; Zheyang Xiong; Nayoung Lee; Jae Woong Cho; Samet Oymak; Kangwook Lee; Dimitris Papailiopoulos
Uma análise teórica da informação da aprendizagem em contexto [link do artigo] 28/01/2024
Hong Jun Jeon; Jason D.Lee; Qi Lei; Benjamim Van Roy
A natureza transitória da aprendizagem emergente no contexto em transformadores [link do documento] 11/12/2023
Aaditya K. Singh; Stephanie CY Chan; Ted Moskovitz; Erin Grant; André M. Saxe; Colina Félix
Funções de aprendizagem no contexto com número variável de mínimos [link do documento] 21/11/2023
David Oniani; Yanshan Wang
Explorando a relação entre aprendizagem no contexto e ajuste de instrução [link do documento] 17/11/2023
Han Yu Duan; Yixuan Tang; Yi Yang; Ahmed Abbasi; Kar Yan Tam
Quando a aprendizagem no contexto fica aquém e por quê? Um estudo sobre tarefas com muitas especificações [link do documento] 15/11/2023
Hao Peng; Xiaozhi Wang; JianhuiChen; Weikai Li; Yunjia Qi; Zimu Wang; Zhili Wu; KaishengZeng; Bin Xu; Lei Hou; Juanzi Li
A aprendizagem no contexto generaliza, mas nem sempre de forma robusta: o caso da sintaxe [link do documento] 13/11/2023
Aaron Muller; Albert Webson; Jackson Petty; Tal Linzen
Transformadores aprendem a implementar descida gradiente pré-condicionada para aprendizagem no contexto [link do documento] 09/11/2023
Kwangjun Ahn; Xiang Cheng; Hadi Daneshmand; Suvrit Sra
Transformers aprendem métodos de otimização de ordem superior para aprendizagem no contexto: um estudo com modelos lineares [link do documento] 2023/10/26
Deqing Fu; Tian Qi Chen; Robin Jia; Vatsal Sharan
A aprendizagem no contexto cria vetores de tarefas [link do documento] 24/10/2023
Roee Hendel; Mor Geva; Amir Globerson
Vetores de função em modelos de linguagem grande [link do documento] 23/10/2023
Érico Todd; Millicent L. Li; Arnab Sen Sharma; Aaron Muller; Byron C. Wallace; David Bau
A aprendizagem no contexto com o Transformer é realmente equivalente a um padrão de aprendizagem contrastivo [link do documento] 19/10/2023
Rui Feng Ren; Yong Liu
Transformadores treinados aprendem modelos lineares no contexto [link do documento] 19/10/2023
Ruiqi Zhang; Spencer Frei; Pedro L. Bartlett
Como os transformadores aprendem no contexto, além de funções simples? Um estudo de caso sobre aprendizagem com representações [link do documento] 16/10/2023
Tianyu Guo; Wei Hu; Canção Mei; Huan Wang; Caiming Xiong; Silvio Savarese; Yu Bai
Compreendendo a aprendizagem no contexto em transformadores e LLMs, aprendendo a aprender funções discretas [link do documento] 13/10/2023
Satwik Bhattamishra; Arkil Patel; Phil Blunsom; Varun Kanade
Quantas tarefas de pré-treinamento são necessárias para a aprendizagem contextual de regressão linear? [link do documento] 13/10/2023
Jing Feng Wu; Difan Zou; Zi Xiang Chen; Vladimir Bravermann; Quan Quan Gu; Pedro Bartlett
A aprendizagem em contexto aprende relacionamentos de rótulos, mas não é aprendizagem convencional [link do documento] 13/10/2023
Jannik Kossen; Yarin Gal; Tom Rainforth
Convergência de transformadores no contexto [link do documento] 13/10/2023
Yu Huang; Yuan Cheng; Ying Bin Liang
Aprendizagem em contexto por meio do prisma bayesiano [link do documento] 13/10/2023
Madhur Panwar; Kabir Ahuja; Navin Goyal
Os transformadores pré-treinados realmente aprendem no contexto por Gradient Descent? [link do documento] 12/10/2023
Ling Feng Shen; Aayush Mishra; Daniel Khashabi
O que e como a aprendizagem em contexto aprende? Média, parametrização e generalização do modelo bayesiano [link do documento] 10/10/2023
Yu FengZhang; Feng Zhuo Zhang; Zhuoran Yang; Zhaoran Wang
Explicando a aprendizagem emergente no contexto como regressão do kernel [link do documento] 05/10/2023
Chi Han; Ziqi Wang; Han Zhao; Heng Ji
CausalLM não é ideal para aprendizagem em contexto [link do artigo] 02/09/2023
Nan Ding; Tomer Levinboim; Jialin Wu; Sebastião Goodman; Radu Soricut
Uma etapa de gradiente descendente é provavelmente o aluno ideal no contexto com uma camada de autoatenção linear [link do documento] 2023-07-07
Arvind Mahankali; Tatsunori B. Hashimoto; Tengyu Ma
Transformadores como estatísticos: aprendizagem comprovada no contexto com seleção de algoritmo no contexto [link do documento] 06/07/2023
Yu Bai; Fã Chen; Huan Wang; Caiming Xiong; Canção Mei
Transformers aprendem no contexto por Gradient Descent [link do documento] 15/06/2023
Johannes von Oswald; Eyvind Niklasson; Ettore Randazzo; João Sacramento; Alexander Mordvintsev; Andrei Zhmoginov; Max Vladimir
A proximidade da aprendizagem no contexto e a mudança de peso para a regressão Softmax [link do documento] 26/04/2023
Shuai Li; Canção de Zhao; Yu Xia; Tong Yu; Tian Yi Zhou
Uma teoria da aprendizagem emergente no contexto como indução de estrutura implícita [link do documento] 14/03/2023
Michael Hahn; Navin Goyal
A capacidade de aprendizagem da aprendizagem em contexto [link do documento] 14/03/2023
Noam Wies; Yoav Levine; Amnon Shashua
O que os transformadores podem aprender no contexto? Um estudo de caso de classes de funções simples [link do documento] 14/01/2023
Shivam Garg; Dimitris Tsipras; Percy Liang; Gregório Valente
Os transformadores generalizam de maneira diferente das informações armazenadas no contexto e nos pesos [link do documento] 13/10/2022
Stephanie CY Chan; Ishita Dasgupta; Junkyung Kim; Dharshan Kumaran; Andrew K. Lampinen; Colina Félix
Chefes de aprendizagem e indução em contexto [link do documento] 24/09/2022
Catarina Olsson; Nelson Elhage; Neel Nanda; Nicolau José; Nova DasSarma; Tom Henighan; Ben Mann; Amanda Askell; Yuntao Bai; Ana Chen; Tom Conerly; Dreno do Amanhecer; Ganguli Profundo; Zac Hatfield-Dodds; Danny Hernández; Scott Johnston; Andy Jones; Jackson Kernion; Liane Lovitt; Kamal Ndousse; Dário Amodei; Tom Brown; Jack Clark; Jared Kaplan; Sam McCandlish; Chris Olah
^ back to top ^
Artigos que analisam o fenômeno da cadeia de pensamento em grandes modelos de linguagem, explorando perspectivas teóricas e empíricas.
O que aconteceu nas camadas LLMs quando treinados para pensamento rápido versus lento: uma perspectiva de gradiente [link do documento] 31/10/2024
Ming Li; Yanhong Li; Tian Yi Zhou
Uma compreensão teórica da cadeia de pensamento: raciocínio coerente e demonstração ciente de erros [link do documento] 2024-10-21
Yingqian Cui; Peng Fei Ele; Xian Feng Tang; Qi Ele; ChenLuo; Jilian Tang; Yue Xing
Da dependência esparsa à atenção escassa: revelando como a cadeia de pensamento melhora a eficiência da amostra do transformador [link do documento] 07/10/2024
Kaiyue Wen; Hua Qing Zhang; Hongzhou Lin; Jingzhao Zhang
Treinamento de transformadores não lineares para inferência de cadeia de pensamento: uma análise teórica de generalização [link do documento] 03/10/2024
Hongkang Li; Meng Wang; Songtao Lu; Xiaodong Cui; Pin Yu Chen
Autoregressivo + Cadeia de Pensamento (CoT) ≃ Recorrente: o papel da recorrência nos modelos de linguagem e uma revisão do transformador recorrente [link do artigo] 14/09/2024
Xiang Zhang; Muhammad Abdul-Mageed; Laks VS Lakshmanan
Revelando os fundamentos estatísticos dos métodos de estímulo à cadeia de pensamento [link do documento] 25/08/2024
Xinyang Hu; Feng Zhuo Zhang; Si Yu Chen; Zhuoran Yang
Decifrando os fatores que influenciam a eficácia da cadeia de pensamento: probabilidade, memorização e raciocínio barulhento [link do documento] 01/07/2024
Akshara Prabhakar; Thomas L. Griffiths; R. Thomas McCoy
Sobre a capacidade representacional de modelos de linguagem neural com raciocínio em cadeia de pensamento [link do artigo] 20/06/2024
Franz Nowak; Anej Svete; Alexandra Butoi; Ryan Cotterell
Cabeça de Iteração: Um Estudo Mecanístico da Cadeia de Pensamento [link do documento] 04/06/2024
Vivien Cabannes; Carlos Arnal; Wassim Bouaziz; Alice Yang; François Charton; Júlia Kempe
Vamos pensar ponto por ponto: computação oculta em modelos de linguagem de transformadores [link do documento] 24/04/2024
Jacob Pfau; William Merril; Samuel R. Bowman
Cadeia de pensamento capacita transformadores a resolver problemas inerentemente seriais [link do documento] 20/02/2024
Zhiyuan Li; Hong Liu; Denny Zhou; Tengyu Ma
Rumo à revelação do mistério por trás da cadeia de pensamento: uma perspectiva teórica [link do documento] 22/12/2023
Guhao Feng; BohangZhang; Yuntian Gu; Haotian Ye; Di Ele; Li Wei Wang
Por que grandes modelos de linguagem podem gerar cadeias de pensamentos corretas? [link do documento] 20/10/2023
Rasul Tutunov; Antoine Grosnit; Juliusz Ziomek; Jun Wang; Haitham Bou-Ammar
Como grandes modelos de linguagem implementam a cadeia de pensamento? [link do documento] 13/10/2023
Yiqun Wang; Sile Hu; Yonggang Zhang; XiangTian; Xuesong Liu; Yaowu Chen; Xu Shen; Jieping Ye
O poder expressivo dos transformadores com cadeia de pensamento [link do documento] 13/10/2023
William Merrill; Ashish Sabharwal
^ back to top ^
Artigos que examinam o fenômeno da alucinação em modelos de linguagem, incluindo análises teóricas e empíricas.
Sem almoço grátis: limites fundamentais da aprendizagem de modelos generativos não alucinantes [link do documento] 24/10/2024
Chang Long Wu; Ananth Grama; Wojciech Szpankowski
Imaginação compartilhada: LLMs Hallucinate Alike [link do documento] 23/07/2024
Yi Lun Zhou; Caiming Xiong; Silvio Savarese; Chien-Sheng Wu
Estimando a taxa de alucinação da IA generativa [link do documento] 11/06/2024
André Jesson; Nicolás Beltrán-Vélez; Quentin Chu; Sweta Karlekar; Jannik Kossen; Yarin Gal; John P. Cunningham; David Blei
O ajuste fino de LLMs em novos conhecimentos incentiva alucinações? [link do documento] 09/05/2024
Zorik Gekhman; Gal Yona; Roee Aharoni; Matan Eyal; Amir Feder; Rei Reichart; Jonathan Herzig
Mecanismos de alucinações não factuais em modelos de linguagem [link do artigo] 26/03/2024
Lei Yu; Meng Cao; Jackie Chi Kit Cheung; Yue Dong
Exemplos desconhecidos de ajuste fino controlam como os modelos de linguagem alucinam [link do documento] 08/03/2024
Katie Kang; Eric Wallace; Claire Tomlin; Aviral Kumar; Sergey Levine
Nitidez no contexto como alertas: uma perspectiva de representação interna para mitigação de alucinações [link do documento] 05/03/2024
Shiqi Chen; Miao Xiong; Junteng Liu; Zhengxuan Wu; Teng Xiao; Si Yang Gao; Junxian Ele
Modelos de linguagem calibrados devem alucinar [link do documento] 24/11/2023
Adam Tauman Kalai; Santosh S. Vempala
O curioso caso de irrespondibilidade alucinatória: encontrando verdades nos estados ocultos de grandes modelos de linguagem excessivamente confiantes [link do documento] 18/10/2023
Aviv Slobodkin; Omer Goldman; Avi Caciularu; Ido Dagan; Shauli Ravfogel
^ back to top ^
Artigos que analisam o fenômeno da maldição reversa em grandes modelos de linguagem.
Rumo a uma compreensão teórica da 'maldição da reversão' por meio da dinâmica de treinamento [link do documento] 2024-05-07
Han Lin Zhu; Baihe Huang; ShaolunZhang; Michael Jordan; Jiantao Jiao; Yuan Dong Tian; Stuart Russel
A maldição da reversão: LLMs treinados em "A é B" não conseguem aprender "B é A" [link do documento] 04/04/2024
Lucas Berglund; Meg Tong; Max Kaufman; Mikita Balesni; Asa Cooper Stickland; Tomasz Korbak; Owain Evans
Uma investigação da ineficácia dos LLMs na compreensão das relações inversas [link do documento] 01/12/2023
Chengwen Qi; Bowen Li; Bin Yuan Hui; Bai Lin Wang; Jin Yang Li; Jin Wang Wu; Yuanjun Laili
Modelos de Física da Linguagem: Parte 3.2, Manipulação do Conhecimento [link do documento] 25/09/2023
Zeyuan Allen-Zhu; Yuanzhi Li
A maldição da reversão: quais tokens você prevê estão subjacentes à maldição da fatoração e muito mais [link do documento] 07/06/2023
Ouail Kitouni; Niklas Nolte; Diane Bouchacourt; Adina Williams; Mike Rabbat; Marcos Ibrahim
^ back to top ^
Artigos que exploram como o desempenho do modelo aumenta com o tamanho do modelo, tamanho dos dados ou recursos computacionais e o surgimento de habilidades inesperadas.
Desvendando a teoria por trás do dimensionamento de redes neurais de 1 bit [link do documento] 03/11/2024
Majid Daliri; Canção de Zhao; Chiwun Yang
Como o tamanho crítico do lote é dimensionado no pré-treinamento? [link do documento] 2024/10/29
Han Lin Zhang; Depen Morwani; Nikhil Vyas; Jing Feng Wu; Difan Zou; Udaya Ghai; Reitor Foster; Sham Kakade
Uma teoria da informação de escala de tamanho ideal para computação, emergência e platôs em modelos de linguagem [link do documento] 15/10/2024
Anuj K. Nayak; Lav R. Varshney
Guia do Mochileiro para Dimensionar a Estimativa da Lei [link do documento] 15/10/2024
Leshem Choshen; YangZhang; Jacó Andreas
Dimensionando leis em arquiteturas de modelos: uma análise comparativa de modelos densos e MoE em modelos de linguagem grande [link do documento] 08/10/2024
Siqi Wang; Zheng Yu Chen; Bei Li; Keqing He; Min Zhang; Jingang Wang
Grokking no limite da separabilidade linear [link do documento] 06/10/2024
Alon Beck; Noam Levi; Yohai Bar-Sinai
Um estudo empírico de leis de escala para transferência [link do documento] 30/08/2024
Matthew Barnett
Um modelo de percolação de emergência: analisando transformadores treinados em uma linguagem formal [link do documento] 22/08/2024
Ekdeep Singh Lubana; Kyogo Kawaguchi; Robert P. Dick; Hidenori Tanaka
Lei de escalonamento com recozimento da taxa de aprendizagem [link do documento] 20/08/2024
Tecido Howe; Vênus Wang; Lu Wang
Lei de Desempenho de Modelos de Grandes Linguagens [link do documento] 19/08/2024
Chuhan Wu; Ruiming Tang
Medidas de progresso da teoria da informação revelam que Grokking é uma transição de fase emergente [link do documento] 16/08/2024
Kenzo Garra; Sebastiano Stramaglia; Daniele Marinazzo
Macacos de linguagem grande: dimensionamento de computação de inferência com amostragem repetida [link do documento] 31/07/2024
Bradley Brown; Jordan Juravsky; Ryan Erlich; Ronald Clark; Quoc V.Le; Cristóvão Ré; Azalia Mirhoseini
Emergência em modelos não neurais: grokking aritmética modular via produto externo de gradiente médio [link do papel] 29/07/2024
Neil Mallinar; Daniel Beaglehole; Libin Zhu; Adityanarayanan Radhakrishnan; Parthe Pandita; Michael Belkin
Explorando tendências de escalabilidade na robustez do LLM [link do documento] 25/07/2024
Nikolaus Howe; Michał Zajac; Ian McKenzie; Oskar Hollinsworth; Tom Tseng; Pierre-Luc Bacon; Adam Gleave
Compreendendo a interação de escala, dados e preconceitos em modelos de linguagem: um estudo de caso com BERT [link do documento] 25/07/2024
Maomé Ali; Swetasudha Panda; Qin Lan Shen; Michael Wick; Ari Kobren
Dimensionando leis com vocabulário: modelos maiores merecem vocabulários maiores [link do documento] 18/07/2024
Chaofan Tao; Qian Liu; Longxu Dou; Niklas Muennighoff; Zhong Wei Wan; Ping Luo; Min Lin; Ngai Wong
Por que você Grok? Uma análise teórica da adição modular Grokking [link do artigo] 17/07/2024
Mohamad Amin Mohamadi; Zhiyuan Li; Lei Wu; Danica J. Sutherland
Previsão de capacidades emergentes por meio de ajuste fino [link do documento] 10/07/2024
Charlie Victor Snell; Eric Wallace; Dan Klein; Sergey Levine
Resolvendo discrepâncias no dimensionamento ideal de computação de modelos de linguagem [link do documento] 25/06/2024
Tomer Porian; Mitchell Wortsman; Jenia Jitsev; Luís Schmidt; Yair Carmon
Leis de escala para modelos de linguagem de complexidade linear [link do documento] 24/06/2024
Xu Yang Shen; Dong Li; Ruitão Leng; ZhenQin; Weigao Sol; Yiran Zhong
Dimensionando leis para memorização de fatos de grandes modelos de linguagem [link do documento] 22/06/2024
Xing Yu Lu; Xiao Nan Li; Qin Yuan Cheng; Kai Ding; Xuan Jing Huang; Xipeng Qiu
Reconciliando as leis de escamação de Kaplan e chinchila [link do documento] 12/06/2024
Tim Pearce; Canção de Jinyeop
Deep Grokking: Redes Neurais Profundas Generalizariam Melhor? [link do artigo] 29/05/2024
Simin Fã; Razvan Pascanu; Martin Jaggi
Colapso linguístico: colapso neural em modelos de linguagem (grandes) [link do artigo] 28/05/2024
Robert Wu; Vardan Papyan
Leis de escalonamento e treinamento otimizado para computação além das durações fixas do treinamento [link do documento] 28/05/2024
Alexander Hägele; Elie Bakouch; Atli Kosson; Loubna Ben Allal; Leandro Von Werra; Martin Jaggi
gzip prevê leis de escalabilidade dependentes de dados [link do documento] 26/05/2024
Rohan Pandey
Emergência de uma fase de abstração de alta dimensão em transformadores de linguagem [link do artigo] 24/05/2024
Emily Cheng; Diego Doimo; Corentin Kervadec; Iuri Macocco; Jade Yu; Alessandro Laio; Marco Baroni
Uma justificativa da perspectiva da frequência para grokking no treinamento de redes neurais [link do artigo] 24/05/2024
Zhanchen Zhou; YaoyuZhang; Zhi-Qin John Xu
Transformadores grokked são raciocinadores implícitos: uma jornada mecanicista até o limite da generalização [link do documento] 23/05/2024
Boshi Wang; Xiang Yue; Yu Su; Huan Sol
Mistura de dados tornada eficiente: uma lei de escala bivariada para pré-treinamento de modelo de linguagem [link do documento] 23/05/2024
Ce Ge; Zhijian Ma; Dao Yuan Chen; Yaliang Li; Bolin Ding
4 + 3 fases das leis de escala neural ideal para computação [link do documento] 23/05/2024
Elliot Paquette; Courtney Paquette; Lechão Xiao; Jeffrey Pennington
Escravos da lei dos grandes números: uma propriedade de equipartição assintótica para perplexidade em modelos de linguagem generativa [link do documento] 2024/05/22
Raghu Mudumbai; Tyler Bell
Quantificando a emergência em grandes modelos de linguagem [link do documento] 21/05/2024
Pendure Chen; Xin Yu Yang; Jiaying Zhu; Wenya Wang
Além das leis de escala: Compreendendo o desempenho do transformador com memória associativa [link do documento] 14/05/2024
Xue Yan Niu; Bo Bai; Lei Deng; Wei Han
Mais computação é o que você precisa [link do documento] 30/04/2024
Zhen Guo
Um modelo exatamente solucionável para leis de emergência e escala [link do artigo] 26/04/2024
Yoonsoo Nam; Nayara Fonseca; Seok Hyeong Lee; Ard Louis
Por que os modelos de linguagem pequena apresentam desempenho inferior? Estudando a saturação do modelo de linguagem por meio do gargalo Softmax [link do documento] 11/04/2024
Nathan Godey; Éric de la Clergerie; Benoît Sagot
Uma exploração em larga escala de
Lucas Lingle
Habilidades emergentes em modelos de linguagem generativa em escala reduzida [link do documento] 02/04/2024
Sherin Muckatira; Vijeta Despande; Vladislav Lialin; Anna Rumshisky
Compreendendo as habilidades emergentes dos modelos de linguagem a partir da perspectiva da perda [link do documento] 23/03/2024
Zhengxiao Du; Aohan Zeng; Yuxiao Dong; Jie Tang
Desvendando o mistério das leis de escala: Parte I [link do documento] 21/03/2024
Hui Su; Zhi Tian; Xiao Yu Shen; Xunliang Cai
Os modelos de linguagem são dimensionados de forma confiável com treinamento excessivo e em tarefas posteriores [link do documento] 13/03/2024
Samir Yitzhak Gadre; Georgios Smyrnis; Vaishaal Shankar; Suchin Gururangan; Mitchell Wortsman; Rulin Shao; Jean Mercat; Alex Fang; Jeffrey Li; Sedrick Keh; Rui Xin; Marianna Nezhurina; Igor Vasiljevic; Jenia Jitsev; Alexandros G. Dimakis; Gabriel Ilharco; Canção Shuran; Thomas Kollar; Yair Carmon; Achal Dave; Reinhard Heckel; Niklas Muennighoff; Ludwig Schmidt
Quando o dimensionamento encontra o ajuste fino do LLM: o efeito dos dados, do modelo e do método de ajuste fino [link do documento] 26/02/2024
Biao Zhang; Zhong Tao Liu; Colin Cereja; Orhan Firat
Interpretando transformadores grokked em aritmética modular complexa [link do artigo] 26/02/2024
Hiroki Furuta; Gouki Minegishi; Yusuke Iwasawa; Yutaka Matsuo
A Tale of Tails: colapso do modelo como uma mudança nas leis de escala [link do documento] 10/02/2024
Elvis Dohmatob; Yunzhen Feng; Pu Yang; François Charton; Júlia Kempe
Dimensionando modelos de linguagem com restrição de dados [link do documento] 2023/10/25
Niklas Muennighoff; Alexandre M. Rush; Boaz Baraque; Teven Le Scao; Alexandra Piktus; Nouamane Tazi; Sampo Pyysalo; Thomas Lobo; Colin Raffel
O custo da redução de modelos de linguagem: a recordação de fatos se deteriora antes da aprendizagem no contexto [link do documento] 2023/10/06
Tian Jin; Nolan Clemente; Xin Dong; Vaishnavh Nagarajan; Michael Carbin; Jonathan Ragan-Kelley; Gintare Karolina Dziugaite
As habilidades emergentes de grandes modelos de linguagem são uma miragem? [link do artigo] 28/04/2023
Rylan Schaeffer; Brando Miranda; Sanmi Koyejo
Treinamento de modelos de linguagem grande com otimização de computação [link do documento] 29/03/2022
Jordan Hoffmann; Sebastião Borgeaud; Arthur Mensch; Elena Buchatsky; Trevor Cai; Eliza Rutherford; Diego de Las Casas; Lisa Anne Hendricks; Johannes Welbl; Aidan Clark; Tom Hennigan; Eric Noland; Katie Millican; George van den Driessche; Bogdan Damoc; Aurélia Guy; Simão Osindero; Karen Simonyan; Erich Elsen; Jack W. Rae; Oriol Vinyals; Laurent Sifre
Leis de dimensionamento para modelos de linguagem neural [link do documento] 22/01/2020
Jared Kaplan; Sam McCandlish; Tom Henighan; Tom B. Brown; Benjamim Xadrez; Criança recuperada; Scott Gray; Alec Radford; Jeffrey Wu; Dario Amodei
^ back to top ^
Artigos enfocando como grandes modelos de linguagem armazenam, recuperam e utilizam conhecimento, analisando os mecanismos de memória envolvidos.
Uma estrutura geométrica para compreender a memorização em modelos generativos [link do artigo] 31/10/2024
Brendan LeighRoss; Hamidreza Kamkari; Tongzi Wu; Rasa Hosseinzadeh; Zhaoyan Liu; George Stein; Jesse C. Cresswell; Gabriel Loaiza-Ganem
Capacidade ideal de memorização de transformadores [link em papel] 26/09/2024
Tokio Kajitsuka; Issei Sato
Memória Schrodingers: modelos de linguagem grande [link do documento] 16/09/2024
Wei Wang; Qing Li
A autoatenção limita a capacidade da memória de trabalho de modelos baseados em transformadores [link do documento] 16/09/2024
Dongyu Gong; Hantao Zhang
Ótima memória, raciocínio superficial: limites de kNN-LMs [link do artigo] 21/08/2024
Shangyi Geng; Indo Zhao; Alexandre M Rush
Memorização na aprendizagem em contexto [link do documento] 21/08/2024
Shahriar Golchin; Mihai Surdeanu; Steven Bethard; Eduardo Blanco; Ellen Riloff
Generalização primeiro, memorização em segundo? Localização de memorização para tarefas de classificação de idiomas naturais [link de papel] 2024-08-09
Verna Dankers; Ivan Titov
Compreendendo a memorização no LLMS: Dinâmica, Fatores de Influência e Implicações [Link do Paper] 2024-07-27
Até Speicher; Mohammad Aflah Khan; Qinyuan Wu; Vedante Nanda; Soumi Das; Bishwamittra ghosh; Krishna P. Gummadi; Evimaria Terzi
Memorização literal desmistificadora em grandes modelos de idiomas [Link de papel] 2024-07-25
Jing Huang; Diyi Yang; Christopher Potts
Do conflito interno à adaptação contextual dos modelos de idiomas [Link de papel] 2024-07-24
Sara Vera Marjanović; Haeun yu; Pepa atanasova; Maria Maistro; Christina Lioma; Isabelle Augenstein
Generalização vs Memorização: Rastrear os Recursos dos Modelos de Linguagem de volta aos dados de pré-treinamento [Link do artigo] 2024-07-20
Antonis Antoniades; Xinyi Wang; Yanai Elazar; Alfonso Amayuelas; Alon Albalak; Kexun Zhang; William Yang Wang
Física dos modelos de idiomas: Parte 3.1, armazenamento e extração de conhecimento [link de papel] 2024-07-16
Zeyuan Allen-Zhu; Yuanzhi Li
Cabeças de indução como um mecanismo essencial para a correspondência de padrões na aprendizagem no contexto [link de papel] 2024-07-09
J. Crosbie; E. Shutova
Os LLMs sonham com elefantes (quando instruídos para não)? Associação de Conceito Latente e Memória Associativa em Transformers [Link do Paper] 2024-06-26
Yibo Jiang; Goutham Rajendran; Pradeep Ravikumar; Bryon Aragam
Leis de dimensionamento para memorização de fatos de grandes modelos de linguagem [Link de papel] 2024-06-22
Xingyu lu; Xiaonan Li; Qinyuan Cheng; Kai Ding; Xuanjing Huang; XIPENG QIU
Conectando os pontos: os LLMs podem inferir e verbalizar a estrutura latente a partir de dados de treinamento díspares [link de papel] 2024-06-20
Johannes Treutlein; Dami Choi; Jan Betley; Cem Anil; Samuel Marks; Roger Baker Grosse; Owain Evans
Descobrindo memórias latentes: Avaliando o vazamento de dados e os padrões de memorização em grandes modelos de linguagem [Link de papel] 2024-06-20
Sunny Duan; Mikail Khona; Abhiram Iyer; Rylan Schaeffer; Ila r fiete
Entendendo a Finetuning para extração de conhecimento factual [Link do artigo] 2024-06-20
Gaurav Ghosal; Tatsunori Hashimoto; Aditi Raghunathan
Estimando conhecimento em grandes modelos de idiomas sem gerar um único token [link de papel] 2024-06-18
Daniela Gottesman; Mor Geva
Como os grandes modelos de linguagem adquirem conhecimento factual durante o pré -treinamento? [Link em papel] 2024-06-17
Hoyeon Chang; JINHO Park; Seonghyeon Ye; Sohee Yang; Youngkyung Seo; Du-seon Chang; Minjoon SEO
Seja como um peixe dourado, não memorize! Mitigação de memorização em LLMs generativos [link de papel] 2024-06-14
Abhimanyu Hans; Yuxin Wen; Neel Jain; John Kirchenbauer; Hamid Kazemi; Prajwal Singhania; Siddharth Singh; Gowthami SomePalli; Jonas Geiping; Abhinav Bhatele; Tom Goldstein
Circuitos de conhecimento em transformadores pré-treinados [link de papel] 2024-05-28
Yunzhi Yao; Ningyu Zhang; Zekun xi; MenGru Wang; Ziwen Xu; Shumin Deng; Huajun Chen
Limites da capacidade de memória superior e inferior dos transformadores para previsão do próximo toque [link de papel] 2024-05-22
Liam Madden; Curtis Fox; Christos Thrampoulidis
Uma análise multi-perspectiva da memorização em grandes modelos de idiomas [Link de papel] 2024-05-19
Bowen Chen; Namgi Han; Yusuke Miyao
Física dos modelos de idiomas: Parte 3.3, Leis de escala de capacidade de conhecimento [Link do artigo] 2024-04-08
Zeyuan Allen-Zhu; Yuanzhi Li
Capacidade de memorização da atenção de várias cabeças em transformadores [link de papel] 2024-03-02
Sadegh Mahdavi; Renjie Liao; Christos Thrampoulidis
Nascimento de um transformador: um ponto de vista da memória [link de papel] 2023-11-06
Alberto Bietti; Vivien Cabannes; Diane Bouchacourt; Herve jegou; Leon Bottou
Física dos modelos de idiomas: Parte 3.2, Manipulação do Conhecimento [Link do artigo] 2023-09-25
Zeyuan Allen-Zhu; Yuanzhi Li
A memorização da rede neural pode estar localizada? [Link em papel] 2023-07-18
Pratyush Maini; Michael C. Mozer; Hanie Sedghi; Zachary C. Lipton; J. Zico Kolter; Chiyuan Zhang
Quantificando memorização entre modelos de linguagem neural [Link de papel] 2022-02-15
Nicholas Carlini; Daphne Ippolito; Matthew Jagielski; Katherine Lee; Florian Tramer; Chiyuan Zhang
^ back to top ^
Artigos discutindo vários aspectos do processo de treinamento, incluindo otimização, ajuste fino e o cenário de treinamento de grandes modelos de idiomas.
Convergência global no treinamento de transformadores em larga escala [link de papel] 2024-10-31
Cheng Gao; Yuan Cao; Zihao Li; Yihan ele; Mengdi Wang; Han Liu; Jason Matthew Klusowski; Jianqing Fan
O que aconteceu nas camadas de LLMS quando treinado para o pensamento rápido versus lento: uma perspectiva de gradiente [link de papel] 2024-10-31
Ming Li; Yanhong Li; Tianyi Zhou
Aprendendo e transferindo Bigrams contextuais esparsos com transformadores lineares [Link de papel] 2024-10-30
Yunwei Ren; Zixuan Wang; Jason D. Lee
Aprendizagem abrupta em Transformers: Um estudo de caso sobre conclusão da matriz [link de papel] 2024-10-29
Pulkit Gopalani; Ekdeep Singh Lubana; Wei Hu
Lora vs ajuste fino completo: uma ilusão de equivalência [link de papel] 2024-10-28
Reece Shuttleworth; Jacob Andreas; Antonio Torralba; Pratyusha Sharma
Um viés de simplicidade de distribuição na dinâmica de aprendizado dos Transformers [Link de papel] 2024-10-25
Riccardo Rende; Federica Gerace; Alessandro Laio; Sebastian Goldt
Chefes de atenção do ativo: fenômenos de toque extremo mecanisticamente desmistificados no LLMS [link de papel] 2024-10-17
Tianyu Guo; DRUV PAI; Yu bai; Jiantao Jiao; Michael I. Jordan; Song Mei
Como os transformadores implementam os chefes de indução: Análise de aproximação e otimização [Link do artigo] 2024-10-15
Mingze Wang; Ruoxi Yu; Weinan E; Lei Wu
O que significa ser um transformador? Insights de uma análise hessiana teórica [Link do artigo] 2024-10-14
Weronika Ormaniec; Felix Dangel; Sidak Pal Singh
Adaptação odisseia no LLMS: Por que pré -treinamento adicional às vezes falha em melhorar? [Link em papel] 2024-10-08
Fırat Önccel; Matthias Bethge; Beyza Ermis; Mirco Ravanelli; Cem Subakan; Çağatay yıldız
Sobre a otimização e generalização de transformadores de duas camadas com descida de gradiente de sinais [Link de papel] 2024-10-07
Bingrui Li; Wei Huang; Andi Han; Zhanpeng Zhou; Taiji Suzuki; Jun Zhu; Jianfei Chen
Compreendendo as taxas de aprendizado de decados de decados do aquecimento: uma perspectiva da paisagem de perda do vale do rio [Link de papel] 2024-10-07
Kaiyue Wen; Zhiyuan Li; Jason Wang; David Hall; Percy Liang; TENGYU MA
Treinamento Transformadores não lineares para inferência de cadeia de pensamentos: uma análise de generalização teórica [Link do artigo] 2024-10-03
Hongkang Li; Meng Wang; Songtao Lu; Xiaodong Cui; Pin-yu Chen
Insights teóricos sobre o mecanismo de atenção de ajuste fino: generalização e otimização [link de papel] 2024-10-03
Xinhao yao; Hongjin Qian; Xiaolin hu; Gengze xu; Yong Liu
Classificadores de transformadores treinados generalizam e exibem o excesso de ajuste benigno no contexto [link de papel] 2024-10-02
Spencer FREI; Gal Vardi
Para uma compreensão teórica dos dados sintéticos no LLM pós-treinamento: uma perspectiva de garneco reverso [link de papel] 2024-10-02
Zeyu Gan; Yong Liu
Investigando o impacto da complexidade do modelo em grandes modelos de linguagem [link de papel] 2024-10-01
Jing Luo; Huiyuan Wang; Weiran Huang
Benigh ou não-benigno sobre ajuste na seleção de token do mecanismo de atenção [link de papel] 2024-09-26
Keitaro Sakamoto; Issei Sato
Convergência não asintótica de transformadores de treinamento para previsão da próxima toque [Link do papel] 2024-09-25
Ruiquan Huang; Yingbin Liang; Jing Yang
Otimização Hiper-parâmetros Leis para grandes modelos de idiomas [Link de papel] 2024-09-07
Xingyu xie; Kuangyu Ding; Shuicheng Yan; Kim-Chuan Toh; Tianwen Wei
O Otimizador ADEMAMIX: Melhor, mais rápido, mais antigo [link de papel] 2024-09-05
Matteo Pagliardini; Pierre Ablin; David Grangier
Clustering and Alignment: Compreendendo a dinâmica de treinamento em adição modular [link de papel] 2024-08-18
Tiberiu musat
Convergência global no treinamento de transformadores em larga escala [link de papel] 2024-08
Cheng Gao; Yuan Cao; Zihao Li; Yihan ele; Mengdi Wang; Han Liu; Jason M. Klusowski; Jianqing Fan
Sobre a convergência de transformadores rasos somente para codificadores [link de papel] 2024-08
Yongtao Wu; Fanghui Liu; Grigorios G Chrysos; Volkan Cevher
Ajuste fino com eficiência de parâmetro para aprendizado contínuo: uma perspectiva do kernel tangente neural [link de papel] 2024-07-24
Jingren Liu; Zhong Ji; Yunlong Yu; Jiale Cao; Yanwei Pang; Jungong Han; Xuelong Li
Dinâmica de aprendizado do LLM Finetuning [Link de papel] 2024-07-15
Yi Ren; Danica J. Sutherland
Desconstruindo o que faz um bom otimizador para modelos de idiomas [Link de papel] 2024-07-10
Rosie Zhao; Depen Morwani; David Brandfonbrener; Nikhil Vyas; Sham Kakade
Generalização de tiro zero durante a instrução Tuning: Insights da similaridade e granularidade [Link de papel] 2024-06-17
Bingxiang He; Ning Ding; Cheng Qian; Jia Deng; Ganqu Cui; Lifan Yuan; Huan-Ang Gao; Huimin Chen; Zhiyuan Liu; Sol Maosong
Compreendendo a sondagem linear e depois modelos de linguagem de ajuste fino da perspectiva do NTK [Link de papel] 2024-05-27
Akiyoshi Tomihari; Issei Sato
Limites infinitos da dinâmica de transformadores de várias cabeças [link de papel] 2024-05-24
Blake Bordelon; Hamza Tahir Chaudhry; Cengiz Pehlevan
Para uma compreensão teórica da 'maldição de reversão' via dinâmica de treinamento [link de papel] 2024-05-07
Hanlin Zhu; Baihe Huang; Shaolun Zhang; Michael Jordan; Jiantao Jiao; Yuandong Tian; Stuart Russell
Controle a abordagem teórica para ajustar e transferir aprendizado [link de papel] 2024-04-16
Erkan Bayram; Shenyu Liu; Mohamed-Ali Belabbas; Tamer Başar
Veja o texto: modelos de idiomas ajustados para instruções são seletores de múltipla escolha mais robustos do que você pensa [link de papel] 2024-04-12
Xinpeng Wang; Chengzhi Hu; Bolei ma; Paul Röttger; Plank Barbara
Sobre os dados de treinamento Influência dos modelos GPT [Link em papel] 2024-04-11
Qingyi Liu; Yekun Chai; Shuohuan Wang; Yu sol; Keze Wang; Hua Wu
Melhores práticas e lições aprendidas sobre dados sintéticos para modelos de idiomas [link de papel] 2024-04-11
Ruibo Liu; Jerry Wei; Fangyu Liu; Chenglei Si; Yanzhe Zhang; Jinmeng Rao; Steven Zheng; Daiyi Peng; Diyi Yang; Denny Zhou; Andrew M. Dai
Quão ruim é o treinamento em dados sintéticos? Uma análise estatística do colapso do modelo de linguagem [link de papel] 2024-04-07
Mohamed El Amine Seddik; Suei-Wen Chen; Soufiane Hayou; Pierre Youssef; Merouane Debbah
Apresentando o poder de generalização dos grandes modelos de idiomas de ajuste fino [Link de papel] 2024-03-14
Haoran Yang; Yumeng Zhang; Jiaqi Xu; Hongyuan Lu; Pheng Ann Heng; Wai Lam
Transformadores ficam estáveis: uma teoria de propagação de sinal de ponta a ponta para modelos de idiomas [Link de papel] 2024-03-14
Akhil Kedia; Mohd Abbas Zaidi; Sushil Khyalia; JUNG JUNG; Severo Goka; Haejun Lee
A atenção linear é (talvez) tudo o que você precisa (para entender a otimização do transformador) [link de papel] 2024-03-13
Kwangjun Ahn; Xiang Cheng; Música de Minhak; Chulhee Yun; Ali Jadbabaiie; Suvrit Sra
Marcas de trajetórias de otimização em redes neurais e LLMs: os comprimentos, dobras e becos sem saída [link de papel] 2024-03-12
Sidak Pal Singh; Bobby ele; Thomas Hofmann; Bernhard Schölkopf
O núcleo heurístico: Compreendendo a generalização da sub-rede em modelos de idiomas pré-treinados [link de papel] 2024-03-06
Adithya Bhaskar; Dan Friedman; Danqi Chen
Dinâmica de treinamento de atenção softmax de várias cabeças para aprendizado no contexto: emergência, convergência e otimização [link de papel] 2024-02-29
Siyu Chen; Heejune Sheen; Tianhao Wang; Zhuoran Yang
Como os transformadores aprendem estrutura causal com descida de gradiente [link de papel] 2024-02-22
Eshaan Nichani; Alex Damian; Jason D. Lee
O treinamento de Lora no regime NTK não possui mínimos locais espúrios [link de papel] 2024-02-19
Uijeong Jang; Jason D. Lee; Ernest K. Ryu
Sobre o surgimento da linearidade cruzada no paradigma pré-finheiro [Link de papel] 2024-02-06
Zhanpeng Zhou; Zijun Chen; Yilan Chen; Bo Zhang; Junchi Yan
Os transformadores aprendem através do aumento gradual da classificação [link de papel] 2023-12-10
Enric Boix-Adsera; Etai Littwin; Emmanuel Abbe; Samy Bengio; Joshua Susskind
Analisando mecanisticamente os efeitos do ajuste fino em tarefas definidas processualmente [link de papel] 2023-11-21
Samyak Jain; Robert Kirk; Ekdeep Singh Lubana; Robert P. Dick; Hidenori Tanaka; Edward Grefenstette; Tim Rocktäschel; David Scott Krueger
Conectando modelo de linguagem pré-treinado e tarefa a jusante por meio de propriedades de representação [Link do artigo] 2023-11-02
Chenwei Wu; Holden Lee; Rong Ge
Digitalize e Snap: Entendendo a dinâmica do treinamento e a composição do token no transformador de 1 camada [link de papel] 2023-07-02
Yuandong Tian; Wang yiping; Beidi Chen; Simon du
Uma visão baseada no kernel do modelo de linguagem fino [link de papel] 2023-06-15
Sadhika Malladi; Alexander Wettig; Dingli yu; Danqi Chen; Sanjeev Arora
Uma análise de estabilidade do ajuste fino de um modelo pré-treinado [link de papel] 2023-01-24
Zihao fu; Anthony Man-cho assim; Nigel Collier
^ back to top ^
Artigos analisando as capacidades de aprendizado e o desempenho da generalização dos modelos de idiomas, da fraca à forte generalização.
Generalização e limites de risco para redes neurais recorrentes [link de papel] 2024-11-05
Xuewei Cheng; Ke huang; Shujie Ma
Generalização de comprimento provável na previsão de sequência via filtragem espectral [link de papel] 2024-11-01
Annie Marsden; Evan dogariu; Naman Agarwal; Xinyi Chen; Daniel Suo; Elad Hazan
RL-Star: Análise teórica das estruturas de aprendizado de reforço para o Razão autodidata [Link de papel] 2024-10-31
Fu-chieh Chang; Yu-Ting Lee; Hui-ying Shih; Pei-yuan wu
Mistura de papagaios: os especialistas melhoram a memorização mais do que o raciocínio [link de papel] 2024-10-24
Samy Jelassi; Clara Mohri; David Brandfonbrener; Alex Gu; Nikhil Vyas; Nikhil Anand; David Alvarez-Melis; Yuanzhi Li; Sham M. Kakade; ERAN MALACH
Como a precisão numérica afeta os recursos de raciocínio matemático do LLMS [link de papel] 2024-10-17
Guhao Feng; Kai Yang; Yuntian Gu; Xinyue ai; Shengjie Luo; Jiacheng Sun; Ele ele; Zhenguo Li; Liwei Wang
Sobre os limites de erro de generalização dependentes da classificação para transformadores [link de papel] 2024-10-15
Lan V. Truong
Excesso benigno em atenção de uma única cabeça [link de papel] 2024-10-10
Roey Magen; Shuning Shang; Zhiwei xu; Spencer FREI; Wei Hu; Gal Vardi
Dinâmica do aprendizado de conceitos e generalização de composição [link de papel] 2024-10-10
Yongyi Yang; Core Francisco Park; Ekdeep Singh Lubana; Maya Okawa; Wei Hu; Hidenori Tanaka
Excesso benigno para regressão com redes Relu de duas camadas treinadas [link de papel] 2024-10-08
Junhyung Park; Patrick Bloebaum; Shiva Prasad Kasiviswanathan
Generalização fraca a forte comprovação por meio de excesso de benigno [link de papel] 2024-10-06
David X. Wu; Anant Sahai
Uma estrutura formal para entender a generalização de comprimento em transformadores [link de papel] 2024-10-03
Xinting huang; Andy Yang; Satwik Bhattamishra; Yash Sarrof; Andreas Krebs; Hattie Zhou; Preetum Nakkiran; Michael Hahn
Classificadores de transformadores treinados generalizam e exibem o excesso de ajuste benigno no contexto [link de papel] 2024-10-02
Spencer FREI; Gal Vardi
Linhas de pensamento em grandes modelos de linguagem [Link em papel] 2024-10-02
Raphaël Sarfati; Toni JB Liu; Nicolas Boullé; Christopher J. Earls
Investigando o impacto da complexidade do modelo em grandes modelos de linguagem [link de papel] 2024-10-01
Jing Luo; Huiyuan Wang; Weiran Huang
Excesso benigno ou não-beninado na seleção de token do mecanismo de atenção [Link de papel] 2024-09-26
Keitaro Sakamoto; Issei Sato
Compreendendo o viés de simplicidade em relação aos mapeamentos de composição via dinâmica de aprendizado [Link de papel] 2024-09-15
Yi Ren; Danica J. Sutherland
Generalização inesquecível em modelos de idiomas [Link de papel] 2024-09-03
Eric Zhang; Leshem escolhido; Jacob Andreas
As muitas faces de aprendizado ideal fraco a forte [link de papel] 2024-08-30
Mikael Møller Høgsgaard; Kasper Green Larsen; Markus Engelund Mathiasen
Física dos modelos de idiomas: Parte 2.2, Como aprender com os erros sobre problemas matemáticos da escola [Link de papel] 2024-08-29
Tian Ye; Zicheng Xu; Yuanzhi Li; Zeyuan Allen-Zhu
Generalização fora da distribuição por composição: uma lente através de cabeças de indução em Transformers [link de papel] 2024-08-18
Música de Jiajun; Zhuoyan Xu; Yiqiao Zhong
Sobre a generalização do aprendizado de preferência com o DPO [link de papel] 2024-08-06
Shawn im; Yixuan Li
Indutivo ou dedutivo? Repensando as habilidades fundamentais de raciocínio do LLMS [link de papel] 2024-07-31
Kewei Cheng; Jingfeng Yang; Haoming Jiang; Zhengyang Wang; Binxuan Huang; Ruirui Li; Shiyang Li; Zheng Li; Yifan Gao; Xian Li; Bing yin; Yizhou Sun.