Cette liste d'articles se concentre sur l' analyse théorique et empirique des modèles de langage, en particulier des grands modèles de langage (LLM). Les articles de cette liste étudient le comportement d'apprentissage, la capacité de généralisation et d'autres propriétés des modèles de langage par le biais d'une analyse théorique, d'une analyse empirique ou d'une combinaison des deux.
Portée de cette liste :
Limites de cette liste :
Statistiques de cette liste de papier :
Si vous avez des suggestions ou souhaitez contribuer, n'hésitez pas à ouvrir un problème ou une pull request.
Pour plus de détails sur la manière de contribuer, veuillez vous référer aux directives de contribution.
Vous pouvez également partager vos réflexions et discuter avec d’autres personnes dans les discussions.
Note
Pour la version non classée, veuillez vous référer à ici.
^ back to top ^
Catégories axées sur différents phénomènes, propriétés et comportements observés dans les grands modèles de langage (LLM) et les modèles basés sur des transformateurs.
^ back to top ^
Articles axés sur l'analyse théorique et empirique de l'apprentissage en contexte dans de grands modèles de langage.
Apprentissage en contexte prouvable avec des transformateurs : une étude de cas sur la régression linéaire [lien papier] 04/11/2024
Dake Bu ; Wei Huang ; Andi Han ; Atsushi Nitanda ; Taiji Suzuki ; Qingfu Zhang; Hau-San Wong
Le transformateur pré-entraîné apprend efficacement les fonctions cibles de faible dimension en contexte [lien papier] 04/11/2024
Kazusato Oko ; Chanson Yujin ; Taiji Suzuki ; Denis Wu
Vers une compréhension de l'apprentissage en contexte et en poids [lien papier] 2024-10-30
Bryan Chan ; Xin Yi Chen ; András György ; Dale Schuurmans
Sur le rôle de la profondeur et du bouclage pour l'apprentissage en contexte avec la diversité des tâches [lien papier] 2024-10-29
Khashayar Gatmiry ; Nikunj Saunshi ; Sashank J. Reddi ; Stéfanie Jegelka; Sanjiv Kumar
Mécanismes de traitement des symboles pour l'apprentissage en contexte dans les réseaux de transformateurs [lien papier] 2024-10-23
Paul Smolenski ; Roland Fernández ; Zhenghao Herbert Zhou ; Mattia Opper ; Jianfeng Gao
Les transformateurs peuvent-ils apprendre en contexte le comportement d'un système dynamique linéaire ? [lien papier] 2024-10-21
Ousman Akram ; Haris Vikalo
Lois d'échelle bayésiennes pour l'apprentissage en contexte [lien papier] 2024-10-21
Aryaman Arora ; Dan Jurafsky ; Christophe Potts ; Noah D. Goodman
Apprentissage en contexte prouvable pour un mélange de régressions linéaires à l'aide de transformateurs [lien papier] 2024-10-18
Yanhao Jin ; Krishnakumar Balasubramanian ; Lifeng Lai
Apprentissage en contexte et rasoir d'Occam [lien papier] 2024-10-17
Éric Elmoznino ; Tom Marty ; Tejas Kasetty ; Léo Gagnon; Sarthak Mittal ; Mahan Fathi ; Dhanya Sridhar ; Guillaume Lajoie
Mise à l'échelle du contexte et mise à l'échelle des tâches dans l'apprentissage en contexte [lien papier] 2024-10-16
Amirhésam Abedsoltan ; Adityanarayanan Radhakrishnan ; Jingfeng Wu ; Mikhaïl Belkin
Contourner la dépendance exponentielle : les transformateurs en boucle apprennent efficacement en contexte grâce à une descente de gradient en plusieurs étapes [lien papier] 2024-10-15
Bo Chen ; Xiaoyu Li ; Ying Yu Liang ; Zhenmei Shi ; Chanson Zhao
Comment les transformateurs mettent en œuvre des têtes à induction : analyse d'approximation et d'optimisation [lien papier] 2024-10-15
Mingze Wang ; Ruoxi Yu ; Weinan E; Lei Wu
Sur la convergence de formation des transformateurs pour la classification en contexte [lien papier] 2024-10-15
Wei Shen ; Ruida Zhou ; Jing Yang ; Cong Shen
Les transformateurs apprennent les chaînes de Markov à ordre variable en contexte [lien papier] 07/10/2024
Ruida Zhou ; Chao Tian ; Suhas Diggavi
Revisiter le circuit d'inférence d'apprentissage en contexte dans les grands modèles de langage [lien papier] 2024-10-06
Hakaze Cho ; Mariko Kato ; Yoshihiro Sakai ; Naoya Inoué
Les classificateurs de transformateurs formés généralisent et présentent un surajustement bénin en contexte [lien papier] 2024-10-02
Spencer Frei ; Gal Vardi
Les transformateurs gèrent l'endogénéité dans la régression linéaire en contexte [lien papier] 02/10/2024
Haodong Liang ; Krishnakumar Balasubramanian ; Lifeng Lai
Dévoilement des têtes à induction : dynamique de formation prouvable et apprentissage des fonctionnalités dans les transformateurs [lien papier] 2024-09-10
Siyu Chen ; Heejune Sheen; Tianhao Wang ; Zhuoran Yang
Apprentissage vs récupération : le rôle des exemples en contexte dans la régression avec les LLM [lien papier] 06/09/2024
Aliakbar Nafar ; Kristen Brent Venable; Parisa Kordjamshidi
Les transformateurs sont des apprenants en contexte non paramétriques Minimax optimaux [lien papier] 2024-08-22
Junon Kim ; Tai Nakamaki ; Taiji Suzuki
Mémorisation dans l'apprentissage en contexte [lien papier] 2024-08-21
Shahriar Golchin ; Mihai Surdeanu ; Steven Béthard ; Eduardo Blanco; Ellen Riloff
Apprentissage en contexte avec représentations : généralisation contextuelle des transformateurs formés [lien papier] 2024-08-19
Tong Yang ; Yu Huang ; Yingbin Liang ; Yuejie Chi
Attribution rapide d'ensembles de données de formation via l'apprentissage en contexte [lien papier] 2024-08-14
Milad Fotouhi ; Mohammad Taha Bahadori ; Oluwaseyi Feyisetan ; Payman Arabshahi ; David Heckermann
Comment les transformateurs utilisent l’attention multi-têtes dans l’apprentissage en contexte ? Une étude de cas sur la régression linéaire clairsemée [lien papier] 2024-08-08
Xingwu Chen ; Lei Zhao ; Difan Zou
Les transformateurs sont des apprenants universels en contexte [lien papier] 02/08/2024
Takashi Furuya ; Maarten V. de Hoop; Gabriel Peyré
La régression polynomiale comme tâche pour comprendre l'apprentissage en contexte grâce au réglage fin et à l'alignement [lien papier] 2024-07-27
Max Wilcoxson ; Morten Svendgard ; Ria Doshi ; Dylan Davis ; Reya Vir ; Anant Sahai
Dévoilement de l'apprentissage en contexte : un système de coordonnées pour comprendre son mécanisme de fonctionnement [lien papier] 2024-07-24
Anhao Zhao ; Fanghua Ye ; Jinlan Fu ; Xiao Yu Shen
Le transformateur à une couche apprend de manière prouvée le voisin le plus proche en contexte [lien papier] 2024-07-24
Zihao Li; Yuan Cao ; Cheng Gao ; Yihan-Il ; Han Liu ; Jason M. Klusowski ; Fan de Jianqing ; Mengdi Wang
Quand les transformateurs peuvent-ils généraliser la composition dans le contexte ? [lien papier] 2024-07-17
Seijin Kobayashi ; Simon Schug ; Yasser Akram ; Florian Redhardt; Johannes von Oswald ; Razvan Pascanu ; Guillaume Lajoie; João Sacramento
Apprentissage en contexte avec les processus neuronaux transformateurs [lien papier] 2024-06-19
Matthieu Ashman ; Cristiana Diaconu; Adrien Weller ; Richard E. Turner
Sonder les limites décisionnelles de l'apprentissage en contexte dans de grands modèles de langage [lien papier] 2024-06-17
Siyan Zhao ; Toung Nguyen ; Aditya Grover
Soupe d'État : apprentissage, récupération et mélange de compétences en contexte [lien papier] 2024-06-12
Maciej Pióro ; Maciej Wołczyk ; Razvan Pascanu ; Johannes von Oswald ; João Sacramento
Estimation du taux d'hallucinations de l'IA générative [lien papier] 2024-06-11
Andrew Jesson ; Nicolas Beltran-Vélez ; Quentin Chu ; Sweta Karlekar; Jannik Kossen; Yarin Gal; John P. Cunningham ; David Blei
Les BERT sont des apprenants génératifs en contexte [lien papier] 07/06/2024
David Samuel
Améliorer les performances d'apprentissage en contexte avec uniquement une taille de poids basée sur SVD : une perspective théorique [lien papier] 06/06/2024
Xinhao Yao; Xiaolin Hu ; Shenzhi Yang ; Yong Liu
Qu’apprennent les modèles linguistiques en contexte ? L'hypothèse de la tâche structurée [lien papier] 2024-06-06
Jiaoda Li ; Yifan Hou ; Mrinmaya Sachan ; Ryan Cotterell
Conversion exacte de l'apprentissage en contexte en poids de modèle dans des transformateurs d'attention linéarisés [lien papier] 05/06/2024
Brian K. Chen ; Tianyang Hu ; Hui Jin ; Hwee Kuan Lee ; Kenji Kawaguchi
Apprendre à comprendre : émergence de l'apprentissage en contexte et de la composition des compétences dans les tâches arithmétiques modulaires [lien papier] 2024-06-04
Tianyu He ; Darshil Doshi ; Aritra Das ; Andreï Gromov
Pourquoi les modèles linguistiques plus grands effectuent l'apprentissage en contexte différemment ? [lien papier] 2024-05-30
Zhenmei Shi ; Junyi Wei ; Zhuoyan Xu; Ying Yu Liang
L'apprentissage en contexte est-il suffisant pour suivre l'enseignement dans les LLM ? [lien papier] 2024-05-30
Hao Zhao ; Maksym Andriouchchenko; Francesco Croce; Nicolas Flammarion
L’apprentissage des bonnes variables latentes améliore-t-il nécessairement l’apprentissage en contexte ? [lien papier] 2024-05-29
Sarthak Mittal ; Éric Elmoznino ; Léo Gagnon; Sangnie Bhardwaj; Dhanya Sridhar ; Guillaume Lajoie
Une théorie de l'apprentissage en contexte chez les transformateurs [lien papier] 2024-05-29
Yifei Wang ; Yuyang Wu ; Zeming Wei ; Stéfanie Jegelka; Yisen Wang
Sur la mésa-optimisation dans les transformateurs formés de manière autorégressive : émergence et capacité [lien papier] 2024-05-27
Chen Yu Zheng ; Wei Huang ; Rongzhen Wang ; Guoqiang Wu; Jun Zhu ; Chongxuan Li
Apprentissage en contexte Transformer pour les données catégorielles [lien papier] 2024-05-27
Aaron T. Wang ; Ricardo Henao; Laurent Carin
Adaptation automatique de domaine par des transformateurs dans l'apprentissage en contexte [lien papier] 2024-05-27
Ryuichiro Hataya ; Kota Matsui ; Masaaki Imaizumi
Unifier la sélection et la compression des démonstrations pour l'apprentissage en contexte [lien papier] 2024-05-27
Jun Gao
Sur la robustesse du bruit de l'apprentissage en contexte pour la génération de texte [lien papier] 2024-05-27
Hongfu Gao ; Feipeng Zhang; Wen Yu Jiang ; Jun Shu ; Feng Zheng ; Hongxin Wei
Les MLP apprennent en contexte [lien papier] 2024-05-24
William L.Tong ; Cengiz Pehlevan
Vers une meilleure compréhension de la capacité d'apprentissage en contexte à partir de la quantification de l'incertitude en contexte [lien papier] 2024-05-24
Shang Liu ; Zhongze Cai ; Guanting Chen ; Xiaocheng Li
Les transformateurs en boucle peuvent-ils apprendre à mettre en œuvre une descente de gradient en plusieurs étapes pour un apprentissage en contexte ? [lien papier] 2024-05-02
Khashayar Gatmiry ; Nikunj Saunshi ; Sashank J. Reddi ; Stéfanie Jegelka; Sanjiv Kumar
Apprentissage en contexte sur les classes de fonctions dévoilé pour les transformateurs [lien papier] 02/05/2024
Zhijie Wang ; Bo Jiang ; Shuai Li
Apprentissage en contexte avec des modèles à contexte long : une exploration approfondie [lien papier] 2024-04-30
Amanda Bertsch ; Maor Ivgi; Uri Alon ; Jonathan Bérant ; Matthieu R. Gormley ; Graham Neubig
Que doit faire une tête à induction ? Une étude mécaniste des circuits d'apprentissage en contexte et de leur formation [lien papier] 2024-04-10
Aaditya K. Singh ; Ted Moskovitz; Félix Hill ; Stéphanie CY Chan ; Andrew M. Saxe
Une attention particulière est-elle requise pour l’ICL ? Explorer la relation entre l'architecture du modèle et la capacité d'apprentissage en contexte [lien papier] 2024-04-01
Ivan Lee ; Nan Jiang ; Taylor Berg-Kirkpatrick
Dynamique de formation de l'attention Softmax multi-têtes pour l'apprentissage en contexte : émergence, convergence et optimalité [lien papier] 2024-02-29
Siyu Chen ; Heejune Sheen; Tianhao Wang ; Zhuoran Yang
Comment les transformateurs apprennent la structure causale avec la descente de gradient [lien papier] 2024-02-22
Eshaan Nichani ; Alex Damien ; Jason D. Lee
Apprentissage en contexte d'un bloc transformateur linéaire : avantages du composant MLP et de l'initialisation GD en une étape [lien papier] 2024-02-22
Ruiqi Zhang ; Jingfeng Wu ; Peter L. Bartlett
Identifier les têtes d'induction sémantique pour comprendre l'apprentissage en contexte [lien papier] 2024-02-20
Jie Ren ; Qipeng Guo ; Pendez Yan ; Dongrui Liu ; Xi Peng Qiu ; Dahua Lin
Comment les Transformers effectuent-ils un apprentissage autorégressif en contexte ? [lien papier] 2024-02-08
Michael E. Sander ; Raja Giryes ; Taiji Suzuki ; Mathieu Blondel; Gabriel Peyré
Mamba peut-il apprendre à apprendre ? Une étude comparative sur les tâches d'apprentissage en contexte [lien papier] 2024-02-06
le parc Jongho ; Parc Jaeseung ; Zheyang Xiong; Nayoung Lee ; Jaewoong Cho ; Samet Oymak ; Kangwook Lee ; Dimitris Papailiopoulos
Une analyse théorique de l'information de l'apprentissage en contexte [lien papier] 2024-01-28
Hong Jun Jeon ; Jason D. Lee ; Qi Lei ; Benjamin Van Roy
La nature transitoire de l'apprentissage émergent en contexte chez les transformateurs [lien papier] 2023-12-11
Aaditya K. Singh ; Stéphanie CY Chan ; Ted Moskovitz; Erin Grant ; Andrew M. Saxe ; Félix Colline
Fonctions d'apprentissage en contexte avec un nombre variable de minimums [lien papier] 2023-11-21
David Oniani ; Yan Shan Wang
Explorer la relation entre l'apprentissage en contexte et l'optimisation de l'enseignement [lien papier] 2023-11-17
Hanyu Duan ; Yi Xuan Tang ; Yi Yang ; Ahmed Abbasi; Kar Yan Tam
Quand l’apprentissage en contexte échoue-t-il et pourquoi ? Une étude sur les tâches exigeant de lourdes spécifications [lien papier] 2023-11-15
Hao Peng ; Xiaozhi Wang ; Jianhui Chen ; Weikai Li ; Yunjia Qi ; Zimu Wang ; Zhili Wu; Kaisheng Zeng ; Bin Xu ; Lei Hou ; Juanzi Li
L'apprentissage en contexte se généralise, mais pas toujours de manière robuste : le cas de la syntaxe [lien papier] 2023-11-13
Aaron Mueller ; Albert Webson ; Jackson Petit; Tal Linzen
Les transformateurs apprennent à mettre en œuvre une descente de gradient préconditionnée pour l'apprentissage en contexte [lien papier] 09/11/2023
Kwangjun Ahn; Xiang Cheng ; Hadi Daneshmand ; Suvrit Sra
Les transformateurs apprennent des méthodes d'optimisation d'ordre supérieur pour l'apprentissage en contexte : une étude avec des modèles linéaires [lien papier] 2023-10-26
Deqing Fu; Tian-Qi Chen ; Robin Jia ; Vatsal Sharan
L'apprentissage en contexte crée des vecteurs de tâches [lien papier] 2023-10-24
Roee Hendel ; Mor Geva; Amir Globerson
Vecteurs de fonctions dans les grands modèles de langage [lien papier] 2023-10-23
Éric Todd ; Millicent L. Li ; Arnab Sen Sharma ; Aaron Mueller ; Byron C. Wallace ; David Bau
L'apprentissage en contexte avec Transformer est vraiment équivalent à un modèle d'apprentissage contrasté [lien papier] 2023-10-19
Ruifeng Ren ; Yong Liu
Les transformateurs formés apprennent les modèles linéaires en contexte [lien papier] 2023-10-19
Ruiqi Zhang ; Spencer Frei ; Peter L. Bartlett
Comment les transformateurs apprennent-ils en contexte au-delà des fonctions simples ? Une étude de cas sur l'apprentissage avec des représentations [lien papier] 2023-10-16
Tianyu Guo ; Wei Hu ; Chanson Mei; Huan Wang ; Caiming Xiong ; Silvio Savarese; Yu Bai
Comprendre l'apprentissage en contexte dans les transformateurs et les LLM en apprenant à apprendre les fonctions discrètes [lien papier] 2023-10-13
Satwik Bhattamishra ; Arkil Patel ; Phil Blunsom ; Varun Kanade
Combien de tâches de pré-entraînement sont nécessaires pour l'apprentissage en contexte de la régression linéaire ? [lien papier] 2023-10-13
Jingfeng Wu ; Difan Zou; Zixiang Chen ; Vladimir Braverman ; Quanquan Gu ; Peter Bartlett
L'apprentissage en contexte apprend les relations entre les étiquettes mais n'est pas un apprentissage conventionnel [lien papier] 2023-10-13
Jannik Kossen; Yarin Gal; Tom Rainforth
Convergence des transformateurs en contexte [lien papier] 2023-10-13
Yu Huang ; Yuan Cheng ; Yingbin Liang
Apprentissage en contexte à travers le prisme bayésien [lien papier] 2023-10-13
Madhur Panwar ; Kabir Ahuja; Navin Goyal
Les transformateurs pré-entraînés apprennent-ils vraiment en contexte par descente de gradient ? [lien papier] 2023-10-12
Lingfeng Shen ; Aayush Mishra ; Daniel Khashabi
Qu’apprend-on et comment l’apprentissage en contexte ? Moyenne, paramétrage et généralisation du modèle bayésien [lien papier] 2023-10-10
Yufeng Zhang ; Feng Zhuo Zhang ; Zhuoran Yang ; Zhaoran Wang
Expliquer l'apprentissage émergent en contexte en tant que régression du noyau [lien papier] 05/10/2023
Chi Han ; Ziqi Wang ; Han Zhao ; Heng Ji
CausalLM n'est pas optimal pour l'apprentissage en contexte [lien papier] 02/09/2023
Nan Ding ; Tomer Levinboim ; Jialin Wu; Sébastien Goodman ; Radu Soricut
Une étape de descente de gradient est probablement l'apprenant optimal en contexte avec une couche d'auto-attention linéaire [lien papier] 07/07/2023
Arvind Mahankali; Tatsunori B.Hashimoto ; Tengyu Ma
Les transformateurs en tant que statisticiens : apprentissage en contexte prouvable avec sélection d'algorithmes en contexte [lien papier] 06/07/2023
Yu Bai ; Fan Chen ; Huan Wang ; Caiming Xiong ; Chanson Mei
Les transformateurs apprennent en contexte par descente de gradient [lien papier] 2023-06-15
Johannes von Oswald ; Eyvind Niklasson ; Ettore Randazzo; João Sacramento ; Alexandre Mordvintsev ; Andreï Jmoginov ; Max Vladymyrov
La proximité de l'apprentissage en contexte et du transfert de poids pour la régression Softmax [lien papier] 2023-04-26
Shuai Li ; Chanson Zhao ; Yu Xia ; Tong Yu ; Tianyi Zhou
Une théorie de l'apprentissage émergent en contexte comme induction de structure implicite [lien papier] 2023-03-14
Michael Hahn ; Navin Goyal
La capacité d'apprentissage de l'apprentissage en contexte [lien papier] 2023-03-14
Noam Wies; Yoav Levine ; Amnon Shachoua
Que peuvent apprendre les transformateurs en contexte ? Une étude de cas de classes de fonctions simples [lien papier] 2023-01-14
Shivam Garg ; Dimitris Tsipras ; Percy Liang ; Grégory Vaillant
Les transformateurs se généralisent différemment des informations stockées dans le contexte et dans les poids [lien papier] 2022-10-13
Stéphanie CY Chan ; Ishita Dasgupta ; Junkyung Kim ; Dharshan Kumaran ; Andrew K. Lampinen ; Félix Colline
Responsables de l'apprentissage et de l'intégration en contexte [lien papier] 2022-09-24
Catherine Olsson ; Nelson Elhage ; Neel Nanda ; Nicolas Joseph ; Nova DasSarma; Tom Henighan ; Ben Mann ; Amanda Askell ; Yun Tao Bai ; Anna Chen ; Tom Conerly ; Drain de l'aube ; Ganguli profonds ; Zac Hatfield-Dodds ; Danny Hernández ; Scott Johnston ; Andy Jones ; Jackson Kernion ; Liane Lovitt; Kamal Ndousse; Dario Amodei ; Tom Brown ; Jack Clark ; Jared Kaplan ; Sam McCandlish ; Chris Olah
^ back to top ^
Articles analysant le phénomène de chaîne de pensée dans les grands modèles de langage, explorant les perspectives théoriques et empiriques.
Que s'est-il passé dans les couches LLM lors de la formation à la pensée rapide ou lente : une perspective dégradée [lien papier] 2024-10-31
Ming Li ; Yanhong Li ; Tianyi Zhou
Une compréhension théorique de la chaîne de pensée : raisonnement cohérent et démonstration consciente des erreurs [lien papier] 2024-10-21
Yingqian Cui ; Pengfei Il; XianfengTang ; Qi He; Chen Luo ; Jiliang Tang ; Yue Xing
De la dépendance clairsemée à l'attention éparse : dévoiler comment la chaîne de pensée améliore l'efficacité des échantillons de transformateurs [lien papier] 07/10/2024
Kaiyue Wen ; Huaqing Zhang ; Hongzhou Lin ; Jingzhao Zhang
Formation de transformateurs non linéaires pour l'inférence de chaîne de pensée : une analyse de généralisation théorique [lien papier] 03/10/2024
Hongkang Li ; Meng Wang ; Song Tao Lu ; Xiaodong Cui ; Pin Yu Chen
Autorégressif + Chaîne de pensée (CoT) ≃ Récurrent : le rôle de la récurrence dans les modèles linguistiques et une refonte du transformateur récurrent [lien papier] 2024-09-14
Xiang Zhang ; Muhammad Abdul-Mageed ; Laks contre Lakshmanan
Dévoilement des fondements statistiques des méthodes d'incitation à la chaîne de pensée [lien papier] 2024-08-25
Xinyang Hu ; Feng Zhuo Zhang ; Siyu Chen ; Zhuoran Yang
Décrypter les facteurs influençant l'efficacité de la chaîne de pensée : probabilités, mémorisation et raisonnement bruyant [lien papier] 2024-07-01
Akshara Prabhakar; Thomas L. Griffiths ; R. Thomas McCoy
Sur la capacité de représentation des modèles de langage neuronal avec raisonnement en chaîne de pensée [lien papier] 2024-06-20
Franz Nowak ; Anej Svete; Alexandra Butoï ; Ryan Cotterell
Tête d'itération : une étude mécaniste de la chaîne de pensée [lien papier] 04/06/2024
Vivien Cabannes ; Charles Arnal; Wassim Bouaziz; Alice Yang ; François Charton ; Julia Kempé
Pensons point par point : calcul caché dans les modèles de langage Transformer [lien papier] 2024-04-24
Jacob Pfau ; William Merrill ; Samuel R. Bowman
La chaîne de pensée permet aux transformateurs de résoudre des problèmes intrinsèquement en série [lien papier] 20/02/2024
Zhiyuan Li ; Hong Liu ; Denny Zhou ; Tengyu Ma
Vers la révélation du mystère derrière la chaîne de pensée : une perspective théorique [lien papier] 2023-12-22
Guhao Feng ; Bohang Zhang ; Yuntian Gu ; Haotian Ye ; Di He; Li Wei Wang
Pourquoi les grands modèles de langage peuvent-ils générer une chaîne de pensées correcte ? [lien papier] 2023-10-20
Rassoul Tutunov ; Antoine Grosnit ; Juliusz Ziomek ; Jun Wang ; Haitham Bou-Ammar
Comment les grands modèles de langage mettent-ils en œuvre la chaîne de pensée ? [lien papier] 2023-10-13
Yiqun Wang ; Sile Hu; Yonggang Zhang ; Xiang Tian ; Xuesong Liu ; Yaowu Chen ; Xu Shen ; Jieping Ye
Le pouvoir expressif des transformateurs avec chaîne de pensée [lien papier] 2023-10-13
William Merrill ; Ashish Sabharwal
^ back to top ^
Articles examinant le phénomène des hallucinations dans les modèles de langage, comprenant des analyses théoriques et empiriques.
Pas de déjeuner gratuit : limites fondamentales de l'apprentissage des modèles génératifs non hallucinants [lien papier] 2024-10-24
Changlong Wu; Ananth Grama ; Wojciech Szpankowski
Imagination partagée : les LLM hallucinent de la même manière [lien papier] 2024-07-23
Yilun Zhou ; Caiming Xiong ; Silvio Savarese; Chien-Sheng Wu
Estimation du taux d'hallucinations de l'IA générative [lien papier] 2024-06-11
Andrew Jesson ; Nicolas Beltran-Vélez ; Quentin Chu ; Sweta Karlekar; Jannik Kossen; Yarin Gal; John P. Cunningham ; David Blei
La mise au point des LLM sur les nouvelles connaissances encourage-t-elle les hallucinations ? [lien papier] 2024-05-09
Zorik Gekhman; Gal Yona ; Roee Aharoni ; Matan Eyal ; Amir Feder ; Roi Reichart ; Jonathan Herzig
Mécanismes des hallucinations non factuelles dans les modèles de langage [lien papier] 2024-03-26
Lei Yu ; Meng Cao ; Jackie Chi Kit Cheung ; Yue Dong
Des exemples de réglage fin peu familiers contrôlent la façon dont les modèles de langage hallucinent [lien papier] 08/03/2024
Katie Kang; Éric Wallace ; Claire Tomlin ; Aviral Kumar ; Sergueï Levine
La netteté en contexte comme alertes : une perspective de représentation intérieure pour l'atténuation des hallucinations [lien papier] 2024-03-05
Shiqi Chen ; Miao Xiong ; Junteng Liu ; Zheng Xuan Wu ; Teng Xiao ; Siyang Gao ; Junxian Il
Les modèles de langage calibrés doivent halluciner [lien papier] 2023-11-24
Adam Tauman Kalai ; Santosh S. Vempala
L'étrange cas de l'impossibilité de réponse hallucinatoire : trouver des vérités dans les états cachés de grands modèles de langage trop confiants [lien papier] 2023-10-18
Aviv Slobodkine ; Omer Goldman ; Avi Caciularu ; Ido Dagan ; Shauli Ravfogel
^ back to top ^
Articles qui analysent le phénomène de malédiction d'inversion dans les grands modèles de langage.
Vers une compréhension théorique de la « malédiction d'inversion » via la dynamique de l'entraînement [lien papier] 2024-05-07
Hanlin Zhu ; Baihe Huang ; Shaolun Zhang ; Michael Jordan ; Jian Tao Jiao ; Yuandong Tian ; Stuart Russell
La malédiction du renversement : les LLM formés sur "A est B" ne parviennent pas à apprendre "B est A" [lien papier] 04/04/2024
Lucas Berglund ; Meg Tong ; Max Kaufmann ; Mikita Balesni ; Asa Cooper Stickland ; Tomasz Korbak; Owain Evans
Une enquête sur l'inefficacité des LLM dans la compréhension des relations inverses [lien papier] 01/12/2023
Cheng Wen Qi ; Bowen Li ; Binyuan Hui ; Bailin Wang ; Jinyang Li ; Jin Wang Wu ; Yuanjun Laili
Physique des modèles linguistiques : partie 3.2, manipulation des connaissances [lien papier] 2023-09-25
Zeyuan Allen-Zhu ; Yuanzhi Li
La malédiction de l'inversion : quels jetons, selon vous, sont à l'origine de la malédiction de la factorisation et plus encore [lien papier] 07/06/2023
Ouaïl Kitouni ; Niklas Nolte ; Diane Bouchacourt; Adina Williams ; Mike Rabbat ; Marc Ibrahim
^ back to top ^
Articles explorant la façon dont les performances du modèle évoluent en fonction de la taille du modèle, de la taille des données ou des ressources informatiques, ainsi que l'émergence de capacités inattendues.
Déverrouiller la théorie derrière la mise à l'échelle des réseaux de neurones 1 bit [lien papier] 03/11/2024
Majid Daliri ; Chanson Zhao ; Chiwun Yang
Comment la taille critique des lots évolue-t-elle lors de la pré-formation ? [lien papier] 2024-10-29
Hanlin Zhang ; Dépen Morwani ; Nikhil Vyas ; Jingfeng Wu ; Difan Zou; Oudaya Ghai ; Doyen Foster ; Sham Kakade
Une théorie de l'information sur la mise à l'échelle, l'émergence et les plateaux de taille optimale pour le calcul dans les modèles de langage [lien papier] 2024-10-15
Anuj K. Nayak ; Lav R. Varshney
Guide de l'auto-stoppeur pour mettre à l'échelle l'estimation de la loi [lien papier] 2024-10-15
Leshem Choshen ; Yang Zhang ; Jacob Andréas
Mise à l'échelle des lois dans les architectures de modèles : une analyse comparative des modèles denses et MoE dans les grands modèles de langage [lien papier] 08/10/2024
Siqi Wang ; Zheng Yu Chen ; Bei Li ; Keqing He; Min Zhang ; Jingang Wang
Grokking au bord de la séparabilité linéaire [lien papier] 2024-10-06
Alon Beck ; Noam Lévi ; Yohai Bar-Sinaï
Une étude empirique des lois de mise à l'échelle pour le transfert [lien papier] 2024-08-30
Matthieu Barnett
Un modèle d'émergence par percolation : analyse de transformateurs formés sur un langage formel [lien papier] 2024-08-22
Ekdeep Singh Lubana ; Kyogo Kawaguchi ; Robert P. Dick ; Hidenori Tanaka
Mise à l'échelle de la loi avec recuit du taux d'apprentissage [lien papier] 2024-08-20
Tissu Howe ; Vénus Wang ; Lu Wang
Loi de performance des grands modèles de langage [lien papier] 2024-08-19
Chuhan Wu ; Ruiming Tang
Les mesures de progrès de la théorie de l'information révèlent que Grokking est une phase de transition émergente [lien papier] 2024-08-16
Kenzo Clauw; Sébastien Stramaglia ; Daniele Marinazzo
Large Language Monkeys : mise à l'échelle du calcul d'inférence avec échantillonnage répété [lien papier] 2024-07-31
Bradley Brun ; Jordan Juravsky ; Ryan Ehrlich ; Ronald Clark ; Quoc V. Lé; Christophe Ré ; Azalia Mirhoseini
Émergence de modèles non neuronaux : arithmétique modulaire grokking via le produit externe à gradient moyen [lien papier] 2024-07-29
Neil Mallinar ; Daniel Beaglehole; Libin Zhu; Adityanarayanan Radhakrishnan ; Parthe Pandit ; Mikhaïl Belkin
Explorer les tendances de mise à l'échelle en matière de robustesse LLM [lien papier] 2024-07-25
Nikolaus Howe ; Michael Zajac ; Ian McKenzie ; Oskar Hollinsworth ; Tom Tseng ; Pierre-Luc Bacon ; Adam Gleave
Comprendre l'interaction de l'échelle, des données et des biais dans les modèles linguistiques : une étude de cas avec BERT [lien papier] 2024-07-25
Mohammed Ali ; Panda Swetasudha ; Qinlan Shen ; Michael Wick ; Ari Kobren
Faire évoluer les lois avec le vocabulaire : les modèles plus grands méritent des vocabulaires plus larges [lien papier] 2024-07-18
Chaofan Tao ; Qian Liu ; Longxu Dou ; Niklas Muennighoff ; Zhongwei Wan ; Ping Luo ; Min Lin ; Ngai Wong
Pourquoi Grok ? Une analyse théorique de l'ajout modulaire de Grokking [lien papier] 2024-07-17
Mohamad Amin Mohamadi ; Zhiyuan Li ; Lei Wu ; Danica J. Sutherland
Prédire les capacités émergentes par réglage fin [lien papier] 2024-07-10
Charlie Victor Snell ; Éric Wallace ; Dan Klein ; Sergueï Levine
Résolution des écarts dans la mise à l'échelle optimale des modèles de langage [lien papier] 2024-06-25
Tomer Porian ; Mitchell Wortsman ; Jenia Jitsev ; Ludwig Schmidt ; Yaïr Carmon
Lois de mise à l'échelle pour les modèles de langage à complexité linéaire [lien papier] 2024-06-24
Xuyang Shen ; Dong Li ; Ruitao Leng ; Zhen Qin ; Soleil Weigao ; Yiran Zhong
Lois de mise à l'échelle pour la mémorisation des faits de grands modèles de langage [lien papier] 2024-06-22
Xingyu Lu ; Xiao Nan Li ; Qin Yuan Cheng ; Kai Ding ; Xuanjing Huang ; Xipeng Qiu
Réconcilier les lois de mise à l'échelle de Kaplan et de Chinchilla [lien papier] 2024-06-12
Tim Pearce ; Chanson de Jinyeop
Deep Grokking : les réseaux de neurones profonds se généraliseraient-ils mieux ? [lien papier] 2024-05-29
Fan de Simin ; Razvan Pascanu ; Martin Jaggi
Effondrement linguistique : effondrement neuronal dans les (grands) modèles linguistiques [lien papier] 2024-05-28
Robert Wu ; Papyan Vardan
Mise à l'échelle des lois et formation optimale en matière de calcul au-delà des durées de formation fixes [lien papier] 2024-05-28
Alexandre Hägele ; Élie Bakouch ; Atli Kosson ; Loubna Ben Allal ; Léandro Von Werra ; Martin Jaggi
gzip prédit les lois de mise à l'échelle dépendantes des données [lien papier] 2024-05-26
Rohan Pandey
Émergence d'une phase d'abstraction de grande dimension dans les transformateurs de langage [lien papier] 2024-05-24
Émilie Cheng ; Diego Doimo; Corentin Kervadec ; Iuri Macocco ; Jade Yu ; Alessandro Laio; Marco Baroni
Une justification du point de vue de la fréquence pour le grokking dans la formation du réseau neuronal [lien papier] 2024-05-24
Zhangchen Zhou ; Yaoyu Zhang ; Zhi-Qin John Xu
Les transformateurs Grokked sont des raisonneurs implicites : un voyage mécaniste aux limites de la généralisation [lien papier] 2024-05-23
Boshi Wang ; Xiang Yue ; Yu Su ; Soleil Huan
Le mélange de données rendu efficace : une loi de mise à l'échelle bivariée pour la pré-formation des modèles de langage [lien papier] 2024-05-23
Ce Ge; Zhijian Ma ; Daoyuan Chen ; Yaliang Li ; Bolin Ding
4+3 phases de lois de mise à l'échelle neuronale optimales pour le calcul [lien papier] 2024-05-23
Elliot Paquette; Courtney Paquette; Lechao Xiao ; Jeffrey Pennington
Esclaves de la loi des grands nombres : une propriété d'équipartition asymptotique pour la perplexité dans les modèles de langage génératifs [lien papier] 2024-05-22
Raghu Mudumbai ; Tyler Bell
Quantification de l'émergence des grands modèles de langage [lien papier] 2024-05-21
Accrochez Chen ; Xin Yu Yang ; Jiaying Zhu; Wenya Wang
Au-delà des lois de mise à l'échelle : comprendre les performances des transformateurs avec la mémoire associative [lien papier] 2024-05-14
Xueyan Niu ; Bo Bai ; Lei Deng ; Wei Han
Plus de calcul est ce dont vous avez besoin [lien papier] 2024-04-30
Zhen Guo
Un modèle exactement résoluble pour les lois d'émergence et de mise à l'échelle [lien papier] 2024-04-26
Yoonsoo Nam; Nayara Fonseca; Seok Hyeon Lee ; Ard Louis
Pourquoi les petits modèles de langage sont-ils sous-performants ? Étudier la saturation du modèle de langage via le goulot d'étranglement Softmax [lien papier] 2024-04-11
Nathan Godey ; Éric de la Clergerie; Benoît Sagot
Une exploration à grande échelle de
Lucas Lingle
Capacités émergentes dans les modèles de langage génératifs à échelle réduite [lien papier] 2024-04-02
Sherin Muckatira ; Vijeta Deshpande ; Vladislav Lialine ; Anna Rumshiski
Comprendre les capacités émergentes des modèles linguistiques du point de vue de la perte [lien papier] 2024-03-23
Zhengxiao Du ; Aohan Zeng ; Yuxiao Dong; Jie Tang
Percer le mystère des lois d'échelle : Partie I [lien papier] 2024-03-21
Hui Su ; Zhi Tian ; Xiaoyu Shen ; Xun Liang Cai
Les modèles de langage évoluent de manière fiable en cas de surentraînement et sur les tâches en aval [lien papier] 2024-03-13
Samir Yitzhak Gadre ; Georgios Smyrnis ; Vaishaal Shankar ; Suchin Gururangan ; Mitchell Wortsman ; Rulin Shao ; Jean Mercat ; Alex Fang ; Jeffrey Li ; Sédrick Keh ; Rui Xin ; Marianna Nezhurina ; Igor Vasiljević ; Jenia Jitsev ; Alexandros G. Dimakis ; Gabriel Ilharco; Chanson de Shuran ; Thomas Kollar ; Yaïr Carmon ; Achal Dave; Reinhard Heckel; Niklas Muennighoff ; Louis Schmidt
Quand la mise à l'échelle rencontre le réglage fin LLM : l'effet des données, du modèle et de la méthode de réglage fin [lien papier] 2024-02-26
Biao Zhang ; Zhong Tao Liu ; Colin Cerise ; Orhan Firat
Interprétation des transformateurs Grokked dans l'arithmétique modulaire complexe [lien papier] 2024-02-26
Hiroki Furuta ; Gouki Minegishi; Yusuke Iwasawa ; Yutaka Matsuo
A Tale of Tails : l'effondrement du modèle en tant que changement des lois d'échelle [lien papier] 2024-02-10
Elvis Dohmatob ; Yunzhen Feng ; Pu Yang ; François Charton ; Julia Kempé
Mise à l'échelle des modèles de langage contraints par les données [lien papier] 2023-10-25
Niklas Muennighoff ; Alexandre M. Rush ; Boaz Barak; Teven Le Scao ; Alexandre Piktus ; Nouamane Tazi ; Sampo Pyysalo ; Thomas Loup ; Colin Raffel
Le coût de la réduction d'échelle des modèles linguistiques : le rappel des faits se détériore avant l'apprentissage en contexte [lien papier] 2023-10-06
Tianjin ; Nolan Clément ; Xin Dong ; Vaishnavh Nagarajan; Michael Carbin ; Jonathan Ragan-Kelley ; Gintare Karolina Dziugaite
Les capacités émergentes des grands modèles linguistiques sont-elles un mirage ? [lien papier] 2023-04-28
Rylan Schaeffer ; Brando Miranda; Sanmi Koyejo
Formation sur les grands modèles de langage Compute-Optimal [lien papier] 2022-03-29
Jordan Hoffmann ; Sébastien Borgeaud ; Arthur Mensch ; Elena Bouchatskaïa ; Trevor Cai ; Eliza Rutherford ; Diego de Las Casas ; Lisa Anne Hendricks ; Johannes Welbl; Aidan Clark ; Tom Hennigan ; Éric Noland ; Katie Millican ; Georges van den Driessche ; Bogdan Damoc ; Aurélia Guy ; Simon Osindero ; Karen Simonyan ; Erich Elsen; Jack W. Rae ; Vinyles Oriol ; Laurent Sifré
Lois de mise à l'échelle pour les modèles de langage neuronal [lien papier] 2020-01-22
Jared Kaplan ; Sam McCandlish ; Tom Henighan ; Tom B.Brown ; Benjamin Échecs ; Enfant gagné; Scott Gray ; Alec Radford ; Jeffrey Wu ; Dario Amodei
^ back to top ^
Articles axés sur la manière dont les grands modèles de langage stockent, récupèrent et utilisent les connaissances, en analysant les mécanismes de mémoire impliqués.
Un cadre géométrique pour comprendre la mémorisation dans les modèles génératifs [lien papier] 2024-10-31
Brendan Leigh Ross ; Hamidreza Kamkari; Tongzi Wu; Rasa Hosseinzadeh ; Zhaoyan Liu ; Georges Stein ; Jesse C. Cresswell ; Gabriel Loaiza-Ganem
Capacité de mémorisation optimale des transformateurs [lien papier] 2024-09-26
Tokio Kajitsuka ; Issei Sato
Mémoire Schrödingers : grands modèles de langage [lien papier] 2024-09-16
Wei Wang ; Qing Li
L'auto-attention limite la capacité de mémoire de travail des modèles basés sur des transformateurs [lien papier] 2024-09-16
Dongyu Gong; Hantao Zhang
Grande mémoire, raisonnement superficiel : limites des kNN-LM [lien papier] 2024-08-21
Shangyi Geng ; Wenting Zhao ; Alexandre M Rush
Mémorisation dans l'apprentissage en contexte [lien papier] 2024-08-21
Shahriar Golchin ; Mihai Surdeanu ; Steven Bethard; Eduardo Blanco; Ellen Riloff
Généralisation d'abord, mémorisation deuxième? Localisation de la mémorisation pour les tâches de classification du langage naturel [Lien papier] 2024-08-09
Verna Dankers; Ivan Titov
Comprendre la mémorisation dans les LLM: dynamique, facteurs d'influence et implications [lien papier] 2024-07-27
Jusqu'à Speicher; Mohammad Aflah Khan; Qinyuan wu; Vedant Nanda; Soumi das; Bishwamittra Ghosh; Krishna P. Gummadi; Evimaria Terzi
Démystifier la mémorisation textuelle dans les modèles de grande langue [lien papier] 2024-07-25
Jing Huang; Diyi Yang; Christopher Potts
Du conflit interne à l'adaptation contextuelle des modèles de langue [lien papier] 2024-07-24
Sara Vera Marjanović; Haeun Yu; Pepa Atanasova; Maria Maistro; Christina Lioma; Isabelle Augenstein
Généralisation vs mémorisation: tracer les capacités des modèles de langage de retour aux données de prélèvement [lien papier] 2024-07-20
Antonis Antoniades; Xinyi Wang; Yanai Elazar; Alfonso Amayuelas; Alon Albalak; Kexun Zhang; William Yang Wang
Physique des modèles de langue: partie 3.1, stockage des connaissances et extraction [lien papier] 2024-07-16
Zeyuan Allen-Zhu; Yuanzhi li
Les têtes d'induction comme mécanisme essentiel pour la correspondance des modèles dans l'apprentissage dans le contexte [lien papier] 2024-07-09
J. Crosbie; E. Shutova
Le LLMS rêve-t-il d'éléphants (quand on le dit de ne pas le faire)? Association du concept latent et mémoire associative dans les transformateurs [lien papier] 2024-06-26
Yibo Jiang; Goutham Rajendran; Pradeep Ravikumar; Bryon Aragam
Échelle des lois pour la mémorisation des faits des modèles de grands langues [lien papier] 2024-06-22
Xingyu Lu; Xiaonan Li; Qinyuan Cheng; Kai ding; Xuanjing Huang; Xipeng Qiu
Connexion des points: les LLM peuvent déduire et verbaliser la structure latente à partir de données de formation disparates [lien papier] 2024-06-20
Johannes Treutlein; Dami Choi; Jan Betley; Cem anil; Samuel Marks; Roger Baker Grosse; Owain Evans
Découvrir les souvenirs latents: évaluation des modèles de fuite des données et de mémorisation dans les modèles de grande langue [lien papier] 2024-06-20
Sunny Duan; Mikail Khona; Abhiram Iyer; Rylan Schaeffer; Ila r fiete
Comprendre la fintuning pour l'extraction des connaissances factuelles [lien papier] 2024-06-20
Gaurav Ghosal; Tatsunori Hashimoto; Aditi Raghunathan
Estimation des connaissances dans les modèles de grande langue sans générer un seul jeton [lien papier] 2024-06-18
Daniela Gottesman; Mor Geva
Comment les modèles de gros langues acquièrent-ils des connaissances factuelles lors de la pré-formation? [Lien papier] 2024-06-17
Hoyeon Chang; Jinho Park; Seonghyeon ye; Sohee Yang; SEO de Youngkyung; Du-Seong Chang; SEO MINJOON
Soyez comme un poisson rouge, ne mémorisez pas! Mémorisation atténuante dans les LLMS génératifs [lien papier] 2024-06-14
Abhimanyu Hans; Yuxin Wen; Neel Jain; John Kirchenbauer; Hamid Kazemi; Prajwal Singhania; Siddharth Singh; Gowthami Somepalli; Jonas Geiping; Abhinav Bhatele; Tom Goldstein
Circuits de connaissances dans les transformateurs pré-entraînés [lien papier] 2024-05-28
Yunzhi Yao; Ningyu Zhang; Zekun Xi; Mengru Wang; Ziwen Xu; Shumin Deng; Huajun Chen
Bourures de capacité de mémoire supérieure et inférieure des transformateurs pour la prédiction du prochain token [liaison papier] 2024-05-22
Liam Madden; Curtis Fox; Christos Thrampoulidis
Une analyse multi-perspective de la mémorisation dans les modèles de grande langue [lien papier] 2024-05-19
Bowen Chen; Namgi Han; Yusuke miyao
Physique des modèles de langue: partie 3.3, Lois de mise à l'échelle de la capacité de connaissances [lien papier] 2024-04-08
Zeyuan Allen-Zhu; Yuanzhi li
Capacité de mémorisation de l'attention multi-tête dans les transformateurs [lien papier] 2024-03-02
Sadegh Mahdavi; Renjie Liao; Christos Thrampoulidis
Naissance d'un transformateur: un point de vue de la mémoire [lien papier] 2023-11-06
Alberto Bietti; Vivien Cabannes; Diane Bouchacourt; Herve Jegou; Leon Bottou
Physique des modèles de langue: partie 3.2, manipulation des connaissances [lien papier] 2023-09-25
Zeyuan Allen-Zhu; Yuanzhi li
La mémorisation du réseau neuronal peut-elle être localisée? [Lien papier] 2023-07-18
Pratyush Maini; Michael C. Mozer; Hanie Sedghi; Zachary C. Lipton; J. Zico Kolter; Chiyuan Zhang
Quantification de la mémorisation sur les modèles de langage neuronal [lien papier] 2022-02-15
Nicholas Carlini; Daphne Ippolito; Matthew Jagielski; Katherine Lee; Florian Tramer; Chiyuan Zhang
^ back to top ^
Les articles discutant de divers aspects du processus de formation, notamment l'optimisation, le réglage fin et le paysage de formation des modèles de grands langues.
Convergence mondiale dans la formation des transformateurs à grande échelle [lien papier] 2024-10-31
Cheng Gao; Yuan Cao; Zihao Li; Yihan he; Mengdi Wang; Han Liu; Jason Matthew Klusowski; Fan de Jianqing
Ce qui s'est passé dans les couches LLMS lorsqu'il est formé pour la pensée rapide et lente: une perspective de gradient [lien papier] 2024-10-31
Ming Li; Yanhong Li; Tianyi Zhou
Apprendre et transférer des bigrams contextuels clairsemés avec des transformateurs linéaires [lien papier] 2024-10-30
Yunwei Ren; Zixuan Wang; Jason D. Lee
Apprentissage brusque dans les transformateurs: une étude de cas sur l'achèvement de la matrice [lien papier] 2024-10-29
Pulkit Gopalani; Ekdeep Singh Lubana; Wei Hu
LORA VS FINE FINE TUNING: Une illusion d'équivalence [Lien papier] 2024-10-28
Reece Shuttleworth; Jacob Andreas; Antonio Torralba; Pratyusha Sharma
Un biais de simplicité de distribution dans la dynamique d'apprentissage des transformateurs [lien papier] 2024-10-25
Riccardo Rende; Federica Gerace; Alessandro Laio; Sebastian Goldt
Heads d'attention active-dormant: démystification mécanique des phénomènes d'extrême dans les LLM [lien papier] 2024-10-17
Tianyu Guo; Druv Pai; Yu Bai; Jiantao Jiao; Michael I. Jordan; Song Mei
Comment les transformateurs mettent en œuvre des têtes d'induction: analyse d'approximation et d'optimisation [lien papier] 2024-10-15
Mingze Wang; Ruoxi Yu; Weinan e; Lei Wu
Que signifie être un transformateur? Insignes d'une analyse théorique de la Hesse [lien papier] 2024-10-14
Weronika Ormaniec; Felix Dangel; Sidak Pal Singh
Adaptation Odyssey dans LLMS: Pourquoi la pré-entraînement supplémentaire ne s'améliore pas parfois? [Lien papier] 2024-10-08
Fırat Öncel; Matthias Bethge; Beyza Ermis; Mirco Ravanelli; Cem Subakan; Çağatay yıldız
Sur l'optimisation et la généralisation des transformateurs à deux couches avec descente de gradient de signe [lien papier] 2024-10-07
Bingrui Li; Wei Huang; Andi Han; Zhanpeng Zhou; Taiji Suzuki; Jun Zhu; Jianfei Chen
Compréhension des taux d'apprentissage de l'échauffement-stable: une perspective de paysage de perte de la vallée de la rivière [lien papier] 2024-10-07
Kaiyue Wen; Zhiyuan Li; Jason Wang; David Hall; Percy Liang; Tengyu Ma
Formation des transformateurs non linéaires pour l'inférence de la chaîne de pensées: une analyse de généralisation théorique [lien papier] 2024-10-03
Hongkang Li; Meng Wang; Songtao Lu; Xiaodong Cui; Pin-yu Chen
Aperçu théorique du mécanisme d'attention du réglage fin: généralisation et optimisation [lien papier] 2024-10-03
Xinhao Yao; Hongjin Qian; Xiaolin Hu; Gengze Xu; Yong Liu
Les classificateurs de transformateurs formés généralisent et présentent un surfiginage bénin dans le contexte [lien papier] 2024-10-02
Spencer Frei; Gal Vardi
Vers une compréhension théorique des données synthétiques dans LLM après la formation: une perspective de botteau inversé [lien papier] 2024-10-02
Zeyu Gan; Yong Liu
Étude de l'impact de la complexité du modèle dans les modèles de grande langue [lien papier] 2024-10-01
Jing Luo; Huiyuan Wang; Weiran Huang
Benigh ou non-benie sur la sélection des jetons de mécanisme d'attention [lien papier] 2024-09-26
Keitaro Sakamoto; Issei Sato
Convergence non asymptotique des transformateurs d'entraînement pour la prédiction à token [lien papier] 2024-09-25
Ruiquan Huang; Yingbin Liang; Jing Yang
Lois d'optimisation hyper-paramètres pour les modèles de grande langue [lien papier] 2024-09-07
Xingyu Xie; Kuangyu ding; Shuicheng Yan; Kim-Chuan Toh; Tianwen Wei
L'Optimiseur Ademamix: meilleur, plus rapide, plus ancien [lien papier] 2024-09-05
Matteo Pagliardini; Pierre Ablin; David Grangier
Clustering et alignement: Comprendre la dynamique de formation en ajout modulaire [lien papier] 2024-08-18
Tiberiu Musat
Convergence mondiale dans la formation des transformateurs à grande échelle [lien papier] 2024-08
Cheng Gao; Yuan Cao; Zihao Li; Yihan he; Mengdi Wang; Han Liu; Jason M. Klusowski; Fan de Jianqing
Sur la convergence des transformateurs peu profonds de l'encodeur uniquement [lien papier] 2024-08
Yongtao Wu; FANGHUI LIU; Grigorios G Chrysos; Volkan Cevher
Fonction d'adaptation économe en paramètres pour l'apprentissage continu: une perspective de noyau tangent neural [lien papier] 2024-07-24
Jingren Liu; Zhong Ji; Yunlong Yu; Jiale Cao; Yanwei Pang; Jungong Han; Xuelong Li
Dynamique d'apprentissage de LLM Finetuning [lien papier] 2024-07-15
Yi ren; Danica J. Sutherland
Déconstruire ce qui fait un bon optimiseur pour les modèles de langue [lien papier] 2024-07-10
Rosie Zhao; Depen Morwani; David Brandfonbrener; Nikhil Vyas; Simulation de kakade
Généralisation zéro-shot pendant l'instruction Tuning: Insights de la similitude et de la granularité [Lien papier] 2024-06-17
Bingxiang He; Ning ding; Cheng Qian; Jia Deng; Ganqu Cui; Lifan Yuan; Huan-Ang Gao; Huimin Chen; Zhiyuan Liu; Soleil de maosong
Comprendre le sondage linéaire puis les modèles de langage affinés de la perspective NTK [lien papier] 2024-05-27
Akiyoshi Tomihari; Issei Sato
Limites infinies de la dynamique des transformateurs multiples [lien papier] 2024-05-24
Blake Bordelon; Hamza Tahir Chaudhry; Cengiz Pehlevan
Vers une compréhension théorique de la «malédiction d'inversion» via la dynamique de formation [lien papier] 2024-05-07
Hanlin Zhu; Baihe Huang; Shaolun Zhang; Michael Jordan; Jiantao Jiao; Yuandong Tian; Stuart Russell
Contrôler l'approche théorique de l'apprentissage des réglages et du transfert [lien papier] 2024-04-16
Erkan Bayram; Shenyu Liu; Mohamed-Ali Belabbas; Tamer Başar
Regardez le texte: les modèles de langue réglée par l'instruction sont des sélecteurs à choix multiples plus robustes que vous ne le pensez [lien papier] 2024-04-12
XinPeng Wang; Chengzhi Hu; Bolei Ma; Paul Röttger; Barbara Plank
Sur la formation des données d'influence des modèles GPT [lien papier] 2024-04-11
Qingyi Liu; Yekun Chai; Shuohuan Wang; Yu Sun; Keze Wang; Hua wu
Meilleures pratiques et leçons apprises sur les données synthétiques pour les modèles de langage [lien papier] 2024-04-11
Ruibo Liu; Jerry Wei; Fangyu Liu; Chenglei Si; Yanzhe Zhang; Jinmeng Rao; Steven Zheng; Daiyi Peng; Diyi Yang; Denny Zhou; Andrew M. Dai
Quelle est la mauvaise formation des données synthétiques? Une analyse statistique de l'effondrement du modèle de langue [lien papier] 2024-04-07
Mohamed El Amine Seddik; Suei-Wen Chen; Soufiane Hayou; Pierre Youssef; Merouane Debbah
Dévrage du pouvoir de généralisation des modèles de grande langue affinés [lien papier] 2024-03-14
Haoran Yang; Yumeng Zhang; Jiaqi Xu; Hongyuan Lu; Pheng Ann Heng; Wai Lam
Les transformateurs deviennent stables: une théorie de la propagation du signal de bout en bout pour les modèles de langue [lien papier] 2024-03-14
Akhil Kedia; Mohd Abbas Zaidi; Sushil Khyalia; Jungho Jung; Harshith Goka; Haejun Lee
L'attention linéaire est (peut-être) tout ce dont vous avez besoin (pour comprendre l'optimisation du transformateur) [lien papier] 2024-03-13
Kwangjun Ahn; Xiang Cheng; Minhak Song; Chulhee Yun; Ali Jadbabaie; SUVRIT SRA
Caractéristiques des trajectoires d'optimisation dans les réseaux de neurones et les LLM: les longueurs, les virages et les impasses [lien papier] 2024-03-12
Sidak Pal Singh; Bobby He; Thomas Hofmann; Bernhard Schölkopf
Le noyau heuristique: compréhension de la généralisation des sous-réseaux dans les modèles de langage prétrainés [lien papier] 2024-03-06
Adithya bhaskar; Dan Friedman; Danqi Chen
Dynamique de formation de l'attention de Softmax multi-têtes pour l'apprentissage dans le contexte: émergence, convergence et optimalité [lien papier] 2024-02-29
Siyu Chen; Heejune Sheen; Tianhao Wang; Zhuoran Yang
Comment les transformateurs apprennent la structure causale avec descente de gradient [lien papier] 2024-02-22
Eshaan Nichani; Alex Damian; Jason D. Lee
La formation LORA dans le régime NTK n'a pas de faux minima locaux [lien papier] 2024-02-19
Uijeong Jang; Jason D. Lee; Ernest K. Ryu
Sur l'émergence de la linéarité de la tâche croisée dans le paradigme de pré-formation en fin de finale [liaison papier] 2024-02-06
Zhanpeng Zhou; Zijun Chen; Yilan Chen; Bo Zhang; Junchi Yan
Les transformateurs apprennent par l'augmentation progressive du rang [liaison papier] 2023-12-10
Enric Boix-Adsera; Etai Littwin; Emmanuel Abbe; Samy Bengio; Joshua Susskind
Analyse mécaniquement des effets de l'affinement sur les tâches définies de manière procédurale [Lien papier] 2023-11-21
Samyak Jain; Robert Kirk; Ekdeep Singh Lubana; Robert P. Dick; Hidenori Tanaka; Edward Grefenstette; Tim Rocktäschel; David Scott Krueger
Connexion du modèle de langue pré-formée et tâche en aval via les propriétés de représentation [lien papier] 2023-11-02
Chenwei Wu; Holden Lee; Rong Ge
Scan and Snap: Comprendre la dynamique de formation et la composition des jetons dans le transformateur à 1 couche [Lien papier] 2023-07-02
Yuandong Tian; Yiping wang; Beidi Chen; Simon Du
Une vision basée sur le noyau du modèle de langue affinie [lien papier] 2023-06-15
Sadhika Malladi; Alexander Wettig; Dingli Yu; Danqi Chen; Sanjeev Arora
Une analyse de stabilité du réglage fin d'un modèle pré-formé [lien papier] 2023-01-24
Zihao Fu; Anthony Man-cho So; Nigel Collier
^ back to top ^
Les articles analysant les capacités d'apprentissage et les performances de généralisation des modèles de langue, de la généralisation faible à la forte généralisation.
Généralisation et limites de risque pour les réseaux de neurones récurrents [lien papier] 2024-11-05
Xuewei Cheng; Ke Huang; Shujie ma
Généralisation de longueur prouvée dans la prédiction de séquence via le filtrage spectral [lien papier] 2024-11-01
Annie Marsden; Evan Dogariu; Naman Agarwal; Xinyi Chen; Daniel Suo; Elad Hazan
RL-Star: Analyse théorique des cadres d'apprentissage du renforcement pour le raisonnement autodidacte [lien papier] 2024-10-31
Fu-Chieh Chang; Yu-Ting Lee; Hui-ying shih; Pei-yuan wu
Mélange de perroquets: les experts améliorent la mémorisation plus que le raisonnement [lien papier] 2024-10-24
Samy Jelassi; Clara Mohri; David Brandfonbrener; Alex Gu; Nikhil Vyas; Nikhil Anand; David Alvarez-Melis; Yuanzhi Li; Sham M. Kakade; Eran Malach
Comment la précision numérique affecte les capacités de raisonnement mathématique de LLMS [lien papier] 2024-10-17
Guhao Feng; Kai Yang; Yuntian Gu; Xinyue ai; Shengjie Luo; Jiacheng Sun; Di he; Zhenguo Li; Liwei wang
Sur l'erreur de généralisation dépendante des rangs limites pour les transformateurs [lien papier] 2024-10-15
Lan V. Truong
Over-ajustement bénin dans une attention unique [lien papier] 2024-10-10
Roey Magen; Shuning Shang; Zhiwei Xu; Spencer Frei; Wei Hu; Gal Vardi
Dynamique de l'apprentissage du concept et de la généralisation de la composition [lien papier] 2024-10-10
Yongyi Yang; Core Francisco Park; Ekdeep Singh Lubana; Maya Okawa; Wei Hu; Hidenori Tanaka
Over-ajustement bénin pour la régression avec des réseaux de relu à deux couches formés [lien papier] 2024-10-08
Park Junhyung; Patrick Bloebaum; Shiva Prasad Kasiviswanathan
Généralisation faible à faible à forte via un sur-ajustement bénin [lien papier] 2024-10-06
David X. Wu; Anant sahai
Un cadre formel pour comprendre la généralisation de la longueur dans les transformateurs [lien papier] 2024-10-03
Xinting Huang; Andy Yang; Satwik Bhattamishra; Yash Sarrof; Andreas Krebs; Hattie Zhou; Preettum nakkiran; Michael Hahn
Les classificateurs de transformateurs formés généralisent et présentent un surfiginage bénin dans le contexte [lien papier] 2024-10-02
Spencer Frei; Gal Vardi
Lignes de pensée dans les modèles de grande langue [lien papier] 2024-10-02
Raphaël Sarfati; Toni JB Liu; Nicolas Boulé; Christopher J. Earls
Étude de l'impact de la complexité du modèle dans les modèles de grande langue [lien papier] 2024-10-01
Jing Luo; Huiyuan Wang; Weiran Huang
Over-ajustement bénin ou non-benon dans la sélection des jetons du mécanisme d'attention [lien papier] 2024-09-26
Keitaro Sakamoto; Issei Sato
Comprendre le biais de simplicité vers les mappages de composition via la dynamique d'apprentissage [lien papier] 2024-09-15
Yi ren; Danica J. Sutherland
Généralisation inoubliable dans les modèles de langue [lien papier] 2024-09-03
Eric Zhang; Leshem choisi; Jacob Andreas
Les nombreux visages de l'apprentissage optimal faible à fort [lien papier] 2024-08-30
Mikael Møller Høgsgaard; Kasper Green Larsen; Markus Engelund Mathiasen
Physique des modèles de langue: partie 2.2, comment apprendre des erreurs sur les problèmes mathématiques de l'école [Lien papier] 2024-08-29
Tian Ye; Zicheng Xu; Yuanzhi Li; Zeyuan Allen-Zhu
Généralisation hors distribution via la composition: une lentille à travers les têtes d'induction dans Transformers [lien papier] 2024-08-18
Jiajun Song; Zhuoyan Xu; Yiqiao Zhong
Sur la généralisation de l'apprentissage des préférences avec DPO [lien papier] 2024-08-06
Shawn im; Yixuan li
Inductif ou déductif? Repenser les capacités de raisonnement fondamental des LLM [lien papier] 2024-07-31
Kewei Cheng; Jingfeng Yang; Haoming Jiang; Zhengyang Wang; Binxuan Huang; Ruirui Li; Shiyang Li; Zheng Li; Yifan Gao; Xian Li; Bing Yin; Soleil de Yizhou