Diese Papierliste konzentriert sich auf die theoretische und empirische Analyse von Sprachmodellen, insbesondere großen Sprachmodellen (LLMs). Die Arbeiten in dieser Liste untersuchen das Lernverhalten, die Generalisierungsfähigkeit und andere Eigenschaften von Sprachmodellen durch theoretische Analyse, empirische Analyse oder eine Kombination aus beidem.
Umfang dieser Liste:
Einschränkungen dieser Liste:
Statistiken dieser Papierliste:
Wenn Sie Vorschläge haben oder einen Beitrag leisten möchten, können Sie gerne ein Problem oder eine Pull-Anfrage eröffnen.
Einzelheiten zu den Beitragsmöglichkeiten finden Sie in den Beitragsrichtlinien.
Sie können Ihre Gedanken auch in den Diskussionen teilen und mit anderen diskutieren.
Notiz
Die nicht kategorisierte Version finden Sie hier.
^ back to top ^
Kategorien, die sich auf verschiedene Phänomene, Eigenschaften und Verhaltensweisen konzentrieren, die in großen Sprachmodellen (LLMs) und transformatorbasierten Modellen beobachtet werden.
^ back to top ^
Beiträge mit Schwerpunkt auf der theoretischen und empirischen Analyse des kontextbezogenen Lernens in großen Sprachmodellen.
Beweisbares Lernen im Kontext mit Transformatoren: Eine Fallstudie zur linearen Regression [Papierlink] 04.11.2024
Dake Bu; Wei Huang; Andi Han; Atsushi Nitanda; Taiji Suzuki; Qingfu Zhang; Hau-San Wong
Vorab trainierter Transformator lernt effizient niedrigdimensionale Zielfunktionen im Kontext [Papierlink] 04.11.2024
Kazusato Oko; Yujin-Lied; Taiji Suzuki; Denny Wu
Auf dem Weg zum Verständnis von kontextbezogenem und gewichtsbezogenem Lernen [Link zum Papier] 30.10.2024
Bryan Chan; Xinyi Chen; András György; Dale Schuurmans
Zur Rolle von Tiefe und Schleifen für kontextbezogenes Lernen mit Aufgabenvielfalt [Papierlink] 29.10.2024
Khashayar Gatmiry; Nikunj Saunshi; Sashank J. Reddi; Stefanie Jegelka; Sanjiv Kumar
Mechanismen der Symbolverarbeitung für kontextbezogenes Lernen in Transformatornetzwerken [Papierlink] 23.10.2024
Paul Smolensky; Roland Fernandez; Zhenghao Herbert Zhou; Mattia Opper; Jianfeng Gao
Können Transformatoren im Kontext das Verhalten eines linearen dynamischen Systems lernen? [Papierlink] 21.10.2024
Usman Akram; Haris Vikalo
Bayesianische Skalierungsgesetze für kontextbezogenes Lernen [Papierlink] 21.10.2024
Aryaman Arora; Dan Jurafsky; Christopher Potts; Noah D. Goodman
Beweisbares kontextbezogenes Lernen für eine Mischung linearer Regressionen mithilfe von Transformatoren [Papierlink] 18.10.2024
Yanhao Jin; Krishnakumar Balasubramanian; Lifeng Lai
Kontextbezogenes Lernen und Occams Rasiermesser [Papierlink] 17.10.2024
Eric Elmoznino; Tom Marty; Tejas Kasetty; Leo Gagnon; Sarthak Mittal; Mahan Fathi; Dhanya Sridhar; Guillaume Lajoie
Kontextskalierung versus Aufgabenskalierung beim kontextbezogenen Lernen [Papierlink] 16.10.2024
Amirhesam Abedsoltan; Adityanarayanan Radhakrishnan; Jingfeng Wu; Michail Belkin
Umgehen der exponentiellen Abhängigkeit: Schleifentransformatoren lernen effizient im Kontext durch mehrstufigen Gradientenabstieg [Papierlink] 15.10.2024
Bo Chen; Xiaoyu Li; Yingyu Liang; Zhenmei Shi; Zhao-Lied
Wie Transformatoren Induktionsköpfe implementieren: Näherungs- und Optimierungsanalyse [Papierlink] 15.10.2024
Mingze Wang; Ruoxi Yu; Weinan E; Lei Wu
Zur Trainingskonvergenz von Transformatoren für die kontextbezogene Klassifizierung [Papierlink] 15.10.2024
Wei Shen; Ruida Zhou; Jing Yang; Cong Shen
Transformatoren lernen Markov-Ketten variabler Ordnung im Kontext [Papierlink] 07.10.2024
Ruida Zhou; Chao Tian; Suhas Diggavi
Wiederholung der kontextbezogenen Lerninferenzschaltung in großen Sprachmodellen [Papierlink] 06.10.2024
Hakaze Cho; Mariko Kato; Yoshihiro Sakai; Naoya Inoue
Geschulte Transformatorklassifikatoren verallgemeinern und zeigen gutartige Überanpassung im Kontext [Papierlink] 02.10.2024
Spencer Frei; Gal Vardi
Transformatoren behandeln Endogenität in der kontextbezogenen linearen Regression [Papierlink] 02.10.2024
Haodong Liang; Krishnakumar Balasubramanian; Lifeng Lai
Enthüllung von Induktionsköpfen: Nachweisbare Trainingsdynamik und Funktionslernen in Transformatoren [Papierlink] 10.09.2024
Siyu Chen; Heejune Sheen; Tianhao Wang; Zhuoran Yang
Lernen vs. Abrufen: Die Rolle kontextbezogener Beispiele bei der Regression mit LLMs [Papierlink] 06.09.2024
Aliakbar Nafar; Kristen Brent Venable; Parisa Kordjamshidi
Transformatoren sind Minimax-optimale nichtparametrische In-Context-Lernende [Papierlink] 22.08.2024
Juno Kim; Tai Nakamaki; Taiji Suzuki
Auswendiglernen beim Lernen im Kontext [Papierlink] 21.08.2024
Shahriar Golchin; Mihai Surdeanu; Steven Bethard; Eduardo Blanco; Ellen Riloff
In-Context Learning with Representations: Contextual Generalization of Trained Transformers [Papierlink] 2024-08-19
Tong Yang; Yu Huang; Yingbin Liang; Yuejie Chi
Schnelle Zuordnung von Trainingsdatensätzen durch kontextbezogenes Lernen [Papierlink] 14.08.2024
Milad Fotouhi; Mohammad Taha Bahadori; Oluwaseyi Feyisetan; Zahler Arabshahi; David Heckerman
Wie nutzen Transformer die Multi-Head-Aufmerksamkeit beim Lernen im Kontext? Eine Fallstudie zur spärlichen linearen Regression [Papierlink] 08.08.2024
Xingwu Chen; Lei Zhao; Difan Zou
Transformers sind universelle In-Context-Lernende [Papierlink] 02.08.2024
Takashi Furuya; Maarten V. de Hoop; Gabriel Peyré
Polynomielle Regression als Aufgabe zum Verständnis des kontextbezogenen Lernens durch Feinabstimmung und Ausrichtung [Papierlink] 27.07.2024
Max Wilcoxson; Morten Svendgård; Ria Doshi; Dylan Davis; Reya Vir; Anant Sahai
Enthüllung des Lernens im Kontext: Ein Koordinatensystem zum Verständnis seines Arbeitsmechanismus [Papierlink] 24.07.2024
Anhao Zhao; Fanghua Ye; Jinlan Fu; Xiaoyu Shen
Einschichtiger Transformator lernt nachweislich einen nächsten Nachbarn im Kontext [Papierlink] 24.07.2024
Zihao Li; Yuan Cao; Cheng Gao; Yihan He; Han Liu; Jason M. Klusowski; Jianqing-Fan; Mengdi Wang
Wann können Transformatoren kompositorisch im Kontext verallgemeinern? [Papierlink] 17.07.2024
Seijin Kobayashi; Simon Schug; Yassir Akram; Florian Redhardt; Johannes von Oswald; Razvan Pascanu; Guillaume Lajoie; João Sacramento
In-Context In-Context Learning with Transformer Neural Processes [Papierlink] 19.06.2024
Matthew Ashman; Cristiana Diaconu; Adrian Weller; Richard E. Turner
Untersuchung der Entscheidungsgrenzen des kontextbezogenen Lernens in großen Sprachmodellen [Papierlink] 17.06.2024
Siyan Zhao; Tung Nguyen; Aditya Grover
State Soup: In-Context Skill Learning, Retrieval and Mixing [Papierlink] 12.06.2024
Maciej Pióro; Maciej Wołczyk; Razvan Pascanu; Johannes von Oswald; João Sacramento
Schätzung der Halluzinationsrate generativer KI [Papierlink] 11.06.2024
Andrew Jesson; Nicolas Beltran-Velez; Quentin Chu; Sweta Karlekar; Jannik Kossen; Yarin Gal; John P. Cunningham; David Blei
BERTs sind generative In-Context-Lernende [Papierlink] 07.06.2024
David Samuel
Verbesserung der kontextbezogenen Lernleistung nur durch SVD-basierte Gewichtsreduzierung: Eine theoretische Perspektive [Papierlink] 06.06.2024
Xinhao Yao; Xiaolin Hu; Shenzhi Yang; Yong Liu
Was lernen Sprachmodelle im Kontext? Die Strukturierte-Task-Hypothese [Papierlink] 06.06.2024
Jiaoda Li; Yifan Hou; Mrinmaya Sachan; Ryan Cotterell
Exakte Konvertierung von In-Context-Lernen in Modellgewichte in linearisierten Aufmerksamkeitstransformatoren [Papierlink] 05.06.2024
Brian K. Chen; Tianyang Hu; Hui Jin; Hwee Kuan Lee; Kenji Kawaguchi
Groken lernen: Entstehung von kontextbezogenem Lernen und Kompetenzkomposition in modularen Rechenaufgaben [Papierlink] 04.06.2024
Tianyu He; Darshil Doshi; Aritra Das; Andrey Gromov
Warum machen größere Sprachmodelle das Lernen im Kontext anders? [Papierlink] 30.05.2024
Zhenmei Shi; Junyi Wei; Zhuoyan Xu; Yingyu Liang
Ist kontextbezogenes Lernen für die Unterrichtsverfolgung in LLMs ausreichend? [Papierlink] 30.05.2024
Hao Zhao; Maksym Andrjuschtschenko; Francesco Croce; Nicolas Flammarion
Verbessert das Erlernen der richtigen latenten Variablen zwangsläufig das Lernen im Kontext? [Papierlink] 29.05.2024
Sarthak Mittal; Eric Elmoznino; Leo Gagnon; Sangnie Bhardwaj; Dhanya Sridhar; Guillaume Lajoie
Eine Theorie des kontextbezogenen Lernens in Transformern [Papierlink] 29.05.2024
Yifei Wang; Yuyang Wu; Zeming Wei; Stefanie Jegelka; Yisen Wang
Zur Mesa-Optimierung in autoregressiv trainierten Transformatoren: Entstehung und Fähigkeit [Papierlink] 27.05.2024
Chenyu Zheng; Wei Huang; Rongzhen Wang; Guoqiang Wu; Jun Zhu; Chongxuan Li
Transformer In-Context Learning für kategoriale Daten [Papierlink] 27.05.2024
Aaron T. Wang; Ricardo Henao; Lawrence Carin
Automatische Domänenanpassung durch Transformatoren beim In-Context-Lernen [Papierlink] 27.05.2024
Ryuichiro Hataya; Kota Matsui; Masaaki Imaizumi
Vereinheitlichung der Demonstrationsauswahl und -komprimierung für kontextbezogenes Lernen [Papierlink] 27.05.2024
Jun Gao
Zur Rauschrobustheit des In-Context-Lernens für die Textgenerierung [Papierlink] 27.05.2024
Hongfu Gao; Feipeng Zhang; Wenyu Jiang; Jun Shu; Feng Zheng; Hongxin Wei
MLPs lernen im Kontext [Papierlink] 24.05.2024
William L. Tong; Cengiz Pehlevan
Auf dem Weg zu einem besseren Verständnis der kontextbezogenen Lernfähigkeit anhand der kontextbezogenen Unsicherheitsquantifizierung [Papierlink] 24.05.2024
Shang Liu; Zhongze Cai; Guanting Chen; Xiaocheng Li
Können Schleifentransformatoren lernen, einen mehrstufigen Gradientenabstieg für kontextbezogenes Lernen zu implementieren? [Papierlink] 02.05.2024
Khashayar Gatmiry; Nikunj Saunshi; Sashank J. Reddi; Stefanie Jegelka; Sanjiv Kumar
Kontextbezogenes Lernen zu Funktionsklassen für Transformatoren vorgestellt [Papierlink] 02.05.2024
Zhijie Wang; Bo Jiang; Shuai Li
Kontextbezogenes Lernen mit Modellen mit langem Kontext: Eine eingehende Untersuchung [Papierlink] 30.04.2024
Amanda Bertsch; Maor Ivgi; Uri Alon; Jonathan Berant; Matthew R. Gormley; Graham Neubig
Was muss bei einem Induktionskopf stimmen? Eine mechanistische Studie über kontextbezogene Lernkreise und ihre Entstehung [Papierlink] 10.04.2024
Aaditya K. Singh; Ted Moskovitz; Felix Hill; Stephanie CY Chan; Andrew M. Saxe
Ist bei ICL Aufmerksamkeit erforderlich? Erforschung der Beziehung zwischen Modellarchitektur und kontextbezogener Lernfähigkeit [Papierlink] 01.04.2024
Ivan Lee; Nan Jiang; Taylor Berg-Kirkpatrick
Trainingsdynamik der Multi-Head-Softmax-Aufmerksamkeit für kontextbezogenes Lernen: Entstehung, Konvergenz und Optimalität [Papierlink] 29.02.2024
Siyu Chen; Heejune Sheen; Tianhao Wang; Zhuoran Yang
Wie Transformatoren die kausale Struktur mit Gradientenabstieg lernen [Papierlink] 22.02.2024
Eshaan Nichani; Alex Damian; Jason D. Lee
Kontextbezogenes Lernen eines linearen Transformatorblocks: Vorteile der MLP-Komponente und einstufige GD-Initialisierung [Papierlink] 22.02.2024
Ruiqi Zhang; Jingfeng Wu; Peter L. Bartlett
Identifizierung semantischer Induktionsköpfe zum Verständnis des Lernens im Kontext [Papierlink] 20.02.2024
Jie Ren; Qipeng Guo; Hang Yan; Dongrui Liu; Xipeng Qiu; Dahua Lin
Wie führen Transformer autoregressives Lernen im Kontext durch? [Papierlink] 08.02.2024
Michael E. Sander; Raja Giryes; Taiji Suzuki; Mathieu Blondel; Gabriel Peyré
Kann Mamba lernen, wie man lernt? Eine vergleichende Studie zu kontextbezogenen Lernaufgaben [Papierlink] 06.02.2024
Jongho-Park; Jaeseung-Park; Zheyang Xiong; Nayoung Lee; Jaewoong Cho; Samet Oymak; Kangwook Lee; Dimitris Papailiopoulos
Eine informationstheoretische Analyse des kontextbezogenen Lernens [Papierlink] 28.01.2024
Hong Jun Jeon; Jason D. Lee; Qi Lei; Benjamin Van Roy
Die vorübergehende Natur des aufkommenden In-Context-Lernens in Transformers [Papierlink] 11.12.2023
Aaditya K. Singh; Stephanie CY Chan; Ted Moskovitz; Erin Grant; Andrew M. Saxe; Felix Hill
In-Context-Lernfunktionen mit unterschiedlicher Anzahl von Minima [Papierlink] 21.11.2023
David Oniani; Yanshan Wang
Erforschung der Beziehung zwischen kontextbezogenem Lernen und Unterrichtsoptimierung [Papierlink] 17.11.2023
Hanyu Duan; Yixuan Tang; Yi Yang; Ahmed Abbasi; Kar Yan Tam
Wann greift das Lernen im Kontext zu kurz und warum? Eine Studie zu spezifikationsintensiven Aufgaben [Papierlink] 15.11.2023
Hao Peng; Xiaozhi Wang; Jianhui Chen; Weikai Li; Yunjia Qi; Zimu Wang; Zhili Wu; Kaisheng Zeng; Bin Xu; Lei Hou; Juanzi Li
Kontextbezogenes Lernen lässt sich verallgemeinern, aber nicht immer zuverlässig: Der Fall der Syntax [Papierlink] 13.11.2023
Aaron Müller; Albert Webson; Jackson Petty; Tal Linzen
Transformatoren lernen, vorkonditionierten Gradientenabstieg für kontextbezogenes Lernen zu implementieren [Papierlink] 09.11.2023
Kwangjun Ahn; Xiang Cheng; Hadi Daneshmand; Suvrit Sra
Transformers lernen Optimierungsmethoden höherer Ordnung für kontextbezogenes Lernen: Eine Studie mit linearen Modellen [Papierlink] 26.10.2023
Deqing Fu; Tian-Qi Chen; Robin Jia; Vatsal Sharan
In-Context-Lernen erstellt Aufgabenvektoren [Papierlink] 24.10.2023
Roee Hendel; Mor Geva; Amir Globerson
Funktionsvektoren in großen Sprachmodellen [Papierlink] 23.10.2023
Eric Todd; Millicent L. Li; Arnab Sen Sharma; Aaron Müller; Byron C. Wallace; David Bau
Kontextbezogenes Lernen mit Transformer ist tatsächlich gleichbedeutend mit einem kontrastiven Lernmuster [Papierlink] 19.10.2023
Ruifeng Ren; Yong Liu
Ausgebildete Transformatoren lernen lineare Modelle im Kontext [Papierlink] 19.10.2023
Ruiqi Zhang; Spencer Frei; Peter L. Bartlett
Wie lernen Transformer im Kontext über einfache Funktionen hinaus? Eine Fallstudie zum Lernen mit Repräsentationen [Papierlink] 16.10.2023
Tianyu Guo; Wei Hu; Lied Mei; Huan Wang; Caiming Xiong; Silvio Savarese; Yu Bai
Verständnis des kontextbezogenen Lernens in Transformatoren und LLMs durch Erlernen des Erlernens diskreter Funktionen [Papierlink] 13.10.2023
Satwik Bhattamishra; Arkil Patel; Phil Blunsom; Varun Kanade
Wie viele Vortrainingsaufgaben sind für das kontextbezogene Lernen der linearen Regression erforderlich? [Papierlink] 13.10.2023
Jingfeng Wu; Difan Zou; Zixiang Chen; Vladimir Braverman; Quanquan Gu; Peter Bartlett
In-Context-Lernen lernt Etikettenbeziehungen, ist aber kein konventionelles Lernen [Papierlink] 2023-10-13
Jannik Kossen; Yarin Gal; Tom Rainforth
Kontextkonvergenz von Transformatoren [Papierlink] 13.10.2023
Yu Huang; Yuan Cheng; Yingbin Liang
Kontextbezogenes Lernen durch das Bayesianische Prisma [Papierlink] 13.10.2023
Madhur Panwar; Kabir Ahuja; Navin Goyal
Lernen vorab trainierte Transformer wirklich im Kontext durch Gradientenabstieg? [Papierlink] 12.10.2023
Lingfeng Shen; Aayush Mishra; Daniel Khashabi
Was und wie lernt In-Context Learning? Bayes'sche Modellmittelung, Parametrisierung und Generalisierung [Papierlink] 10.10.2023
Yufeng Zhang; Fengzhuo Zhang; Zhuoran Yang; Zhaoran Wang
Emergent In-Context Learning als Kernel-Regression erklären [Papierlink] 05.10.2023
Chi Han; Ziqi Wang; Han Zhao; Heng Ji
CausalLM ist nicht optimal für kontextbezogenes Lernen [Papierlink] 02.09.2023
Nan Ding; Tomer Levinboim; Jialin Wu; Sebastian Goodman; Radu Soricut
Ein Schritt des Gradientenabstiegs ist nachweislich der optimale In-Context-Lerner mit einer Ebene linearer Selbstaufmerksamkeit [Papierlink] 07.07.2023
Arvind Mahankali; Tatsunori B. Hashimoto; Tengyu Ma
Transformatoren als Statistiker: Beweisbares kontextbezogenes Lernen mit kontextbezogener Algorithmusauswahl [Papierlink] 06.07.2023
Yu Bai; Fan Chen; Huan Wang; Caiming Xiong; Lied Mei
Transformers lernen im Kontext durch Gradient Descent [Papierlink] 15.06.2023
Johannes von Oswald; Eyvind Niklasson; Ettore Randazzo; Joao Sacramento; Alexander Mordwinzew; Andrey Zhmoginov; Max Wladimirow
Die Nähe von kontextbezogenem Lernen und Gewichtsverlagerung für die Softmax-Regression [Papierlink] 26.04.2023
Shuai Li; Zhao-Lied; Yu Xia; Tong Yu; Tianyi Zhou
Eine Theorie des aufkommenden In-Context-Lernens als implizite Strukturinduktion [Papierlink] 14.03.2023
Michael Hahn; Navin Goyal
Die Erlernbarkeit des Lernens im Kontext [Papierlink] 14.03.2023
Noam Wies; Yoav Levine; Amnon Shashua
Was können Transformer im Kontext lernen? Eine Fallstudie einfacher Funktionsklassen [Papierlink] 14.01.2023
Shivam Garg; Dimitris Tsipras; Percy Liang; Gregory Valiant
Transformatoren verallgemeinern Informationen, die im Kontext gespeichert sind, anders als in Gewichten [Papierlink] 13.10.2022
Stephanie CY Chan; Ishita Dasgupta; Junkyung Kim; Dharshan Kumaran; Andrew K. Lampinen; Felix Hill
In-Context Learning und Induction Heads [Papierlink] 24.09.2022
Catherine Olsson; Nelson Elhage; Neel Nanda; Nicholas Joseph; Nova DasSarma; Tom Henighan; Ben Mann; Amanda Askell; Yuntao Bai; Anna Chen; Tom Conerly; Dawn Drain; Tiefer Ganguli; Zac Hatfield-Dodds; Danny Hernandez; Scott Johnston; Andy Jones; Jackson Kernion; Liane Lovitt; Kamal Ndousse; Dario Amodei; Tom Brown; Jack Clark; Jared Kaplan; Sam McCandlish; Chris Olah
^ back to top ^
Aufsätze, die das Phänomen der Gedankenkette in großen Sprachmodellen analysieren und dabei theoretische und empirische Perspektiven untersuchen.
Was geschah in LLM-Ebenen, als man für schnelles oder langsames Denken trainierte: Eine Gradientenperspektive [Papierlink] 2024-10-31
Ming Li; Yanhong Li; Tianyi Zhou
Ein theoretisches Verständnis der Gedankenkette: Kohärentes Denken und fehlerbewusste Demonstration [Papierlink] 21.10.2024
Yingqian Cui; Pengfei Er; Xianfeng Tang; Qi Er; Chen Luo; Jiliang Tang; Yue Xing
Von geringer Abhängigkeit zu geringer Aufmerksamkeit: Enthüllung, wie die Gedankenkette die Effizienz von Transformatorproben steigert [Link zum Papier] 07.10.2024
Kaiyue Wen; Huaqing Zhang; Hongzhou Lin; Jingzhao Zhang
Training nichtlinearer Transformatoren für die Ketteninferenz: Eine theoretische Generalisierungsanalyse [Papierlink] 03.10.2024
Hongkang Li; Meng Wang; Songtao Lu; Xiaodong Cui; Pin-Yu Chen
Autoregressiv + Gedankenkette (CoT) ≃ Rekurrent: Die Rolle der Rekurrenz in Sprachmodellen und eine Neuinterpretation des rekurrenten Transformators [Papierlink] 14.09.2024
Xiang Zhang; Muhammad Abdul-Mageed; Laks gegen Lakshmanan
Enthüllung der statistischen Grundlagen von Chain-of-Thought-Anleitungsmethoden [Papierlink] 25.08.2024
Xinyang Hu; Fengzhuo Zhang; Siyu Chen; Zhuoran Yang
Entschlüsselung der Faktoren, die die Wirksamkeit der Gedankenkette beeinflussen: Wahrscheinlichkeit, Auswendiglernen und lautes Denken [Papierlink] 01.07.2024
Akshara Prabhakar; Thomas L. Griffiths; R. Thomas McCoy
Zur Repräsentationsfähigkeit neuronaler Sprachmodelle mit Chain-of-Thought Reasoning [Papierlink] 20.06.2024
Franz Nowak; Anej Svete; Alexandra Butoi; Ryan Cotterell
Iterationsleiter: Eine mechanistische Studie zur Gedankenkette [Papierlink] 04.06.2024
Vivien Cabannes; Charles Arnal; Wassim Bouaziz; Alice Yang; Francois Charton; Julia Kempe
Denken wir Punkt für Punkt nach: Versteckte Berechnungen in Transformer-Sprachmodellen [Papierlink] 24.04.2024
Jacob Pfau; William Merrill; Samuel R. Bowman
Die Gedankenkette befähigt Transformatoren, inhärent serielle Probleme zu lösen [Link zum Papier] 20.02.2024
Zhiyuan Li; Hong Liu; Denny Zhou; Tengyu Ma
Auf dem Weg zur Enthüllung des Geheimnisses hinter der Gedankenkette: Eine theoretische Perspektive [Papierlink] 22.12.2023
Guhao Feng; Bohang Zhang; Yuntian Gu; Haotian Ye; Di He; Liwei Wang
Warum können große Sprachmodelle korrekte Gedankenketten generieren? [Papierlink] 20.10.2023
Rasul Tutunov; Antoine Grosnit; Juliusz Ziomek; Jun Wang; Haitham Bou-Ammar
Wie implementieren große Sprachmodelle die Gedankenkette? [Papierlink] 13.10.2023
Yiqun Wang; Sile Hu; Yonggang Zhang; Xiang Tian; Xuesong Liu; Yaowu Chen; Xu Shen; Jieping Ye
Die Ausdruckskraft von Transformatoren mit Gedankenkette [Papierlink] 13.10.2023
William Merrill; Ashish Sabharwal
^ back to top ^
Aufsätze zur Untersuchung des Halluzinationsphänomens in Sprachmodellen, einschließlich theoretischer und empirischer Analyse.
Kein kostenloses Mittagessen: Grundlegende Grenzen des Lernens nicht-halluzinierender generativer Modelle [Papierlink] 24.10.2024
Changlong Wu; Ananth Grama; Wojciech Szpankowski
Geteilte Fantasie: LLMs halluzinieren gleichermaßen [Papierlink] 23.07.2024
Yilun Zhou; Caiming Xiong; Silvio Savarese; Chien-Sheng Wu
Schätzung der Halluzinationsrate generativer KI [Papierlink] 11.06.2024
Andrew Jesson; Nicolas Beltran-Velez; Quentin Chu; Sweta Karlekar; Jannik Kossen; Yarin Gal; John P. Cunningham; David Blei
Fördert die Feinabstimmung von LLMs auf neue Erkenntnisse Halluzinationen? [Papierlink] 09.05.2024
Zorik Gekhman; Gal Yona; Roee Aharoni; Matan Eyal; Amir Feder; Roi Reichart; Jonathan Herzig
Mechanismen nicht-faktischer Halluzinationen in Sprachmodellen [Papierlink] 26.03.2024
Lei Yu; Meng Cao; Jackie Chi Kit Cheung; Yue Dong
Unbekannte Feinabstimmungsbeispiele steuern, wie Sprachmodelle halluzinieren [Papierlink] 08.03.2024
Katie Kang; Eric Wallace; Claire Tomlin; Aviral Kumar; Sergey Levine
Schärfe im Kontext als Warnungen: Eine Perspektive der inneren Repräsentation zur Eindämmung von Halluzinationen [Link zum Papier] 05.03.2024
Shiqi Chen; Miao Xiong; Junteng Liu; Zhengxuan Wu; Teng Xiao; Siyang Gao; Junxian He
Kalibrierte Sprachmodelle müssen halluzinieren [Link zum Papier] 24.11.2023
Adam Tauman Kalai; Santosh S. Vempala
Der seltsame Fall halluzinatorischer Unbeantwortbarkeit: Wahrheiten in den verborgenen Zuständen übermäßig selbstbewusster großer Sprachmodelle finden [Papierlink] 2023-10-18
Aviv Slobodkin; Omer Goldman; Avi Caciularu; Ido Dagan; Shauli Ravfogel
^ back to top ^
Artikel, die das Umkehrfluch-Phänomen in großen Sprachmodellen analysieren.
Auf dem Weg zu einem theoretischen Verständnis des „Umkehrfluchs“ durch Trainingsdynamik [Papierlink] 07.05.2024
Hanlin Zhu; Baihe Huang; Shaolun Zhang; Michael Jordan; Jiantao Jiao; Yuandong Tian; Stuart Russell
Der Umkehrfluch: LLMs, die auf „A ist B“ trainiert sind, können „B ist A“ nicht lernen [Link zum Papier] 04.04.2024
Lukas Berglund; Meg Tong; Max Kaufmann; Mikita Balesni; Asa Cooper Stickland; Tomasz Korbak; Owain Evans
Eine Untersuchung der Ineffizienz von LLMs beim Verständnis umgekehrter Beziehungen [Papierlink] 01.12.2023
Chengwen Qi; Bowen Li; Binyuan Hui; Bailin Wang; Jinyang Li; Jinwang Wu; Yuanjun Laili
Physik von Sprachmodellen: Teil 3.2, Wissensmanipulation [Papierlink] 25.09.2023
Zeyuan Allen-Zhu; Yuanzhi Li
Der Umkehrfluch: Welche Token Ihrer Vorhersage nach dem Faktorisierungsfluch und mehr zugrunde liegen [Papierlink] 07.06.2023
Ouail Kitouni; Niklas Nolte; Diane Bouchacourt; Adina Williams; Mike Rabbat; Mark Ibrahim
^ back to top ^
In Artikeln wird untersucht, wie die Modellleistung mit der Modellgröße, der Datengröße oder den Rechenressourcen skaliert und wie unerwartete Fähigkeiten entstehen.
Entschlüsselung der Theorie hinter der Skalierung neuronaler 1-Bit-Netze [Papierlink] 03.11.2024
Majid Daliri; Zhao-Lied; Chiwun Yang
Wie skaliert die kritische Batchgröße im Vortraining? [Papierlink] 29.10.2024
Hanlin Zhang; Depen Morwani; Nikhil Vyas; Jingfeng Wu; Difan Zou; Udaya Ghai; Dekan Foster; Scheinkakade
Eine Informationstheorie der rechenoptimalen Größenskalierung, Emergenz und Plateaus in Sprachmodellen [Papierlink] 15.10.2024
Anuj K. Nayak; Lav R. Varshney
A Hitchhiker's Guide to Scaling Law Estimation [Papierlink] 15.10.2024
Leshem Choshen; Yang Zhang; Jakob Andreas
Skalierungsgesetze über Modellarchitekturen hinweg: Eine vergleichende Analyse dichter und MoE-Modelle in großen Sprachmodellen [Papierlink] 08.10.2024
Siqi Wang; Zhengyu Chen; Bei Li; Keqing He; Min Zhang; Jingang Wang
Grokking at the Edge of Linear Separability [Papierlink] 06.10.2024
Alon Beck; Noam Levi; Yohai Bar-Sinai
Eine empirische Studie zu Skalierungsgesetzen für den Transfer [Papierlink] 30.08.2024
Matthew Barnett
Ein Perkolationsmodell der Emergenz: Analyse von Transformatoren, die auf einer formalen Sprache trainiert wurden [Papierlink] 22.08.2024
Ekdeep Singh Lubana; Kyogo Kawaguchi; Robert P. Dick; Hidenori Tanaka
Skalierungsgesetz mit Learning Rate Annealing [Papierlink] 20.08.2024
Howe-Gewebe; Venus Wang; Lu Wang
Leistungsgesetz großer Sprachmodelle [Papierlink] 19.08.2024
Chuhan Wu; Ruiming Tang
Informationstheoretische Fortschrittsmessungen zeigen, dass Grokking ein aufstrebender Phasenübergang ist [Papierlink] 16.08.2024
Kenzo Clauw; Sebastiano Stramaglia; Daniele Marinazzo
Large Language Monkeys: Skalierung von Inferenzberechnungen mit wiederholter Stichprobe [Papierlink] 2024-07-31
Bradley Brown; Jordan Juravsky; Ryan Ehrlich; Ronald Clark; Quoc V. Le; Christopher Ré; Azalia Mirhoseini
Entstehung in nicht-neuronalen Modellen: Grokking modularer Arithmetik über durchschnittliches Gradienten-Außenprodukt [Papierlink] 29.07.2024
Neil Mallinar; Daniel Beaglehole; Libin Zhu; Adityanarayanan Radhakrishnan; Parthe Pandit; Michail Belkin
Erkundung von Skalierungstrends in der LLM-Robustheit [Papierlink] 25.07.2024
Nikolaus Howe; Michał Zajac; Ian McKenzie; Oskar Hollinsworth; Tom Tseng; Pierre-Luc Bacon; Adam Gleave
Das Zusammenspiel von Skalierung, Daten und Bias in Sprachmodellen verstehen: Eine Fallstudie mit BERT [Papierlink] 25.07.2024
Muhammad Ali; Swetasudha Panda; Qinlan Shen; Michael Wick; Ari Kobren
Gesetze mit Vokabular skalieren: Größere Modelle verdienen größere Vokabulare [Papierlink] 18.07.2024
Chaofan Tao; Qian Liu; Longxu Dou; Niklas Münnighoff; Zhongwei Wan; Ping Luo; Min Lin; Ngai Wong
Warum grokst du? Eine theoretische Analyse der Grokking Modular Addition [Papierlink] 17.07.2024
Mohamad Amin Mohamadi; Zhiyuan Li; Lei Wu; Danica J. Sutherland
Vorhersage neuer Fähigkeiten durch Feinabstimmung [Papierlink] 10.07.2024
Charlie Victor Snell; Eric Wallace; Dan Klein; Sergey Levine
Beheben von Diskrepanzen bei der rechenoptimalen Skalierung von Sprachmodellen [Papierlink] 25.06.2024
Tomer Porian; Mitchell Wortsman; Jenia Jitsev; Ludwig Schmidt; Yair Carmon
Skalierungsgesetze für Sprachmodelle mit linearer Komplexität [Papierlink] 24.06.2024
Xuyang Shen; Dong Li; Ruitao Leng; Zhen Qin; Weigao Sonne; Yiran Zhong
Skalierungsgesetze für die Faktenspeicherung großer Sprachmodelle [Papierlink] 22.06.2024
Xingyu Lu; Xiaonan Li; Qinyuan Cheng; Kai Ding; Xuanjing Huang; Xipeng Qiu
Vereinbarkeit der Kaplan- und Chinchilla-Skalierungsgesetze [Papierlink] 12.06.2024
Tim Pearce; Jinyeop-Lied
Deep Grokking: Würden sich Deep Neural Networks besser verallgemeinern lassen? [Papierlink] 29.05.2024
Simin Fan; Razvan Pascanu; Martin Jaggi
Linguistischer Kollaps: Neuronaler Kollaps in (großen) Sprachmodellen [Papierlink] 28.05.2024
Robert Wu; Vardan Papyan
Skalierungsgesetze und rechenoptimiertes Training über feste Trainingsdauern hinaus [Papierlink] 28.05.2024
Alexander Hägele; Elie Bakouch; Atli Kosson; Loubna Ben Allal; Leandro Von Werra; Martin Jaggi
gzip prognostiziert datenabhängige Skalierungsgesetze [Papierlink] 26.05.2024
Rohan Pandey
Entstehung einer hochdimensionalen Abstraktionsphase in Sprachtransformatoren [Papierlink] 24.05.2024
Emily Cheng; Diego Doimo; Corentin Kervadec; Iuri Macocco; Jade Yu; Alessandro Laio; Marco Baroni
Eine Begründung aus Frequenzperspektive für Grokking beim Training neuronaler Netzwerke [Papierlink] 24.05.2024
Zhangchen Zhou; Yaoyu Zhang; Zhi-Qin John Xu
Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization [Papierlink] 23.05.2024
Boshi Wang; Xiang Yue; Yu Su; Huan Sun
Effizientes Datenmischen: Ein bivariates Skalierungsgesetz für das Vortraining von Sprachmodellen [Papierlink] 23.05.2024
Ce Ge; Zhijian Ma; Daoyuan Chen; Yaliang Li; Bolin Ding
4+3 Phasen rechenoptimaler neuronaler Skalierungsgesetze [Papierlink] 23.05.2024
Elliot Paquette; Courtney Paquette; Lechao Xiao; Jeffrey Pennington
Sklaven des Gesetzes der großen Zahlen: Eine asymptotische Äquipartitionseigenschaft für Perplexität in generativen Sprachmodellen [Papierlink] 22.05.2024
Raghu Mudumbai; Tyler Bell
Quantifizierung der Emergenz in großen Sprachmodellen [Papierlink] 21.05.2024
Hang Chen; Xinyu Yang; Jiaying Zhu; Wenya Wang
Jenseits von Skalierungsgesetzen: Transformatorleistung mit assoziativem Gedächtnis verstehen [Link zum Papier] 14.05.2024
Xueyan Niu; Bo Bai; Lei Deng; Wei Han
Mehr Rechenleistung ist das, was Sie brauchen [Link zum Papier] 30.04.2024
Zhen Guo
Ein genau lösbares Modell für Entstehungs- und Skalierungsgesetze [Papierlink] 26.04.2024
Yoonsoo Nam; Nayara Fonseca; Seok Hyeong Lee; Ard Louis
Warum sind kleine Sprachmodelle leistungsschwach? Untersuchung der Sprachmodellsättigung über den Softmax-Engpass [Papierlink] 11.04.2024
Nathan Godey; Éric de la Clergerie; Benoît Sagot
Eine groß angelegte Erkundung von
Lucas Lingle
Neue Fähigkeiten in generativen Sprachmodellen mit reduziertem Maßstab [Papierlink] 02.04.2024
Sherin Muckatira; Vijeta Deshpande; Vladislav Lialin; Anna Rumshisky
Neue Fähigkeiten von Sprachmodellen aus der Verlustperspektive verstehen [Papierlink] 23.03.2024
Zhengxiao Du; Aohan Zeng; Yuxiao Dong; Jie Tang
Das Geheimnis der Skalierungsgesetze lüften: Teil I [Papierlink] 21.03.2024
Hui Su; Zhi Tian; Xiaoyu Shen; Xunliang Cai
Sprachmodelle skalieren zuverlässig bei Übertraining und bei nachgelagerten Aufgaben [Papierlink] 13.03.2024
Samir Yitzhak Gadre; Georgios Smyrnis; Vaishaal Shankar; Suchin Gururangan; Mitchell Wortsman; Rulin Shao; Jean Mercat; Alex Fang; Jeffrey Li; Sedrick Keh; Rui Xin; Marianna Nezhurina; Igor Vasiljevic; Jenia Jitsev; Alexandros G. Dimakis; Gabriel Ilharco; Shuran-Lied; Thomas Kollar; Yair Carmon; Achal Dave; Reinhard Heckel; Niklas Münnighoff; Ludwig Schmidt
Wenn Skalierung auf LLM-Feinabstimmung trifft: Die Wirkung von Daten, Modell und Feinabstimmungsmethode [Papierlink] 26.02.2024
Biao Zhang; Zhongtao Liu; Colin Cherry; Orhan Firat
Interpretation von Grokked-Transformatoren in der komplexen modularen Arithmetik [Papierlink] 26.02.2024
Hiroki Furuta; Gouki Minegishi; Yusuke Iwasawa; Yutaka Matsuo
Eine Geschichte voller Schwänze: Modellkollaps als Änderung der Skalierungsgesetze [Papierlink] 10.02.2024
Elvis Dohmatob; Yunzhen Feng; Pu Yang; Francois Charton; Julia Kempe
Skalierung datenbeschränkter Sprachmodelle [Papierlink] 25.10.2023
Niklas Münnighoff; Alexander M. Rush; Boas Barak; Teven Le Scao; Aleksandra Piktus; Nouamane Tazi; Sampo Pyysalo; Thomas Wolf; Colin Raffel
Die Kosten für die Verkleinerung von Sprachmodellen: Die Erinnerung an Fakten verschlechtert sich vor dem Lernen im Kontext [Link zum Papier] 06.10.2023
Tian Jin; Nolan Clement; Xin Dong; Vaishnavh Nagarajan; Michael Carbin; Jonathan Ragan-Kelley; Gintare Karolina Dziugaite
Sind neue Fähigkeiten großer Sprachmodelle eine Fata Morgana? [Papierlink] 28.04.2023
Rylan Schaeffer; Brando Miranda; Sanmi Koyejo
Training rechenoptimaler großer Sprachmodelle [Papierlink] 29.03.2022
Jordan Hoffmann; Sebastian Borgeaud; Arthur Mensch; Elena Buchatskaya; Trevor Cai; Eliza Rutherford; Diego de Las Casas; Lisa Anne Hendricks; Johannes Welbl; Aidan Clark; Tom Hennigan; Eric Noland; Katie Millican; George van den Driessche; Bogdan Damoc; Aurelia Guy; Simon Osindero; Karen Simonyan; Erich Elsen; Jack W. Rae; Oriol-Vinylale; Laurent Sifre
Skalierungsgesetze für neuronale Sprachmodelle [Papierlink] 22.01.2020
Jared Kaplan; Sam McCandlish; Tom Henighan; Tom B. Brown; Benjamin Schach; Wiedergewonnenes Kind; Scott Gray; Alec Radford; Jeffrey Wu; Dario Amodei
^ back to top ^
Beiträge, die sich darauf konzentrieren, wie große Sprachmodelle Wissen speichern, abrufen und nutzen, und die beteiligten Gedächtnismechanismen analysieren.
Ein geometrischer Rahmen zum Verständnis des Auswendiglernens in generativen Modellen [Papierlink] 2024-10-31
Brendan Leigh Ross; Hamidreza Kamkari; Tongzi Wu; Rasa Hosseinzadeh; Zhaoyan Liu; George Stein; Jesse C. Cresswell; Gabriel Loaiza-Ganem
Optimale Speicherkapazität von Transformatoren [Papierlink] 26.09.2024
Tokio Kajitsuka; Issei Sato
Schrödingers Gedächtnis: Große Sprachmodelle [Papierlink] 16.09.2024
Wei Wang; Qing Li
Selbstaufmerksamkeit begrenzt die Arbeitsspeicherkapazität transformatorbasierter Modelle [Papierlink] 16.09.2024
Dongyu Gong; Hantao Zhang
Großes Gedächtnis, oberflächliches Denken: Grenzen von kNN-LMs [Papierlink] 21.08.2024
Shangyi Geng; Ging Zhao; Alexander M. Rush
Auswendiglernen beim Lernen im Kontext [Papierlink] 21.08.2024
Shahriar Golchin; Mihai surdeanu; Steven Bethard; Eduardo Blanco; Ellen Riloff
Generalisierung zuerst, Auswendiglernen zum zweiten Mal? Auswendiglernen-Lokalisierung für Aufgaben zur Klassifizierung natürlicher Sprache [Papierverbindung] 2024-08-09
Verna Dankers; Ivan Titov
Auswendiglernen von LLMs verstehen: Dynamik, Einflussfaktoren und Implikationen [Papierverbindung] 2024-07-27
Bis Speicher; Mohammad Aflah Khan; Qinyuan Wu; Vedant Nanda; Soumi Das; Biswamittra Ghosh; Krishna P. Gummadi; Evimaria Terzi
Entmystifizierende wörtliche Auswendiglernen in Großsprachenmodellen [Papierverbindung] 2024-07-25
Jing Huang; Diyi yang; Christopher Potts
Vom internen Konflikt bis zur kontextuellen Anpassung von Sprachmodellen [Papierverbindung] 2024-07-24
Sara Vera Marjanović; Haeun yu; Pepa Atanasova; Maria Maistro; Christina Lioma; Isabelle Audenstein
Verallgemeinerung vs. Memorisierung: Funktionen der Sprachmodelle zurück in die Vorabendaten [Papierverbindung] 2024-07-20
Antonis Antoniades; Xinyi Wang; Yanai Elazar; Alfonso Amayuelas; Alon Albalak; Kexun Zhang; William Yang Wang
Physik der Sprachmodelle: Teil 3.1, Wissenspeicherung und Extraktion [Papierverbindung] 2024-07-16
Zeyuan Allen-Zhu; Yuanzhi li
Induktionsköpfe als wesentlicher Mechanismus für das Musteranpassung im In-Kontext-Lernen [Papierverbindung] 2024-07-09
J. Crosbie; E. Shutova
Träumen LLMs von Elefanten (wenn es nicht gesagt wird)? Latent Concept Association und assoziatives Gedächtnis in Transformatoren [Papierverbindung] 2024-06-26
Yibo Jiang; Goutham Rajendran; Pradeep Ravikumar; Bryon Aragam
Skalierungsgesetze für das Auswendiglernen von Großsprachenmodellen [Papierverbindung] 2024-06-22
Xingyu Lu; Xiaonan li; Qinyuan Cheng; Kai Ding; Xuanjing Huang; Xipeng Qiu
Anschließen der Punkte: LLMs können die latente Struktur aus unterschiedlichen Trainingsdaten [Papierverbindung] 2024-06-20 schließen und verbalisieren
Johannes Treutlein; Dami Choi; Jan Betley; Cem anil; Samuel Marks; Roger Baker Grosse; Owain Evans
Latente Erinnerungen entdecken: Bewertung von Datenleck- und Auswendigmakiermustern in Großsprachenmodellen [Papierverbindung] 2024-06-20
Sonniger Duan; Mikail Khona; Abhiram Iyer; Rylan Schaeffer; Ila r fiete
Verständnis der Finetuning für sachliche Wissensextraktion [Papierverbindung] 2024-06-20
Gaurav Ghosal; Tatsunori Hashimoto; Aditi Raghunathan
Schätzung des Wissens in Großsprachmodellen ohne eine einzelne Token [Papierverbindung] 2024-06-18
Daniela Gottesman; Mor Geva
Wie erwerben große Sprachmodelle während der Vorbereitung Sachkenntnisse? [Papierverbindung] 2024-06-17
Hoyeon Chang; Jinho Park; Seonghyeon ye; Sohee Yang; Youngkyung Seo; Du-Seong Chang; Minjoon Seo
Sei wie ein Goldfisch, merke mich nicht aus! Mildernde Memorisierung in generativen LLMs [Papierverbindung] 2024-06-14
Abhimanyu Hans; Yuxin Wen; Neel Jain; John Kirchenbauer; Hamid Kazemi; Prajwal Singhania; Siddharth Singh; Gowthami sonpalli; Jonas Geiping; Abhinav Bhatele; Tom Goldstein
Wissenskreise in vorbereiteten Transformatoren [Papierverbindung] 2024-05-28
Yunzhi Yao; Ningyu Zhang; Zekun XI; Mengru Wang; Ziwen Xu; Shumin Deng; Huajun Chen
Ober- und untere Gedächtniskapazitätsgrenzen von Transformatoren für die nächste Vorhersage [Papierverbindung] 2024-05-22
Liam Madden; Curtis Fox; Christos Thrampoulidis
Eine Multi-Perspektive-Analyse des Auswendiglernens in Großsprachenmodellen [Papierverbindung] 2024-05-19
Bowen Chen; Namgi Han; Yusuke Miyao
Physik der Sprachmodelle: Teil 3.3, Skalierungsgesetze der Wissenskapazität [Papierverbindung] 2024-04-08
Zeyuan Allen-Zhu; Yuanzhi li
Auswendiglernen von Multi-Head-Aufmerksamkeit in Transformatoren [Papierverbindung] 2024-03-02
Sadegh Mahdavi; Renjie Liao; Christos Thrampoulidis
Geburt eines Transformators: Ein Speicheransichtspunkt [Papierlink] 2023-11-06
Alberto Bietti; Vivien Cabannes; Diane Bouchacourt; Herve Jegou; Leon Bottou
Physik der Sprachmodelle: Teil 3.2, Wissensmanipulation [Papierverbindung] 2023-09-25
Zeyuan Allen-Zhu; Yuanzhi li
Kann ein Auswendiglernen des neuronalen Netzwerks lokalisiert werden? [Papierverbindung] 2023-07-18
Pratyush Maini; Michael C. Mozer; Hanie Sedghi; Zachary C. Lipton; J. Zico Kolter; Chiyuan Zhang
Quantifizierung des Auswendiglernens über neuronale Sprachmodelle [Papierverbindung] 2022-02-15
Nicholas Carlini; Daphne Ippolito; Matthew Jagielski; Katherine Lee; Florian Tramer; Chiyuan Zhang
^ back to top ^
Papiere, in denen verschiedene Aspekte des Trainingsprozesses diskutiert werden, einschließlich Optimierung, Feinabstimmung und der Trainingslandschaft großer Sprachmodelle.
Globale Konvergenz in der Ausbildung großer Transformatoren [Papierverbindung] 2024-10-31
Cheng Gao; Yuan Cao; Zihao li; Yihan er; Mengdi Wang; Han Liu; Jason Matthew Klusowski; Jianqing Fan
Was in LLMs-Schichten passiert ist, wenn sie für schnelles und langsames Denken trainiert wurden: Eine Gradientenperspektive [Papierverbindung] 2024-10-31
Ming Li; Yanhong li; Tianyi Zhou
Lern- und Übertragung spärlicher kontextbezogener Bigrams mit linearen Transformatoren [Papierverbindung] 2024-10-30
Yunwei Ren; Zixuan Wang; Jason D. Lee
Abruptes Lernen in Transformatoren: Eine Fallstudie zur Matrixabschluss [Papierverbindung] 2024-10-29
Pulkit Gopalani; Ekdeep Singh Lubana; Wei Hu
Lora gegen vollständige Feinabstimmung: Eine Illusion der Äquivalenz [Papierverbindung] 2024-10-28
Reece Shuttleworth; Jacob Andreas; Antonio Torralba; Pratyusha Sharma
Eine Verteilungseinfachheit in der Lerndynamik von Transformatoren [Paper Link] 2024-10-25
Riccardo Rende; Federica Gerace; Alessandro Laio; Sebastian Goldt
Aktive dauerhafte Aufmerksamkeitsköpfe: Mechanistisch entmystifizierende extreme Erkenntnisphänomene in LLMs [Papierverbindung] 2024-10-17
Tianyu Guo; DRUV PAI; Yu bai; Jiantao Jiao; Michael I. Jordan; Lied Mei
Wie Transformatoren Induktionsköpfe implementieren: Analyse der Approximation und Optimierung [Papierverbindung] 2024-10-15
Mingze Wang; Ruoxi yu; Weinan E; Lei Wu
Was bedeutet es, ein Transformator zu sein? Erkenntnisse aus einer theoretischen hessischen Analyse [Papierverbindung] 2024-10-14
Weronika Ormaniec; Felix Dangel; Sidak Pal Singh
Adaption Odyssey in LLMs: Warum verbessert sich zusätzliche Vorbereitung manchmal nicht? [Papierverbindung] 2024-10-08
Fırat öerncel; Matthias Bethge; Beyza Ermis; Mirco Ravanelli; CEM Subakan; Çağatay yıldız
Bei der Optimierung und Verallgemeinerung von zweischichtigen Transformatoren mit Vorzeichenabstieg [Papierverbindung] 2024-10-07
Bingrui li; Wei Huang; Andi Han; Zhanpeng Zhou; Taiji Suzuki; Jun Zhu; Jianfei Chen
Verständnis der Lernraten für die Erwärmungsstabil
Kaiyue Wen; Zhiyuan li; Jason Wang; David Hall; Percy Liang; Tengyu Ma
Training nichtlineare Transformatoren für die Überdachtung der Kette: Eine theoretische Generalisierungsanalyse [Papierverbindung] 2024-10-03
Hongkang Li; Meng Wang; Songtao Lu; Xiaodong Cui; Pin-yu Chen
Theoretische Einblicke in den Feinabstimmungsmechanismus: Generalisierung und Optimierung [Papierverbindung] 2024-10-03
Xinhao yao; Hongjin Qian; Xiaolin Hu; Gengze Xu; Yong Liu
Ausgebildete Transformator-Klassifizierer verallgemeinern und zeigen gutartige Überanpassungsbekämpfung [Papierverbindung] 2024-10-02
Spencer Frei; Gal Vardi
Auf dem Weg zu einem theoretischen Verständnis der synthetischen Daten in LLM nach dem Training: Eine umgekehrte Perspektive [Papierlink] 2024-10-02
Zeyu Gan; Yong Liu
Untersuchung der Auswirkungen der Modellkomplexität in Großsprachenmodellen [Papierverbindung] 2024-10-01
Jing Luo; Huiyuan Wang; Weiran Huang
Benighte oder nicht-geringer Überanpassung in der Token-Auswahl des Aufmerksamkeitsmechanismus [Papierverbindung] 2024-09-26
Keitoro sakamoto; Issei Sato
Nicht-asymptotische Konvergenz von Trainingstransformatoren für die nächste Vorhersage [Papierverbindung] 2024-09-25
Ruiquan Huang; Yingbin Liang; Jing Yang
Optimierung Hyper-Parameter-Gesetze für Großsprachenmodelle [Papierverbindung] 2024-09-07
Xingyu Xie; Kuangyu Ding; Shuicheng Yan; Kim-Chuan Toh; Tianwen Wei
Der Ademamix-Optimierer: Besser, schneller, älter [Papierverbindung] 2024-09-05
Matteo Pagliardini; Pierre Abblin; David Grangier
Clustering und Ausrichtung: Verständnis der Trainingsdynamik in modularer Addition [Papierverbindung] 2024-08-18
Tiberiu Musat
Globale Konvergenz in der Ausbildung großer Transformatoren [Papierverbindung] 2024-08
Cheng Gao; Yuan Cao; Zihao li; Yihan er; Mengdi Wang; Han Liu; Jason M. Klusowski; Jianqing Fan
Über die Konvergenz von nur Encoder-Sachtransformatoren [Papierverbindung] 2024-08
Yongtao Wu; Fanghui liu; Grigorios G Chrysos; Volkan Cevher
Parametereffiziente Feinabstimmung für kontinuierliches Lernen: Eine Perspektive der neuronalen Tangentenkern [Papierlink] 2024-07-24
Jingren Liu; Zhong Ji; Yunlong yu; Jiale Cao; Yanwei Pang; Jungong Han; Xuelong li
Lerndynamik von LLM-Fellern [Papierverbindung] 2024-07-15
Yi ren; Danica J. Sutherland
Dekonstruieren, was einen guten Optimierer für Sprachmodelle [Papierlink] 2024-07-10 macht
Rosie Zhao; Depen Morwani; David Brandfonbrener; Nikhil Vyas; Sham Kakade
Null-Shot-Verallgemeinerung während der Anweisungsabstimmung: Erkenntnisse aus Ähnlichkeit und Granularität [Papierverbindung] 2024-06-17
Bingxiang er; Ning Ding; Cheng Qian; Jia Deng; Ganqu Cui; Lifan Yuan; Huan-Ang Gao; Huimin Chen; Zhiyuan Liu; Maosong -Sonne
Verständnis linearer Prüfung und feinstimmende Sprachmodelle aus NTK-Perspektive [Papierverbindung] 2024-05-27
Akiyoshi Tomihari; Issei Sato
Unendliche Grenzen der Dynamik der Mehrköpfe-Transformator [Papierverbindung] 2024-05-24
Blake Bordelon; Hamza Tahir Chaudhry; Cengiz Pehlevan
Auf dem Weg zu einem theoretischen Verständnis des "Umkehrfluchs" über Trainingsdynamik [Papierverbindung] 2024-05-07
Hanlin Zhu; Baihe Huang; Shaolun Zhang; Michael Jordan; Jiantao Jiao; Yuandong Tian; Stuart Russell
Kontrolltheoretischer Ansatz zur Feinabstimmung und Übertragung von Lernen [Papierverbindung] 2024-04-16
Erkan Bayram; Shenyu Liu; Mohamed-Ali Belabbas; Tamer Başar
Schauen Sie sich den Text an: Anweisungsstimmungsmodelle sind robustere Multiple-Choice-Selektoren als Sie denken [Papierlink] 2024-04-12
Xinpeng Wang; Chengzhi Hu; Bolei MA; Paul Röttger; Barbara Plank
Auf Trainingsdaten Einfluss von GPT-Modellen [Papierverbindung] 2024-04-11
Qingyi liu; Yekun Chai; Shuohuan Wang; Yu Sonne; Keze Wang; Hua Wu
Best Practices und Lektionen, die in synthetischen Daten für Sprachmodelle [Papierverbindung] 2024-04-11 gelernt wurden
Ruibo liu; Jerry Wei; Fangyu Liu; Chenglei Si; Yanzhe Zhang; Jinmeng Rao; Steven Zheng; Daiyi Peng; Diyi yang; Denny Zhou; Andrew M. Dai
Wie schlecht ist das Training über synthetische Daten? Eine statistische Analyse des Zusammenbruchs des Sprachmodells [Papierverbindung] 2024-04-07
Mohamed El Amine Seddik; Suei-wen Chen; Soufiane Hayou; Pierre Youssef; Merouane Debbah
Enthüllung der Verallgemeinerungskraft fein abgestimmter Großsprachenmodelle [Papierverbindung] 2024-03-14
Haoran Yang; Yumeneng Zhang; Jiaqi Xu; Hongyuan Lu; Pheng Ann Heng; Wai Lam
Transformatoren werden stabil
Akhil Kedia; Mohd Abbas Zaidi; Sushil Khyalia; Jungho Jung; Harshith Goka; Haejun Lee
Lineare Aufmerksamkeit ist (vielleicht) alles, was Sie brauchen (um die Optimierung der Transformator zu verstehen) [Papierverbindung] 2024-03-13
Kwangjun Ahn; Xiang Cheng; Minhak -Lied; Chulhee Yun; Ali Jadbabaie; SUVRIT SRA
Kennzeichen der Optimierungs-Trajektorien in neuronalen Netzwerken und LLMs: Längen, Biegungen und Sackgassen [Papierverbindung] 2024-03-12
Sidak Pal Singh; Bobby er; Thomas Hofmann; Bernhard Schölkopf
Der heuristische Kern: Verständnis der Unternetze in vorbereiteten Sprachmodellen [Papierverbindung] 2024-03-06
Adithya Bhaskar; Dan Friedman; Danqi Chen
Trainingsdynamik der Multi-Head-Softmax-Aufmerksamkeit für das Lernen in Kontext: Entstehung, Konvergenz und Optimalität [Papierverbindung] 2024-02-29
Siyu Chen; Heejune Sheen; Tianhao Wang; Zhuoran Yang
Wie Transformatoren die kausale Struktur mit Gradientenabstieg lernen [Papierverbindung] 2024-02-22
Eshaan Nichani; Alex Damian; Jason D. Lee
Das Lora-Training im NTK-Regime hat keine falsche lokale Minima [Paper Link] 2024-02-19
Uijeong Jang; Jason D. Lee; Ernest K. Ryu
Zur Entstehung der Linearität der Kreuzung in dem Paradigma vor dem Vorab-Finetun [Papierverbindung] 2024-02-06
Zhanpeng Zhou; Zijun Chen; Yilan Chen; Bo Zhang; Junchi Yan
Transformatoren lernen durch allmähliche Rangerhöhung [Papierverbindung] 2023-12-10
Enric Boix-Adsera; Etai Littwin; Emmanuel Abbe; Samy Bengio; Joshua Susskind
Mechanistisch analysieren die Auswirkungen der Feinabstimmung auf prozedural definierte Aufgaben [Papierverbindung] 2023-11-21
Samyak Jain; Robert Kirk; Ekdeep Singh Lubana; Robert P. Dick; Hidenori Tanaka; Edward Grefenstette; Tim Rocktäschel; David Scott Krueger
Vorausgebildete Sprachmodell und Downstream-Aufgabe durch Repräsentationseigenschaften anschließen [Papierverbindung] 2023-11-02
Chenwei Wu; Holden Lee; Rong Ge
Scan und Snap: Verständnis der Trainingsdynamik und Token-Komposition in 1-Layer-Transformator [Papierverbindung] 2023-07-02
Yuandong Tian; Yiping wang; Beidi Chen; Simon du
Eine Kernel-basierte Ansicht des Sprachmodells Feinabstimmung [Papierverbindung] 2023-06-15
Sadhika Malladi; Alexander Wettig; Dingli yu; Danqi Chen; Sanjeev Arora
Eine Stabilitätsanalyse der Feinabstimmung eines vorgebildeten Modells [Paper Link] 2023-01-24
Zihao Fu; Anthony Man-cho so; Nigel Collier
^ back to top ^
Papiere, die die Lernkapazitäten und die Verallgemeinerungsleistung von Sprachmodellen analysieren, von schwach bis zur starken Verallgemeinerung.
Generalisierungs- und Risikogrenzen für wiederkehrende neuronale Netze [Papierverbindung] 2024-11-05
Xuewei Cheng; Ke Huang; Shujie Ma
Nachweisbare Länge Generalisierung in der Sequenzvorhersage durch spektrale Filterung [Papierverbindung] 2024-11-01
Annie Marsden; Evan Dogariu; Naman Agarwal; Xinyi Chen; Daniel Suo; Elad Hazan
RL-Star: Theoretische Analyse von Verstärkungslernrahmen für Autodidaktin [Papierverbindung] 2024-10-31
Fu-Chieh Chang; Yu-ting Lee; Hui-y-shih; Pei-yuan Wu
Mischung von Papageien: Experten verbessern das Auswendiglernen mehr als Argumentation [Papierverbindung] 2024-10-24
Samy Jelassi; Clara Mohri; David Brandfonbrener; Alex Gu; Nikhil Vyas; Nikhil Anand; David Alvarez-Melis; Yuanzhi li; Sham M. Kakade; Eran Malach
Wie sich numerische Präzision auf die Mathematik-Argumentationsfunktionen von LLMs auswirkt [Papierverbindung] 2024-10-17
Guhao Feng; Kai Yang; Yuntian Gu; Xinyue AI; Shengjie Luo; JiACHENG SUN; Di er; Zhenguo li; Liwei Wang
Auf rangabhängigen Verallgemeinerungsfehlergrenzen für Transformatoren [Papierverbindung] 2024-10-15
Lan V. Truong
Gutartige Überanpassung in Einkopf-Aufmerksamkeit [Papierverbindung] 2024-10-10
Roey Magen; Shang meiden; Zhiwei Xu; Spencer Frei; Wei Hu; Gal Vardi
Dynamik des Konzeptlernens und der Zusammensetzung der Generalisierung [Papierverbindung] 2024-10-10
Yongyi Yang; Kern Francisco Park; Ekdeep Singh Lubana; Maya Okawa; Wei Hu; Hidenori Tanaka
Gutartige Überanpassung für die Regression mit geschulten Zweischicht-Relu-Netzwerken [Papierverbindung] 2024-10-08
Junhyung Park; Patrick Bloebum; Shiva Prasad Kasiviswanathan
Nachweisbare Verallgemeinerung der schwachen bis starken Verallgemeinerung über gutartige Überanpassungen [Papierverbindung] 2024-10-06
David X. Wu; Anant Sahai
Ein formaler Rahmen für das Verständnis der Länge der Verallgemeinerung in Transformatoren [Papierverbindung] 2024-10-03
Xinting Huang; Andy Yang; Satwik Bhattamishra; Yash Sarrof; Andreas Krebs; Hattie Zhou; Preetum Nakkiran; Michael Hahn
Ausgebildete Transformator-Klassifizierer verallgemeinern und zeigen gutartige Überanpassungsbekämpfung [Papierverbindung] 2024-10-02
Spencer Frei; Gal Vardi
Denklinien in großsprachigen Modellen [Papierlink] 2024-10-02
Raphaël Sarfati; Toni JB Liu; Nicolas Boullé; Christopher J. Earls
Untersuchung der Auswirkungen der Modellkomplexität in Großsprachenmodellen [Papierverbindung] 2024-10-01
Jing Luo; Huiyuan Wang; Weiran Huang
Gutartige oder nicht-nicht-geringe Überanpassung in der Token-Auswahl des Aufmerksamkeitsmechanismus [Papierverbindung] 2024-09-26
Keitoro sakamoto; Issei Sato
Verständnis der Einfachheit der Einfachheit in Bezug auf Kompositionsabbörter durch Lerndynamik [Papierverbindung] 2024-09-15
Yi ren; Danica J. Sutherland
Unvergessliche Verallgemeinerung in Sprachmodellen [Papierverbindung] 2024-09-03
Eric Zhang; Lesem ausgewählt; Jacob Andreas
Die vielen Gesichter eines optimalen Lernens von schwachem bis zugänglichem [Papierlink] 2024-08-30
Mikael Møller Høgsgaard; Kasper Green Larsen; Markus Engelund Mathiasen
Physik der Sprachmodelle: Teil 2.2, wie man aus Fehlern zu Mathematikproblemen der Notfälle lernt [Papierverbindung] 2024-08-29
Tian ye; Zicheng Xu; Yuanzhi li; Zeyuan Allen-Zhu
Verallgemeinerung außerhalb der Verteilung durch Zusammensetzung: Eine Linse durch Induktionsköpfe in Transformatoren [Papierverbindung] 2024-08-18
Jiajun Lied; Zhuoyan Xu; Yiqiao Zhong
Zur Verallgemeinerung des Präferenzlernens mit DPO [Papierverbindung] 2024-08-06
Shawn im; Yixuan li
Induktiv oder deduktiv? Überdenken Sie die grundlegenden Argumentationsfähigkeiten von LLMs [Paper Link] 2024-07-31
Kewei Cheng; Jingfeng Yang; Haoming Jiang; Zhengyang Wang; Binxuan Huang; Ruirui li; Shiyang li; Zheng li; Yifan gao; Xian Li; Bing Yin; Yizhou Sonne