Daftar makalah ini berfokus pada analisis teoritis dan empiris model bahasa, khususnya model bahasa besar (LLM). Makalah dalam daftar ini menyelidiki perilaku belajar, kemampuan generalisasi, dan sifat-sifat lain dari model bahasa melalui analisis teoritis, analisis empiris, atau kombinasi keduanya.
Cakupan daftar ini:
Keterbatasan daftar ini:
Statistik daftar makalah ini:
Jika Anda mempunyai saran atau ingin berkontribusi, silakan membuka masalah atau permintaan tarik.
Untuk detail tentang cara berkontribusi, silakan lihat pedoman kontribusi.
Anda juga dapat membagikan pemikiran Anda dan berdiskusi dengan orang lain di Diskusi.
Catatan
Untuk versi yang tidak dikategorikan, silakan lihat di sini.
^ back to top ^
Kategori yang berfokus pada berbagai fenomena, properti, dan perilaku yang diamati dalam model bahasa besar (LLM) dan model berbasis transformator.
^ back to top ^
Makalah yang berfokus pada analisis teoritis dan empiris pembelajaran dalam konteks dalam model bahasa besar.
Pembelajaran Dalam Konteks yang Dapat Dibuktikan dengan Transformers: Studi Kasus tentang Regresi Linier [tautan makalah] 04-11-2024
Dake Bu; Wei Huang; Andi Han; Atsushi Nitanda; Taiji Suzuki; Qingfu Zhang; Hau-San Wong
Transformator terlatih secara efisien mempelajari fungsi target dimensi rendah dalam konteks [tautan kertas] 04-11-2024
Kazusato Oko; Lagu Yujin; Taiji Suzuki; Denny Wu
Menuju Pemahaman Pembelajaran Dalam Konteks vs. Pembelajaran Dalam Berat [tautan makalah] 30-10-2024
Bryan Chan; Xinyi Chen; András György; Dale Schuurmans
Tentang Peran Kedalaman dan Perulangan untuk Pembelajaran Dalam Konteks dengan Keberagaman Tugas [paper link] 29-10-2024
Khashayar Gatmiri; Nikunj Saunshi; Sashank J. Reddi; Stefanie Jegelka; Sanjiv Kumar
Mekanisme Pemrosesan Simbol untuk Pembelajaran Dalam Konteks di Jaringan Transformer [paper link] 23-10-2024
Paul dari Smolensky; Roland Fernandez; Zhenghao Herbert Zhou; Mattia Opper; Jianfeng Gao
Bisakah Transformers Dalam Konteks Mempelajari Perilaku Sistem Dinamis Linier? [tautan kertas] 21-10-2024
Usman Akram; Haris Vikalo
Hukum penskalaan Bayesian untuk pembelajaran dalam konteks [tautan makalah] 21-10-2024
Aryaman Arora; Dan Jurafsky; Christopher Potts; Nuh D.Goodman
Pembelajaran Dalam Konteks yang Dapat Dibuktikan untuk Campuran Regresi Linier menggunakan Transformator [paper link] 18-10-2024
Yanhao Jin; Krishnakumar Balasubramanian; Lifeng Lai
Pembelajaran dalam konteks dan pisau cukur Occam [tautan kertas] 17-10-2024
Eric Elmoznino; Tom Marty; Tejas Kasetty; Leo Gagnon; Sarthak Mittal; Mahan Fathi; Dhanya Sridhar; Guillaume Lajoie
Penskalaan Konteks versus Penskalaan Tugas dalam Pembelajaran Dalam Konteks [tautan makalah] 16-10-2024
Amirhesam Abedsoltan; Adityanarayanan Radhakrishnan; Jingfeng Wu; Mikhail Belkin
Melewati Ketergantungan Eksponensial: Transformator Looped Belajar Secara Efisien Dalam Konteks dengan Penurunan Gradien Multi-Langkah [tautan makalah] 15-10-2024
Bo Chen; Xiao Yuli; Yingyu Liang; Zhenmei Shi; Lagu Zhao
Bagaimana Transformers Menerapkan Kepala Induksi: Analisis Pendekatan dan Optimasi [tautan makalah] 15-10-2024
Mingze Wang; Ruo Xi Yu; Weinan E; Lei Wu
Tentang Pelatihan Konvergensi Transformer untuk Klasifikasi Dalam Konteks [tautan makalah] 15-10-2024
Wei Shen; Ruida Zhou; Jing Yang; Kong Shen
Transformer mempelajari rantai Markov orde variabel dalam konteks [tautan kertas] 07-10-2024
Ruida Zhou; Chao Tian; Suhas Diggavi
Meninjau Kembali Sirkuit Inferensi Pembelajaran Dalam Konteks dalam Model Bahasa Besar [tautan makalah] 06-10-2024
Hakaze Cho; Mariko Kato; Yoshihiro Sakai; Naoya Inoue
Pengklasifikasi Transformer Terlatih Menggeneralisasi dan Menunjukkan Overfitting yang Jinak Dalam Konteks [tautan makalah] 02-10-2024
Spencer Frei; Gal Vardi
Transformer Menangani Endogenitas dalam Regresi Linier Dalam Konteks [paper link] 2024-10-02
Haodong Liang; Krishnakumar Balasubramanian; Lifeng Lai
Mengungkap Kepala Induksi: Dinamika Pelatihan dan Pembelajaran Fitur yang Terbukti di Transformers [paper link] 10-09-2024
Siyu Chen; Heejune Kemilau; Tianhao Wang; Zhuoran Yang
Pembelajaran vs Pengambilan: Peran Contoh Dalam Konteks dalam Regresi dengan LLM [tautan makalah] 06-09-2024
Aliakbar Nafar; Kristen Brent Venable; Parisa Kordjamshidi
Transformer adalah Pembelajar Dalam Konteks Nonparametrik Optimal Minimax [tautan makalah] 22-08-2024
Juno Kim; Tai Nakamaki; Taiji Suzuki
Penghafalan Dalam Pembelajaran Dalam Konteks [tautan makalah] 21-08-2024
Shahriar Golchin; Mihai Surdeanu; Steven Bethard; Eduardo Blanco; Ellen Riloff
Pembelajaran Dalam Konteks dengan Representasi: Generalisasi Kontekstual dari Transformers Terlatih [tautan makalah] 19-08-2024
Tong Yang; Yu Huang; Yingbin Liang; Yuejie Chi
Atribusi Kumpulan Data Pelatihan Cepat melalui Pembelajaran Dalam Konteks [tautan makalah] 14-08-2024
Milad Fotouhi; Mohammad Taha Bahadori; Oluwaseyi Feyisetan; Pembayar Arabshahi; David Heckerman
Bagaimana Transformers Memanfaatkan Perhatian Multi-Kepala dalam Pembelajaran Dalam Konteks? Studi Kasus tentang Regresi Linier Jarang [tautan makalah] 08-08-2024
Xingwu Chen; Lei Zhao; Difan Zou
Transformers adalah Pembelajar Dalam Konteks Universal [tautan makalah] 02-08-2024
Takashi Furuya; Maarten V. de Hoop; Gabriel Peyré
Regresi Polinomial sebagai Tugas untuk Memahami Pembelajaran Dalam Konteks Melalui Penyempurnaan dan Penyelarasan [paper link] 27-07-2024
Max Wilcoxson; Morten Svendgård; Ria Doshi; Dylan Davis; Reya Vir; Anant Sahai
Mengungkap Pembelajaran Dalam Konteks: Sistem Koordinat untuk Memahami Mekanisme Kerjanya [paper link] 24-07-2024
Anhao Zhao; Fanghua Kamu; Jinlan Fu; Xiao Yushen
Transformator Satu Lapis Terbukti Mempelajari Tetangga Terdekat Dalam Konteks [tautan kertas] 24-07-2024
Zihao Li; Yuan Cao; Cheng Gao; Yihan Dia; Han Liu; Jason M.Klusowski; Penggemar Jianqing; Mengdi Wang
Kapan transformator dapat melakukan generalisasi komposisi dalam konteks? [tautan kertas] 17-07-2024
Seijin Kobayashi; Simon Schug; Yassir Akram; Florian Redhardt; Johannes von Oswald; Razvan Pascanu; Guillaume Lajoie; João Sacramento
Pembelajaran Dalam Konteks Dalam Konteks dengan Proses Neural Transformer [paper link] 19-06-2024
Matius Ashman; Cristiana Diaconu; Adrian Weller; Richard E. Turner
Menyelidiki Batasan Keputusan Pembelajaran Dalam Konteks dalam Model Bahasa Besar [paper link] 17-06-2024
Siyan Zhao; Tung Nguyen; Aditya Grover
Sup Negara: Pembelajaran Keterampilan Dalam Konteks, Pengambilan dan Pencampuran [tautan kertas] 12-06-2024
Maciej Pióro; Maciej Wołczyk; Razvan Pascanu; Johannes von Oswald; João Sacramento
Memperkirakan Tingkat Halusinasi AI Generatif [paper link] 11-06-2024
Andrew Jesseson; Nicolas Beltran-Velez; Quentin Chu; Sweta Karlekar; Jannik Kossen; Yarin Gal; John P.Cunningham; David Blei
BERT adalah Pembelajar Dalam Konteks Generatif [tautan makalah] 07-06-2024
David Samuel
Meningkatkan Kinerja Pembelajaran Dalam Konteks hanya dengan Pemangkasan Bobot Berbasis SVD: Perspektif Teoretis [tautan makalah] 06-06-2024
Xinhao Yao; Xiaolin Hu; Shenzhi Yang; Yong Liu
Apa yang Dipelajari Model Bahasa dalam Konteks? Hipotesis Tugas Terstruktur [tautan makalah] 06-06-2024
Jiaoda Li; Yifan Hou; Mrinmaya Sachan; Ryan Cotterell
Konversi Tepat Pembelajaran Dalam Konteks ke Model Bobot dalam Transformator Perhatian Linier [tautan makalah] 05-06-2024
Brian K Chen; Tianyanghu; Hui Jin; Hwee Kuan Lee; Kenji Kawaguchi
Belajar grok: Munculnya pembelajaran dalam konteks dan komposisi keterampilan dalam tugas aritmatika modular [tautan makalah] 04-06-2024
Tianyu Dia; Darshil Doshi; Aritra Das; Andrey Gromov
Mengapa Model Bahasa yang Lebih Besar Melakukan Pembelajaran Dalam Konteks Secara Berbeda? [tautan kertas] 30-05-2024
Zhenmei Shi; Junyi Wei; Zhuoyan Xu; Yingyu Liang
Apakah Pembelajaran Dalam Konteks Cukup untuk Mengikuti Instruksi di LLM? [tautan kertas] 30-05-2024
Hao Zhao; Maksim Andriushchenko; Francesco Croce; Nicolas Flammarion
Apakah mempelajari variabel laten yang tepat selalu meningkatkan pembelajaran dalam konteks? [tautan kertas] 29-05-2024
Sarthak Mittal; Eric Elmoznino; Leo Gagnon; Sangnie Bhardwaj; Dhanya Sridhar; Guillaume Lajoie
Teori Pembelajaran Dalam Konteks di Transformers [tautan makalah] 29-05-2024
Yifei Wang; Yuyang Wu; Zeming Wei; Stefanie Jegelka; Yi Sen Wang
Tentang Optimasi Mesa pada Transformers yang Dilatih Secara Autoregresif: Kemunculan dan Kemampuan [tautan makalah] 27-05-2024
Chenyu Zheng; Wei Huang; Rongzhen Wang; Guoqiang Wu; Juni Zhu; Chongxuanli
Pembelajaran Dalam Konteks Transformer untuk Data Kategorikal [tautan makalah] 27-05-2024
Aaron T. Wang; Ricardo Henao; Lawrence Carin
Adaptasi Domain Otomatis oleh Transformers dalam Pembelajaran Dalam Konteks [tautan makalah] 27-05-2024
Ryuichiro Hataya; Kota Matsui; Masaaki Imaizumi
Menyatukan Seleksi dan Kompresi Demonstrasi untuk Pembelajaran Dalam Konteks [tautan makalah] 27-05-2024
Juni Gao
Tentang Ketahanan Kebisingan Pembelajaran Dalam Konteks untuk Pembuatan Teks [tautan makalah] 27-05-2024
Hongfu Gao; Feipeng Zhang; Wenyu Jiang; Juni Shu; Feng Zheng; Hongxin Wei
MLP Belajar Dalam Konteks [tautan makalah] 24-05-2024
William L. Tong; Cengiz Pehlevan
Menuju Pemahaman yang Lebih Baik tentang Kemampuan Pembelajaran Dalam Konteks dari Kuantifikasi Ketidakpastian Dalam Konteks [paper link] 24-05-2024
Shang Liu; Zhongze Cai; Guanting Chen; Xiaocheng Li
Dapatkah Looped Transformers Belajar Menerapkan Penurunan Gradien Multi-langkah untuk Pembelajaran Dalam Konteks? [tautan kertas] 02-05-2024
Khashayar Gatmiri; Nikunj Saunshi; Sashank J. Reddi; Stefanie Jegelka; Sanjiv Kumar
Pembelajaran dalam Konteks pada Kelas Fungsi yang Diungkapkan untuk Transformers [tautan makalah] 02-05-2024
Zhijie Wang; Bo Jiang; Shuai Li
Pembelajaran Dalam Konteks dengan Model Konteks Panjang: Eksplorasi Mendalam [paper link] 30-04-2024
Amanda Bertsch; Maor Ivgi; Uri Alon; Jonathan Berant; Matthew R. Gormley; Graham Neubig
Apa yang perlu dilakukan dengan benar untuk kepala induksi? Sebuah studi mekanistik tentang sirkuit pembelajaran dalam konteks dan pembentukannya [tautan makalah] 10-04-2024
Aaditya K. Singh; Ted Moskovitz; Bukit Felix; Stephanie CY Chan; Andrew M.Saxe
Apakah perhatian diperlukan untuk ICL? Menjelajahi Hubungan Antara Arsitektur Model dan Kemampuan Pembelajaran Dalam Konteks [paper link] 01-04-2024
Ivan Lee; Nan Jiang; Taylor Berg-Kirkpatrick
Pelatihan Dinamika Perhatian Softmax Multi-Kepala untuk Pembelajaran Dalam Konteks: Kemunculan, Konvergensi, dan Optimalitas [tautan makalah] 29-02-2024
Siyu Chen; Heejune Kemilau; Tianhao Wang; Zhuoran Yang
Bagaimana Transformers Mempelajari Struktur Kausal dengan Penurunan Gradien [tautan kertas] 22-02-2024
Eshaan Nichani; Alex Damian; Jason D. Lee
Pembelajaran Dalam Konteks Blok Transformator Linier: Manfaat Komponen MLP dan Inisialisasi GD Satu Langkah [tautan makalah] 22-02-2024
Ruiqi Zhang; Jingfeng Wu; Peter L.Bartlett
Mengidentifikasi Kepala Induksi Semantik untuk Memahami Pembelajaran Dalam Konteks [paper link] 20-02-2024
Jie Ren; Qipeng Guo; Hang Yan; Dongrui Liu; XipengQiu; Dahua Lin
Bagaimana Transformers melakukan Pembelajaran Autoregresif Dalam Konteks? [tautan kertas] 08-02-2024
Michael E. Sander; Raja Giryes; Taiji Suzuki; Mathieu Pirang; Gabriel Peyré
Bisakah Mamba Belajar Cara Belajar? Studi Banding Tugas Pembelajaran Dalam Konteks [paper link] 06-02-2024
Taman Jongho; Taman Jaeseung; Zheyang Xiong; Nayoung Lee; Jaewoong Cho; Samet Oymak; Kangwook Lee; Dimitris Papailiopoulos
Analisis Teori-Informasi Pembelajaran Dalam Konteks [tautan makalah] 28-01-2024
Hong Jun Jeon; Jason D. Lee; Qi Lei; Benyamin Van Roy
Sifat Sementara Pembelajaran Dalam Konteks yang Muncul di Transformers [tautan makalah] 11-12-2023
Aaditya K. Singh; Stephanie CY Chan; Ted Moskovitz; Erin Hibah; Andrew M.Saxe; Bukit Felix
Fungsi Pembelajaran Dalam Konteks dengan Jumlah Minima yang Bervariasi [link makalah] 21-11-2023
David Oniani; Yanshan Wang
Menjelajahi Hubungan antara Pembelajaran Dalam Konteks dan Penyetelan Instruksi [paper link] 17-11-2023
Hanyu Duan; Yixuan Tang; Yi Yang; Ahmed Abbasi; Kar Yan Tam
Kapan Pembelajaran Dalam Konteks Gagal dan Mengapa? Studi tentang Tugas Berat Spesifikasi [tautan makalah] 15-11-2023
Hao Peng; Xiaozhi Wang; Jianhui Chen; Weikai Li; Yunjia Qi; Zimu Wang; Zhili Wu; Kaisheng Zeng; Bin Xu; Lei Hou; Juanzi Li
Pembelajaran Dalam Konteks Menggeneralisasi, Tapi Tidak Selalu Kuat: Kasus Sintaks [tautan makalah] 13-11-2023
Harun Mueller; Albert Webson; Jackson Kecil; Tal Linzen
Transformer belajar menerapkan penurunan gradien yang telah dikondisikan sebelumnya untuk pembelajaran dalam konteks [tautan makalah] 09-11-2023
Kwangjun Ahn; Xiang Cheng; Hadi Daneshmand; Suvrit Sra
Transformers Mempelajari Metode Optimasi Tingkat Tinggi untuk Pembelajaran Dalam Konteks: Studi dengan Model Linier [paper link] 26-10-2023
De Qing Fu; Tian-Qi Chen; Robin Jia; Vatsal Sharan
Pembelajaran Dalam Konteks Membuat Vektor Tugas [tautan makalah] 24-10-2023
Roee Hendel; Mor Geva; Amir Globerson
Vektor Fungsi dalam Model Bahasa Besar [tautan kertas] 23-10-2023
Eric Todd; Millicent L.Li; Arnab Sen Sharma; Harun Mueller; Byron C. Wallace; David Bau
Pembelajaran Dalam Konteks dengan Transformer Benar-Benar Setara dengan Pola Pembelajaran Kontrastif [paper link] 2023-10-19
Ruifeng Ren; Yong Liu
Transformers Terlatih Mempelajari Model Linier Dalam Konteks [tautan kertas] 2023-10-19
Ruiqi Zhang; Spencer Frei; Peter L.Bartlett
Bagaimana Transformers Belajar Dalam Konteks Melampaui Fungsi Sederhana? Studi Kasus tentang Pembelajaran dengan Representasi [paper link] 16-10-2023
Negara Tianhu; Wei Hu; Lagu Mei; Huan Wang; Caiming Xiong; Silvio Savarese; Yu Bai
Memahami Pembelajaran Dalam Konteks pada Transformer dan LLM dengan Belajar Mempelajari Fungsi Diskrit [paper link] 13-10-2023
Satwik Bhattamishra; Arkil Patel; Phil Blunsom; Varun Kanade
Berapa Banyak Tugas Pra-Pelatihan yang Dibutuhkan untuk Pembelajaran Regresi Linier Dalam Konteks? [tautan kertas] 13-10-2023
Jingfeng Wu; Difan Zou; Zixiang Chen; Vladimir Pemberani; Quanquan Gu; Peter Bartlett
Pembelajaran Dalam Konteks Mempelajari Hubungan Label tetapi Bukan Pembelajaran Konvensional [tautan makalah] 13-10-2023
Jannik Kossen; Yarin Gal; Tom Rainforth
Konvergensi Transformers dalam konteks [tautan makalah] 13-10-2023
Yu Huang; Yuan Cheng; Yingbin Liang
Pembelajaran Dalam Konteks melalui Prisma Bayesian [link makalah] 13-10-2023
Madhur Panwar; Kabir Ahuja; Navin Goyal
Apakah Transformers yang sudah dilatih sebelumnya Benar-benar Belajar dalam Konteks dengan Penurunan Gradien? [tautan kertas] 12-10-2023
Lingfeng Shen; Aayush Mishra; Daniel Khashabi
Apa dan Bagaimana Pembelajaran Dalam Konteks Belajar? Rata-rata, Parameterisasi, dan Generalisasi Model Bayesian [tautan makalah] 10-10-2023
Yufeng Zhang; Fengzhuo Zhang; Zhuoran Yang; Zhaoran Wang
Menjelaskan Emergent In-Context Learning sebagai Regresi Kernel [paper link] 05-10-2023
Chi Han; Ziqi Wang; Han Zhao; Heng Ji
CausalLM tidak optimal untuk pembelajaran dalam konteks [paper link] 02-09-2023
Nanding; Tomer Levinboim; Jialin Wu; Sebastian Goodman; Radu Soricut
Satu Langkah Penurunan Gradien Terbukti Pembelajar Dalam Konteks Optimal dengan Satu Lapisan Perhatian Diri Linier [tautan makalah] 07-07-2023
Arvind Mahankali; Tatsunori B. Hashimoto; Tengyu Ma
Transformers sebagai Ahli Statistik: Pembelajaran Dalam Konteks yang Dapat Dibuktikan dengan Pemilihan Algoritma Dalam Konteks [tautan makalah] 06-07-2023
Yu Bai; Penggemar Chen; Huan Wang; Caiming Xiong; Lagu Mei
Transformers Belajar Dalam Konteks dengan Gradient Descent [tautan kertas] 15-06-2023
Johannes Von Oswald; Eyvind Niklasson; Ettore Randazzo; Joao Sacramento; Alexander Mordvintsev; Andrey Zhmoginov; Max Vladymyrov
Kedekatan Pembelajaran Dalam Konteks dan Pergeseran Berat untuk Regresi Softmax [paper link] 26-04-2023
Shuai Li; Lagu Zhao; Yu Xia; Tong Yu; Tianyi Zhou
Teori Pembelajaran Muncul Dalam Konteks sebagai Induksi Struktur Implisit [tautan makalah] 14-03-2023
Michael Hahn; Navin Goyal
Kemampuan Pembelajaran dalam Pembelajaran Dalam Konteks [tautan makalah] 14-03-2023
Noam Wies; Yoav Levine; Amnon Shashua
Apa yang Dapat Dipelajari Transformers dalam Konteks? Studi Kasus Kelas Fungsi Sederhana [tautan makalah] 14-01-2023
Shivam Garg; Dimitris Tsipras; Percy Liang; Gregory Pemberani
Transformer menggeneralisasi secara berbeda dari informasi yang disimpan dalam konteks vs dalam bobot [tautan kertas] 13-10-2022
Stephanie CY Chan; Ishita Dasgupta; Junkyung Kim; Dharshan Kumaran; Andrew K. Lampinen; Bukit Felix
Kepala Pembelajaran dan Induksi Dalam Konteks [tautan makalah] 24-09-2022
Catherine Olsson; Nelson Elhage; Neel Nanda; Nicholas Joseph; Nova Das Sarma; Tom Henighan; Ben Mann; Amanda Askell; Yuntao Bai; Anna Chen; Tom Conerly; Tiriskan Fajar; Ganguli Dalam; Zac Hatfield-Dodds; Danny Hernandez; Scott Johnston; andi jones; Jackson Kernion; Liane Lovitt; Kamal Ndousse; Dario Amodei; Tom Brown; Jack Clark; Jared Kaplan; Sam McCandlish; Chris Olah
^ back to top ^
Makalah yang menganalisis fenomena rantai pemikiran dalam model bahasa besar, mengeksplorasi perspektif teoretis dan empiris.
Apa yang Terjadi di Lapisan LLM saat Dilatih untuk Berpikir Cepat vs. Lambat: Perspektif Gradien [tautan kertas] 31-10-2024
Ming Li; Yan Hong Li; Tianyi Zhou
Pemahaman Teoritis tentang Rantai Pemikiran: Penalaran yang Koheren dan Demonstrasi Sadar Kesalahan [tautan makalah] 21-10-2024
Yingqian Cui; Pengfei Dia; Xianfeng Tang; Qi Dia; Chen Luo; Jiliang Tang; Yue Xing
Dari Ketergantungan Jarang ke Perhatian Jarang: Mengungkap Bagaimana Rantai Pemikiran Meningkatkan Efisiensi Sampel Transformator [tautan kertas] 07-10-2024
Kaiyue Wen; Hua Qing Zhang; Hongzhou Lin; Jingzhao Zhang
Pelatihan Transformator Nonlinier untuk Inferensi Rantai Pemikiran: Analisis Generalisasi Teoretis [tautan makalah] 03-10-2024
Hongkang Li; Meng Wang; Songtao Lu; Xiaodong Cui; Pin-Yu Chen
Autoregresif + Rantai Pemikiran (CoT) ≃ Berulang: Peran Perulangan dalam Model Bahasa dan Peninjauan Kembali Transformator Berulang [tautan makalah] 14-09-2024
Xiang Zhang; Muhammad Abdul-Mageed; Laks VS Lakshmanan
Mengungkap Landasan Statistik Metode Dorongan Rantai Pemikiran [paper link] 25-08-2024
Xinyang Hu; Fengzhuo Zhang; Siyu Chen; Zhuoran Yang
Menguraikan Faktor-Faktor yang Mempengaruhi Kemanjuran Rantai Pemikiran: Probabilitas, Penghafalan, dan Penalaran yang Berisik [tautan makalah] 01-07-2024
Akshara Prabhakar; Thomas L.Griffiths; R.Thomas McCoy
Tentang Kapasitas Representasi Model Bahasa Neural dengan Penalaran Rantai Pemikiran [tautan makalah] 20-06-2024
Franz Nowak; Anej Svete; Alexandra Butoi; Ryan Cotterell
Kepala Iterasi: Studi Mekanistik Rantai Pemikiran [tautan makalah] 04-06-2024
Vivien Cabannes; Charles Arnal; Wassim Bouaziz; Alice Yang; François Charton; Julia Kempe
Mari Berpikir Titik demi Titik: Komputasi Tersembunyi dalam Model Bahasa Transformer [tautan kertas] 24-04-2024
Yakub Pfau; William Merrill; Samuel R. Bowman
Rantai Pemikiran Memberdayakan Transformers untuk Memecahkan Masalah Serius yang Inheren [paper link] 20-02-2024
Zhiyuan Li; Hongliu; Denny Zhou; Tengyu Ma
Menuju Mengungkap Misteri dibalik Rantai Pemikiran: Perspektif Teoretis [paper link] 22-12-2023
Guhao Feng; Bohang Zhang; Yuntian Gu; Haotian Kamu; Di Dia; Liwei Wang
Mengapa Model Bahasa Besar Dapat Menghasilkan Rantai Pemikiran yang Benar? [tautan kertas] 20-10-2023
Rasul Tutunov; Antoine Grosnit; Juliusz Ziomek; Juni Wang; Haitham Bou-Ammar
Bagaimana Model Bahasa Besar Menerapkan Rantai Pemikiran? [tautan kertas] 13-10-2023
Yiqun Wang; Sile Hu; Yonggang Zhang; Xiang Tian; Xuesong Liu; Yaowu Chen; Xu Shen; Jieping Kamu
Kekuatan Ekspresif Transformers dengan Rantai Pemikiran [tautan makalah] 13-10-2023
William Merrill; Ashish Sabharwal
^ back to top ^
Makalah yang mengkaji fenomena halusinasi dalam model bahasa, termasuk analisis teoritis dan empiris.
Tidak Ada Makan Siang Gratis: Batasan Mendasar Pembelajaran Model Generatif Non-Halusinasi [tautan makalah] 24-10-2024
Changlong Wu; Ananth Grama; Wojciech Szpankowski
Imajinasi Bersama: LLM Berhalusinasi Sama [tautan kertas] 23-07-2024
Yilun Zhou; Caiming Xiong; Silvio Savarese; Chien-Sheng Wu
Memperkirakan Tingkat Halusinasi AI Generatif [paper link] 11-06-2024
Andrew Jesseson; Nicolas Beltran-Velez; Quentin Chu; Sweta Karlekar; Jannik Kossen; Yarin Gal; John P.Cunningham; David Blei
Apakah Menyempurnakan LLM pada Pengetahuan Baru Mendorong Halusinasi? [tautan kertas] 09-05-2024
Zorik Gekhman; Gal Yona; Roee Aharoni; Matan Eyal; Amir Feder; Roi Reichart; Jonathan Herzig
Mekanisme halusinasi non-faktual dalam model bahasa [paper link] 26-03-2024
Lei Yu; Meng Cao; Jackie Chi Kit Cheung; Yuedong
Contoh Penyempurnaan yang Tidak Dikenal Mengontrol Cara Model Bahasa Berhalusinasi [tautan makalah] 08-03-2024
Katie Kang; Eric Wallace; Claire Tomlin; Aviral Kumar; Sergei Levine
Ketajaman Dalam Konteks sebagai Peringatan: Perspektif Representasi Batin untuk Mitigasi Halusinasi [tautan makalah] 05-03-2024
Shiqi Chen; Miao Xiong; Junteng Liu; Zhengxuan Wu; Teng Xiao; Siyang Gao; Junxian Dia
Model Bahasa yang Dikalibrasi Harus Berhalusinasi [tautan makalah] 24-11-2023
Adam Tauman Kalai; Santosh S.Vempala
Kasus Aneh tentang Halusinasi yang Tidak Dapat Dijawab: Menemukan Kebenaran dalam Keadaan Tersembunyi dari Model Bahasa Besar yang Terlalu Percaya Diri [tautan makalah] 18-10-2023
Aviv Slobodkin; Omer Goldman; Avi Caciularu; Ido Dagan; Shauli Ravfogel
^ back to top ^
Makalah yang menganalisis fenomena pembalikan kutukan dalam model bahasa besar.
Menuju Pemahaman Teoritis tentang 'Pembalikan Kutukan' melalui Dinamika Pelatihan [paper link] 07-05-2024
Hanlin Zhu; Baihe Huang; Shaolun Zhang; Michael Jordan; Jiantao Jiao; Yuandong Tian; Stuart Russel
Kutukan Pembalikan: LLM yang dilatih tentang "A adalah B" gagal mempelajari "B adalah A" [tautan makalah] 04-04-2024
Lukas Berglund; Meg Tong; Max Kaufmann; Mikita Balesni; Asa Cooper Stickland; Tomasz Korbak; Owain Evans
Investigasi Ketidakefektifan LLM dalam Memahami Hubungan Kebalikan [tautan makalah] 01-12-2023
Chengwenqi; Bowen Li; Binyuan Hui; Bai Lin Wang; Jin Yang Li; Jinwang Wu; Yuanjun Laili
Fisika Model Bahasa: Bagian 3.2, Manipulasi Pengetahuan [tautan makalah] 25-09-2023
Zeyuan Allen-Zhu; Yuanzhi Li
Kutukan Pembalikan: Token Mana yang Anda Prediksi yang Mendasari Kutukan Faktorisasi dan Lainnya [paper link] 07-06-2023
Ouail Kitouni; Niklas Nolte; Diane Bouchacourt; Adinda Williams; Mike Rabbat; Markus Ibrahim
^ back to top ^
Makalah yang mengeksplorasi bagaimana performa model berskala dengan ukuran model, ukuran data, atau sumber daya komputasi, dan munculnya kemampuan tak terduga.
Membuka Teori di Balik Penskalaan Jaringan Neural 1-Bit [paper link] 03-11-2024
Majid Daliri; Lagu Zhao; Chiwun Yang
Bagaimana Skala Ukuran Batch Kritis dalam Pra-pelatihan? [tautan kertas] 29-10-2024
Hanlin Zhang; Depen Morwani; Nikhil Vyas; Jingfeng Wu; Difan Zou; Udaya Ghai; Dekan Foster; Syam Kakade
Teori Informasi Penskalaan, Kemunculan, dan Dataran Tinggi Ukuran Optimal Komputasi dalam Model Bahasa [tautan makalah] 15-10-2024
Anuj K. Nayak; Lav R. Varshney
Panduan Penumpang untuk Menskalakan Estimasi Hukum [tautan makalah] 15-10-2024
Leshem Choshen; Yang Zhang; Yakub Andreas
Hukum Penskalaan di Seluruh Arsitektur Model: Analisis Komparatif Model Padat dan MoE dalam Model Bahasa Besar [tautan makalah] 08-10-2024
Siqi Wang; Zhengyu Chen; Bei Li; Keqing Dia; Min Zhang; Jingang Wang
Grokking di Tepi Keterpisahan Linier [tautan kertas] 06-10-2024
Alon Beck; Noam Levi; Yohai Bar-Sinai
Kajian Empiris tentang Hukum Penskalaan untuk Transfer [tautan makalah] 30-08-2024
Matthew Barnett
Model Kemunculan Perkolasi: Menganalisis Transformator yang Dilatih dalam Bahasa Formal [tautan makalah] 22-08-2024
Ekdeep Singh Lubana; Kyogo Kawaguchi; Robert P.Dick; Hidenori Tanaka
Hukum Penskalaan dengan Learning Rate Annealing [tautan makalah] 20-08-2024
Jaringan Howe; Venus Wang; Lu Wang
Hukum Kinerja Model Bahasa Besar [tautan makalah] 19-08-2024
Chuhan Wu; Merusak Tang
Ukuran Kemajuan Teori-Informasi mengungkapkan bahwa Grokking adalah Transisi Fase yang Muncul [tautan makalah] 16-08-2024
Kenzo Clauw; Sebastiano Stramaglia; Daniele Marinazzo
Monyet Bahasa Besar: Penskalaan Komputasi Inferensi dengan Pengambilan Sampel Berulang [tautan kertas] 31-07-2024
Bradley Coklat; Jordan Juravsky; Ryan Ehrlich; Ronald Clark; Quoc V. Le; Christopher Re; Azalia Mirhoseini
Kemunculan model non-neural: grokking aritmatika modular melalui hasil kali luar gradien rata-rata [tautan kertas] 29-07-2024
Neil Mallinar; Daniel Beaglehole; Libin Zhu; Adityanarayanan Radhakrishnan; Parthe Pandit; Mikhail Belkin
Menjelajahi Tren Penskalaan dalam Kekokohan LLM [tautan kertas] 25-07-2024
Nikolaus Howe; Michał Zajac; Ian McKenzie; Oscar Hollinsworth; Tom Tseng; Pierre-Luc Bacon; Adam Gleave
Memahami Interaksi Skala, Data, dan Bias dalam Model Bahasa: Studi Kasus dengan BERT [tautan makalah] 25-07-2024
Muhammad Ali; Swetasudha Panda; Qinlan Shen; Michael Wick; Ari Kobren
Hukum Penskalaan dengan Kosakata: Model yang Lebih Besar Layak Mendapatkan Kosakata yang Lebih Besar [tautan kertas] 18-07-2024
Chaofan Tao; Qian Liu; Longxu Dou; Niklas Muennighoff; Zhongweiwan; Ping Luo; Min Lin; Ngai Wong
Mengapa Anda Mengerikan? Analisis Teoritis Penambahan Modular Grokking [tautan makalah] 17-07-2024
Mohamad Amin Mohamadi; Zhiyuan Li; Lei Wu; Danica J.Sutherland
Memprediksi Kemampuan yang Muncul dengan Menyempurnakan [paper link] 10-07-2024
Charlie Victor Snell; Eric Wallace; Dan Klein; Sergei Levine
Menyelesaikan Perbedaan dalam Penskalaan Komputasi-Optimal Model Bahasa [tautan makalah] 25-06-2024
Tomer Porian; Mitchell Wortsman; Jenia Jitsev; Ludwig Schmidt; Yair Carmon
Hukum Penskalaan untuk Model Bahasa Kompleksitas Linier [tautan makalah] 24-06-2024
Xuyang Shen; Dongli; Ruitao Leng; Zhen Qin; Weigao Matahari; Yiran Zhong
Hukum Penskalaan untuk Penghafalan Fakta Model Bahasa Besar [tautan makalah] 22-06-2024
Xingyu Lu; Xiaonan Li; Qinyuan Cheng; Kai Ding; Xuan Jing Huang; XipengQiu
Merekonsiliasi Hukum Penskalaan Kaplan dan Chinchilla [tautan makalah] 12-06-2024
Tim Pearce; Lagu Jinyeop
Deep Grokking: Akankah Deep Neural Networks Menggeneralisasi Lebih Baik? [tautan kertas] 29-05-2024
Penggemar Simin; Razvan Pascanu; Martin Jaggi
Keruntuhan Linguistik: Keruntuhan Neural dalam Model Bahasa (Besar) [tautan makalah] 28-05-2024
Robert Wu; Vardan Papyan
Hukum Penskalaan dan Pelatihan Optimal Komputasi Melampaui Durasi Pelatihan Tetap [tautan makalah] 28-05-2024
Alexander Hägele; Elie Bakouch; Atli Kosson; Loubna Ben Allal; Leandro Von Werra; Martin Jaggi
gzip Memprediksi Hukum Penskalaan yang Bergantung pada Data [tautan makalah] 26-05-2024
Rohan Pandey
Munculnya Fase Abstraksi Dimensi Tinggi dalam Transformator Bahasa [tautan makalah] 24-05-2024
Emily Cheng; Diego Doimo; Corentin Kervadec; Iuri Makoko; Giok Yu; Alessandro Laio; Marco Baroni
Alasan dari perspektif frekuensi untuk grokking dalam pelatihan jaringan saraf [tautan makalah] 24-05-2024
Zhangchen Zhou; Yaoyu Zhang; Zhi-Qin John Xu
Transformers Grokked adalah Penalaran Implisit: Perjalanan Mekanistik Menuju Tepi Generalisasi [tautan makalah] 23-05-2024
Boshi Wang; Xiang Yue; Yusu; Huan Matahari
Pencampuran Data Menjadi Efisien: Hukum Penskalaan Bivariat untuk Pra-pelatihan Model Bahasa [tautan makalah] 23-05-2024
Ce Ge; Zhijian Ma; Daoyuan Chen; Yaliang Li; Bolinding
4+3 Fase Hukum Penskalaan Neural Komputasi-Optimal [tautan makalah] 23-05-2024
Elliot Paquette; Courtney Paquette; Lechao Xiao; Jeffrey Pennington
Budak Hukum Bilangan Besar: Sifat Ekipartisi Asimtotik untuk Kebingungan dalam Model Bahasa Generatif [tautan makalah] 22-05-2024
Raghu Mudumbai; Tyler Bell
Mengukur Kemunculan dalam Model Bahasa Besar [tautan makalah] 21-05-2024
Hang Chen; Xinyu Yang; Jiaying Zhu; Wenya Wang
Melampaui Hukum Penskalaan: Memahami Kinerja Transformator dengan Memori Asosiatif [tautan makalah] 14-05-2024
Xueyanniu; Bo Bai; Lei Deng; Wei Han
Lebih Banyak Komputasi Yang Anda Butuhkan [tautan kertas] 30-04-2024
Zhen Guo
Model undang-undang kemunculan dan penskalaan yang benar-benar dapat dipecahkan [tautan kertas] 26-04-2024
Yoonsoo Nam; Nayara Fonseca; Seok Hyeong Lee; Ard Louis
Mengapa model bahasa kecil berperforma buruk? Mempelajari Saturasi Model Bahasa melalui Softmax Bottleneck [tautan kertas] 11-04-2024
Nathan Godey; Eric de la Clergerie; Benoît Sagot
Eksplorasi Skala Besar
Lucas Lingle
Kemampuan Muncul dalam Model Bahasa Generatif Berskala Dikurangi [tautan makalah] 02-04-2024
Sherin Mucatira; Vijeta Deshpande; Vladislav Lialin; Anna Rumshisky
Memahami Kemampuan Muncul Model Bahasa dari Perspektif Kerugian [tautan makalah] 23-03-2024
Zhengxiao Du; Aohan Zeng; Yuxiao Dong; Jie Tang
Mengungkap Misteri Hukum Penskalaan: Bagian I [tautan makalah] 21-03-2024
Hui Su; Zhi Tian; Xiao Yushen; Xunliang Cai
Model bahasa dapat diskalakan secara andal dengan pelatihan berlebih dan tugas hilir [tautan makalah] 13-03-2024
Samir Yitzhak Gadre; Georgios Smyrnis; Vaishaal Shankar; Suchin Gururangan; Mitchell Wortsman; Penguasa Shao; Jean Mercat; Alex Fang; Jeffrey Li; Sedrick Keh; Rui Xin; Marianna Nezhurina; Igor Vasiljevic; Jenia Jitsev; Alexandros G.Dimakis; Gabriel Ilharco; Lagu Shuran; Thomas Kollar; Yair Carmon; Achal Dave; Reinhard Heckel; Niklas Muennighoff; Ludwig Schmidt
Ketika Penskalaan Bertemu Penyempurnaan LLM: Pengaruh Data, Model, dan Metode Penyempurnaan [tautan makalah] 26-02-2024
Biao Zhang; Zhongtao Liu; Colin Ceri; Orhan Firat
Menafsirkan Transformator Grokked dalam Aritmatika Modular Kompleks [tautan makalah] 26-02-2024
Hiroki Furuta; Gouki Minegishi; Yusuke Iwasawa; Yutaka Matsuo
A Tale of Tails: Model Runtuh sebagai Perubahan Hukum Penskalaan [paper link] 10-02-2024
Elvis Dohmatob; Yunzhen Feng; Pu Yang; François Charton; Julia Kempe
Menskalakan Model Bahasa dengan Batasan Data [tautan makalah] 25-10-2023
Niklas Muennighoff; Alexander M.Rush; Boas Barak; Teven Le Scao; Aleksandra Piktus; Nouamane Tazi; Sampo Pyysalo; Thomas Serigala; Colin Raffel
Biaya Penurunan Skala Model Bahasa: Pengingat Fakta Memburuk sebelum Pembelajaran Dalam Konteks [tautan makalah] 06-10-2023
Tianjin; Nolan Clement; Xindong; Vaishnavh Nagarajan; Michael Karbin; Jonathan Ragan-Kelley; Gintare Karolina Dziugaite
Apakah Kemampuan yang Muncul dari Model Bahasa Besar hanyalah Fatamorgana? [tautan kertas] 28-04-2023
Rylan Schaeffer; Brando Miranda; Sanmi Koyejo
Pelatihan Model Bahasa Besar Komputasi-Optimal [tautan makalah] 29-03-2022
Jordan Hoffmann; Sebastian Borgeaud; Arthur Mensch; Elena Buchatskaya; Trevor Cai; Eliza Rutherford; Diego de Las Casas; Lisa Anne Hendricks; Johannes Welbl; Aidan Clark; Tom Hennigan; Eric Noland; Katie Millican; George van den Driessche; Bogdan Damoc; Pria Aurelia; Simon Osindero; Karen Simonyan; Erich Elsen; Jack W.Rae; Vinil Oriol; Laurent Sifre
Hukum Penskalaan untuk Model Bahasa Neural [tautan makalah] 22-01-2020
Jared Kaplan; Sam McCandlish; Tom Henighan; Tom B.Brown; Catur Benyamin; Anak Rewon; Scott Gray; Alec Radford; Jeffrey Wu; Dario Amodei
^ back to top ^
Makalah yang berfokus pada bagaimana model bahasa besar menyimpan, mengambil, dan memanfaatkan pengetahuan, menganalisis mekanisme memori yang terlibat.
Kerangka Geometris untuk Memahami Hafalan dalam Model Generatif [tautan makalah] 31-10-2024
Brendan Leigh Ross; Hamidreza Kamkari; Tongzi Wu; Rasa Hosseinzadeh; Zhaoyan Liu; George Stein; Jesse C. Cresswell; Gabriel Loaiza-Ganem
Kapasitas Hafalan Optimal Transformer [tautan kertas] 26-09-2024
Tokio Kajitsuka; Issei Sato
Memori Schrodingers: Model Bahasa Besar [tautan kertas] 16-09-2024
Wei Wang; Qingli
Batas Perhatian Diri Kapasitas Memori Kerja Model Berbasis Transformator [tautan kertas] 16-09-2024
Dongyu Gong; Hantao Zhang
Memori Hebat, Penalaran Dangkal: Batasan kNN-LM [tautan makalah] 21-08-2024
Shangyi Geng; Pergi Zhao; Alexander M terburu-buru
Hafalan Dalam Pembelajaran Dalam Konteks [paper link] 21-08-2024
Shahriar Golchin; Mihai Surdeanu; Steven Bethard; Eduardo Blanco; Ellen Riloff
Generalisasi pertama, menghafal kedua? Lokalisasi Penghafalan untuk Tugas Klasifikasi Bahasa Alami [Tautan Kertas] 2024-08-09
Verna Dankers; Ivan Titov
Memahami Penghafalan dalam LLMS: Dinamika, Faktor yang Mempengaruhi, dan Implikasi [Tautan Kertas] 2024-07-27
Sampai Speicher; Mohammad Aflah Khan; Qinyuan Wu; Vedant Nanda; Soumi Das; Bishwamittra Ghosh; Krishna P. Gummadi; Evimaria terzi
Demystifying verbatim menghafal dalam model bahasa besar [tautan kertas] 2024-07-25
Jing Huang; Diyi Yang; Christopher Potts
Dari konflik internal hingga adaptasi kontekstual model bahasa [tautan kertas] 2024-07-24
Sara Vera Marjanović; Haeun yu; Pepa Atanasova; Maria Maistro; Christina Lioma; Isabelle Augenstein
Generalisasi vs menghafal: melacak kemampuan model bahasa kembali ke data pretraining [tautan kertas] 2024-07-20
Antonis Antoniades; Xinyi Wang; Yanai Elazar; Alfonso Amayuelas; Alon Albalak; Kexun Zhang; William Yang Wang
Fisika Model Bahasa: Bagian 3.1, Penyimpanan Pengetahuan dan Ekstraksi [Tautan Kertas] 2024-07-16
Zeyuan Allen-Zhu; Yuanzhi li
Kepala induksi sebagai mekanisme penting untuk pencocokan pola dalam pembelajaran dalam konteks [tautan kertas] 2024-07-09
J. Crosbie; E. Shutova
Apakah LLMS memimpikan gajah (ketika diberitahu untuk tidak)? Asosiasi Konsep Laten dan Memori Asosiatif dalam Transformers [Tautan Kertas] 2024-06-26
Yibo Jiang; Goutham Rajendran; Pradeep Ravikumar; Bryon Aragam
Hukum penskalaan untuk menghafal fakta model bahasa besar [tautan kertas] 2024-06-22
Xingyu Lu; Xiaonan Li; Qinyuan Cheng; Kai Ding; Xuanjing Huang; XIPENG QIU
Menghubungkan titik-titik: LLMS dapat menyimpulkan dan mengungkapkan struktur laten dari data pelatihan yang berbeda [tautan kertas] 2024-06-20
Johannes Treutlein; Dami Choi; Jan Betley; Cem anil; Samuel Marks; Roger Baker Grosse; Owain Evans
Mengungkap Kenangan Laten: Menilai Pola Kebocoran dan Hafalan Data dalam Model Bahasa Besar [Tautan Kertas] 2024-06-20
Duan yang cerah; Mikail Khona; Abhiram Iyer; Rylan Schaeffer; Ila r fiete
Memahami Finetuning untuk Ekstraksi Pengetahuan Faktual [Tautan Kertas] 2024-06-20
Gaurav Ghosal; Tatsunori Hashimoto; Aditi Raghunathan
Memperkirakan pengetahuan dalam model bahasa besar tanpa menghasilkan satu token [tautan kertas] 2024-06-18
Daniela Gottesman; Mor geva
Bagaimana model bahasa besar memperoleh pengetahuan faktual selama pretraining? [Tautan Kertas] 2024-06-17
Hoyeon Chang; Jinho Park; Seonghyeon Ye; Sohee Yang; Youngkyung SEO; Du-seong chang; Pijin seo
Jadilah ikan mas, jangan hafal! Mitigasi menghafal dalam llms generatif [tautan kertas] 2024-06-14
Abhimanyu Hans; Yuxin wen; Neel Jain; John Kirchenbauer; Hamid Kazemi; Prajwal Singhania; Siddharth Singh; Gowthami Somepalli; Jonas Geiping; Abhinav Bhatele; Tom Goldstein
Sirkuit Pengetahuan di Pretrained Transformers [Paper Link] 2024-05-28
Yunzhi Yao; Ningyu Zhang; Zekun XI; Mengru Wang; Ziwen Xu; Shumin Deng; Huajun Chen
Batas kapasitas memori atas dan bawah transformator untuk prediksi berikutnya [tautan kertas] 2024-05-22
Liam Madden; Curtis Fox; Christos Thrampoulidis
Analisis multi-perspektif menghafal dalam model bahasa besar [tautan kertas] 2024-05-19
Bowen Chen; Namgi Han; Yusuke Miyao
Fisika Model Bahasa: Bagian 3.3, Hukum Penskalaan Kapasitas Pengetahuan [Tautan Kertas] 2024-04-08
Zeyuan Allen-Zhu; Yuanzhi li
Kapasitas Hafalan dari Perhatian Multi-Head di Transformers [Link Kertas] 2024-03-02
Sadegh Mahdavi; Renjie Liao; Christos Thrampoulidis
Kelahiran transformator: sudut pandang memori [tautan kertas] 2023-11-06
Alberto Bietti; Vivien Cabannes; Diane Bouchacourt; Heve Jegou; Leon Bottou
Fisika Model Bahasa: Bagian 3.2, Manipulasi Pengetahuan [Tautan Kertas] 2023-09-25
Zeyuan Allen-Zhu; Yuanzhi li
Bisakah menghafal jaringan saraf dilokalisasi? [Tautan kertas] 2023-07-18
Pratyush Maini; Michael C. Mozer; Hanie Sedghi; Zachary C. Lipton; J. Zico Kolter; Chiyuan Zhang
Mengukur menghafal di seluruh model bahasa saraf [tautan kertas] 2022-02-15
Nicholas carlini; Daphne Ippolito; Matthew Jagielski; Katherine Lee; Tramer Florian; Chiyuan Zhang
^ back to top ^
Makalah yang membahas berbagai aspek proses pelatihan, termasuk optimasi, penyempurnaan, dan lanskap pelatihan model bahasa besar.
Konvergensi Global dalam Pelatihan Transformator Skala Besar [Tautan Kertas] 2024-10-31
Cheng Gao; Yuan Cao; Zihao Li; Yihan dia; Mengdi Wang; Han Liu; Jason Matthew Klusowski; Penggemar Jianqing
Apa yang terjadi di lapisan LLMS saat dilatih untuk pemikiran cepat vs lambat: perspektif gradien [tautan kertas] 2024-10-31
Ming li; Yanhong Li; Tianyi Zhou
Belajar dan mentransfer bigram kontekstual yang jarang dengan transformator linier [tautan kertas] 2024-10-30
Yunwei Ren; Zixuan Wang; Jason D. Lee
Pembelajaran tiba-tiba di Transformers: Studi Kasus tentang Penyelesaian Matriks [Tautan Kertas] 2024-10-29
Pulkit Gopalani; Ekdeep Singh Lubana; Wei Hu
Lora vs fine-tuning penuh: ilusi kesetaraan [tautan kertas] 2024-10-28
Reece Shuttleworth; Jacob Andreas; Antonio Torralba; Pratyusha Sharma
Bias kesederhanaan distribusi dalam dinamika pembelajaran Transformers [kertas tautan] 2024-10-25
Riccardo Rende; Federica Gerace; Alessandro Laio; Sebastian Goldt
Kepala Perhatian Aktif-Aktif: Fenomena Ekstrim yang Demi Mekanis di LLMS [Tautan Kertas] 2024-10-17
Tianyu Guo; Druv Pai; Yu Bai; Jiantao Jiao; Michael I. Jordan; Song Mei
Bagaimana Transformers Menerapkan Kepala Induksi: Analisis Perkiraan dan Optimasi [Tautan Kertas] 2024-10-15
Mingze Wang; Ruoxi Yu; Weinan E; Lei Wu
Apa artinya menjadi transformator? Wawasan dari analisis Hessian teoretis [tautan kertas] 2024-10-14
Weronika Ormaniec; Felix Dangel; Sidak Pal Singh
Adaptasi Odyssey di LLMS: Mengapa pretraining tambahan terkadang gagal meningkat? [Tautan kertas] 2024-10-08
Fırat Öncel; Matthias Bethge; Beyza Ermis; Mirco Ravanelli; CEM Subakan; Çağatay yıldız
Pada optimasi dan generalisasi transformator dua lapis dengan penurunan gradien tanda [tautan kertas] 2024-10-07
Bingrui Li; Wei Huang; Andi Han; Zhanpeng Zhou; Taiji Suzuki; Jun Zhu; Jianfei Chen
Memahami Tingkat Pembelajaran Pemanasan-Stabil: Perspektif Lansekap Kehilangan Lembah Sungai [Tautan Kertas] 2024-10-07
Kaiyue Wen; Zhiyuan Li; Jason Wang; David Hall; Percy Liang; Tengyu Ma
Pelatihan Transformator Nonlinier untuk Kesimpulan Rantai-Pencarian: Analisis Generalisasi Teoritis [Tautan Kertas] 2024-10-03
Hongkang Li; Meng Wang; Songtao Lu; Xiaodong Cui; Pin-yu chen
Wawasan Teoritis tentang Mekanisme Perhatian Menyetel: Generalisasi dan Optimalisasi [Tautan Kertas] 2024-10-03
Xinhao Yao; Hongjin Qian; Xiaolin Hu; Gengze Xu; Yong Liu
Klasifikasi transformator terlatih menggeneralisasi dan menunjukkan overfitting jinak dalam konteks [tautan kertas] 2024-10-02
Spencer Frei; Gal Vardi
Menuju pemahaman teoritis tentang data sintetis di LLM pasca-pelatihan: Perspektif Reverse-Bottleneck [tautan kertas] 2024-10-02
Zeyu Gan; Yong Liu
Menyelidiki dampak kompleksitas model dalam model bahasa besar [tautan kertas] 2024-10-01
Jing Luo; Huiyuan Wang; Weiran Huang
BENIGH ATAU TIDAK MENGUBAH OVERSI DALAM PEMILIHAN TOKEN Mekanisme Perhatian [Tautan Kertas] 2024-09-26
Keitaro Sakamoto; Issei Sato
Konvergensi non-asymptotic dari transformator pelatihan untuk prediksi berikutnya [tautan kertas] 2024-09-25
Ruiquan Huang; Yingbin Liang; Jing Yang
Hukum Hyper-Parameter Optimasi untuk Model Bahasa Besar [Tautan Kertas] 2024-09-07
Xingyu Xie; Kuangyu Ding; Shuicheng Yan; Kim-Chuan Toh; Tianwen Wei
The Ademamix Optimizer: Lebih baik, lebih cepat, lebih tua [tautan kertas] 2024-09-05
Matteo Pagliardini; Pierre Ablin; David Grangier
Clustering and Alignment: Memahami dinamika pelatihan dalam penambahan modular [tautan kertas] 2024-08-18
Tiberiu Musat
Konvergensi Global dalam Pelatihan Transformator Skala Besar [Tautan Kertas] 2024-08
Cheng Gao; Yuan Cao; Zihao Li; Yihan dia; Mengdi Wang; Han Liu; Jason M. Klusowski; Penggemar Jianqing
Pada konvergensi transformator dangkal khusus enkoder [tautan kertas] 2024-08
Yongtao Wu; Fanghui Liu; Grigorios G Chrysos; Volkan Cevher
Parameter-efisien fine-tuning untuk pembelajaran berkelanjutan: perspektif kernel singgung saraf [tautan kertas] 2024-07-24
Jingren Liu; Zhong Ji; Yunlong Yu; Jiale Cao; Yanwei Pang; Jungong Han; Xuelong Li
Dinamika Pembelajaran LLM Finetuning [Kertas Link] 2024-07-15
Yi ren; Danica J. Sutherland
Mendekonstruksi apa yang membuat pengoptimal yang baik untuk model bahasa [tautan kertas] 2024-07-10
Rosie Zhao; Bergantung pada Morwani; David Brandfonbrener; Nikhil Vyas; Sham Kakade
Generalisasi zero-shot selama penyetelan instruksi: wawasan dari kesamaan dan granularitas [tautan kertas] 2024-06-17
Bingxiang He; Ning Ding; Cheng Qian; Jia Deng; Ganqu Cui; Lifan Yuan; Huan-Ang Gao; Huimin Chen; Zhiyuan Liu; Maosong Sun.
Memahami Probing Linear Kemudian Model Bahasa yang Menyempurnakan dari Perspektif NTK [Tautan Kertas] 2024-05-27
Akiyoshi Tomihari; Issei Sato
Batas tak terbatas dari dinamika transformator multi-head [tautan kertas] 2024-05-24
Blake Bordelon; Hamza Tahir Chaudhry; Cengiz Pehlevan
Menuju pemahaman teoretis tentang 'kutukan pembalikan' melalui Dinamika Pelatihan [tautan kertas] 2024-05-07
Hanlin Zhu; Baihe Huang; Shaolun Zhang; Michael Jordan; Jiantao Jiao; Yuandong Tian; Stuart Russell
Kontrol Pendekatan Teoritis untuk Menyetranya dan Transfer Pembelajaran [Tautan Kertas] 2024-04-16
Erkan Bayram; Shenyu Liu; Mohamed-Ali Belabbas; Tamer Başar
Lihatlah teks: Model bahasa yang disesuaikan instruksi adalah pemilih pilihan ganda yang lebih kuat daripada yang Anda pikirkan [tautan kertas] 2024-04-12
Xinpeng Wang; Chengzhi Hu; Bolei Ma; Paul Röttger; Papan Barbara
Tentang Pengaruh Data Pelatihan Model GPT [Tautan Kertas] 2024-04-11
Qingyi Liu; Yekun Chai; Shuohuan Wang; Yu Sun; Keze Wang; Hua Wu
Praktik dan Pelajaran Terbaik yang Dipetik tentang Data Sintetis Untuk Model Bahasa [Tautan Kertas] 2024-04-11
Ruibo Liu; Jerry Wei; Fangyu Liu; Chenglei Si; Yanzhe Zhang; Jinmeng Rao; Steven Zheng; Daiyi Peng; Diyi Yang; Denny Zhou; Andrew M. Dai
Seberapa buruk pelatihan tentang data sintetis? Analisis statistik keruntuhan model bahasa [tautan kertas] 2024-04-07
Mohamed El Amine Seddik; Suei-Wen Chen; Soufiane Hayou; Pierre Youssef; Merouane Debbah
Mengungkap Kekuatan Generalisasi Model Bahasa Besar yang Disetel [Tautan Kertas] 2024-03-14
Haoran Yang; Yumeng Zhang; Jiaqi Xu; Hongyuan Lu; Pheng Ann Heng; Wai Lam
Transformers Get Stable: Teori propagasi sinyal ujung ke ujung untuk model bahasa [tautan kertas] 2024-03-14
Akhil Kedia; Mohd Abbas Zaidi; Sushil Khyalia; Jungho Jung; Harshith Goka; Haejun Lee
Perhatian linier adalah (mungkin) semua yang Anda butuhkan (untuk memahami optimasi transformator) [tautan kertas] 2024-03-13
Kwangjun Ahn; Xiang Cheng; Lagu Minhak; Chulhee Yun; Ali Jadbabaie; Suvrit Sra
Ciri khas lintasan optimasi dalam jaringan saraf dan LLM: panjang, tikungan, dan jalan buntu [tautan kertas] 2024-03-12
Sidak Pal Singh; Bobby dia; Thomas Hofmann; Bernhard Schölkopf
Inti Heuristik: Memahami Generalisasi Subnetwork Dalam Model Bahasa Pretrained [Tautan Kertas] 2024-03-06
Adithya Bhaskar; Dan Friedman; Danqi Chen
Dinamika Pelatihan Perhatian Softmax Multi-Head untuk Pembelajaran Dalam Konteks: Munculnya, Konvergensi, dan Optimalitas [Tautan Kertas] 2024-02-29
Siyu Chen; Heejune Sheen; Tianhao Wang; Zhuoran Yang
Bagaimana Transformers Belajar Struktur Kausal Dengan Keturunan Gradien [Tautan Kertas] 2024-02-22
Eshaan Nichani; Alex Damian; Jason D. Lee
Pelatihan Lora dalam rezim NTK tidak memiliki minimum lokal yang palsu [tautan kertas] 2024-02-19
Uijeong Jang; Jason D. Lee; Ernest K. Ryu
Tentang munculnya linearitas lintas tugas dalam paradigma finetuning pretraining [tautan kertas] 2024-02-06
Zhanpeng Zhou; Zijun Chen; Yilan Chen; Bo Zhang; Junchi Yan
Transformers Learn melalui peringkat bertahap peningkatan [tautan kertas] 2023-12-10
Enric Boix-Adsera; Etai Littwin; Emmanuel Abbe; Samy Bengio; Joshua Susskind
Menganalisis secara mekanis efek fine-tuning pada tugas yang ditentukan secara prosedural [tautan kertas] 2023-11-21
Samyak Jain; Robert Kirk; Ekdeep Singh Lubana; Robert P. Dick; Hidenori Tanaka; Edward Grefenstette; Tim Rocktäschel; David Scott Krueger
Menghubungkan model bahasa pra-terlatih dan tugas hilir melalui properti representasi [tautan kertas] 2023-11-02
Chenwei Wu; Holden Lee; Rong GE
Pindai dan Snap: Memahami dinamika pelatihan dan komposisi token dalam transformator 1-lapis [tautan kertas] 2023-07-02
Yuandong Tian; Yiping Wang; Beidi Chen; Simon Du
Pandangan berbasis kernel tentang fine-tuning model bahasa [tautan kertas] 2023-06-15
Sadhika Malladi; Alexander Wettig; Dingli Yu; Danqi Chen; Sanjeev Arora
Analisis stabilitas menyempurnakan model pra-terlatih [tautan kertas] 2023-01-24
Zihao Fu; Anthony man-cho begitu; Nigel Collier
^ back to top ^
Makalah menganalisis kemampuan belajar dan kinerja generalisasi model bahasa, dari generalisasi lemah hingga kuat.
Generalisasi dan Batas Risiko untuk Jaringan Saraf Berulang [Tautan Kertas] 2024-11-05
Xuewei Cheng; Ke Huang; Shujie Ma
Generalisasi panjang yang dapat dibuktikan dalam prediksi urutan melalui pemfilteran spektral [tautan kertas] 2024-11-01
Annie Marsden; Evan Dogariu; Naman Agarwal; Xinyi Chen; Daniel Suo; Elad Hazan
RL-STAR: Analisis Teoritis Kerangka Pembelajaran Penguatan untuk Reasoner otodidak [tautan kertas] 2024-10-31
Fu-Chieh Chang; Yu -ing Lee; Hui-yy shih; Pei-yuan Wu
Campuran burung beo: para ahli meningkatkan menghafal lebih dari penalaran [tautan kertas] 2024-10-24
Samy Jelassi; Clara Mohri; David Brandfonbrener; Alex Gu; Nikhil Vyas; Nikhil Anand; David Alvarez-Melis; Yuanzhi Li; Sham M. Kakade; Eran Malach
Bagaimana ketepatan numerik mempengaruhi kemampuan penalaran matematika LLMS [tautan kertas] 2024-10-17
Guhao Feng; Kai Yang; Yuntian Gu; AI Xinyue; Shengjie Luo; Jiacheng Sun; Di he; Zhenguo Li; Liwei Wang
Pada batasan generalisasi yang bergantung pada peringkat untuk transformator [tautan kertas] 2024-10-15
Lan V. Truong
Overfitting jinak dalam perhatian satu kepala [tautan kertas] 2024-10-10
Roey Magen; Menghindari Shang; Zhiwei Xu; Spencer Frei; Wei Hu; Gal Vardi
Dinamika pembelajaran konsep dan generalisasi komposisi [tautan kertas] 2024-10-10
Yongyi Yang; Taman Inti Francisco; Ekdeep Singh Lubana; Maya Okawa; Wei Hu; Hidenori Tanaka
Overfitting jinak untuk regresi dengan jaringan relu dua lapis terlatih [tautan kertas] 2024-10-08
Taman Junhyung; Patrick Bloebaum; Shiva Prasad Kasiviswanathan
Generalisasi lemah-ke-kuat yang dapat dibuktikan melalui overfitting jinak [tautan kertas] 2024-10-06
David X. Wu; Anant Sahai
Kerangka kerja formal untuk pemahaman generalisasi panjang dalam transformator [tautan kertas] 2024-10-03
Xinting Huang; Andy Yang; Satwik Bhattamishra; Yash Sarrof; Andreas Krebs; Hattie Zhou; Preetum Nakkiran; Michael Hahn
Klasifikasi transformator terlatih menggeneralisasi dan menunjukkan overfitting jinak dalam konteks [tautan kertas] 2024-10-02
Spencer Frei; Gal Vardi
Baris pemikiran dalam model bahasa besar [tautan kertas] 2024-10-02
Raphaël Sarfati; Toni JB Liu; Nicolas Boullé; Christopher J. Earls
Menyelidiki dampak kompleksitas model dalam model bahasa besar [tautan kertas] 2024-10-01
Jing Luo; Huiyuan Wang; Weiran Huang
Overfitting jinak atau tidak-tign dalam pemilihan mekanisme perhatian [tautan kertas] 2024-09-26
Keitaro Sakamoto; Issei Sato
Memahami bias kesederhanaan terhadap pemetaan komposisi melalui Dinamika Pembelajaran [tautan kertas] 2024-09-15
Yi ren; Danica J. Sutherland
Generalisasi yang tidak terlupakan dalam model bahasa [tautan kertas] 2024-09-03
Eric Zhang; Leshem dipilih; Jacob Andreas
Banyak wajah pembelajaran lemah ke kuat [tautan kertas] 2024-08-30
Mikael Møller Høgsgaard; Kasper Green Larsen; Markus Engelund Mathiasen
Fisika Model Bahasa: Bagian 2.2, Cara Belajar Dari Kesalahan tentang Masalah Matematika Sekolah Kelas [Tautan Kertas] 2024-08-29
Tian Ye; Zicheng Xu; Yuanzhi Li; Zeyuan Allen-Zhu
Generalisasi out-of-distribusi melalui komposisi: lensa melalui kepala induksi di transformer [tautan kertas] 2024-08-18
Lagu Jiajun; Zhuoyan Xu; Yiqiao Zhong
Pada generalisasi pembelajaran preferensi dengan DPO [tautan kertas] 2024-08-06
Shawn IM; Yixuan Li
Induktif atau deduktif? Memikirkan kembali kemampuan penalaran mendasar LLMS [tautan kertas] 2024-07-31
Kewei Cheng; Jingfeng Yang; Haoming Jiang; Zhengyang Wang; Binxuan Huang; Ruirui li; Shiyang Li; Zheng Li; Yifan Gao; Xian Li; Bing Yin; Yizhou Sun