awesome language model analysis下載 - awesome language model analysis原始碼下載

很棒的語言模型分析

本文將聚焦在語言模型，特別是大型語言模型（LLM）的理論和實證分析。此列表中的論文透過理論分析、實證分析或兩者的結合來研究語言模型的學習行為、泛化能力和其他屬性。

此清單的範圍：

目前，該清單重點關注基於變壓器的模型。
我們希望收集只關注語言模型的理論和實證分析的論文，而不是旨在提高語言模型表現的論文。

此清單的限制：

這個清單並不詳盡，我們可能會錯過一些非常重要的論文。
這個清單還沒有整理好，將來我們可能需要重新整理這個清單。
一些熱門主題尚未得到很好的涵蓋，例如機械工程、探測和可解釋性。

論文列表統計：

不同論文總數： 550
更詳細的統計數據請參見本頁末。

如果您有任何建議或想要做出貢獻，請隨時提出問題或拉取請求。

詳細貢獻方式請參閱貢獻指南。

您還可以在討論中分享您的想法並與其他人討論。

筆記

未分類版本請參考這裡。

很棒的語言模型分析
目錄
- 有趣的現象
  - 情境學習
  - 思想鏈
  - 幻覺
  - 逆轉詛咒
  - 縮放法則/緊急能力/Grokking/等等。
  - 知識/記憶機制
  - 訓練動態/景觀/優化/微調/等
  - 學習/泛化/推理/弱到強泛化
  - 其他現象/發現
- 代表性能力
  - 變壓器能做什麼？ / 變壓器的特性
  - 變壓器不能做什麼？ / 變壓器的限制
- 建築有效性
  - 層歸一化
  - 標記化/嵌入
  - 線性注意力/狀態空間模型/循環語言模型/等等。
- 訓練範式
- 機械工程/探測/可解釋性
- 雜項

有趣的現象

^ back to top ^

著重於在大型語言模型 (LLM) 和基於 Transformer 的模型中觀察到的不同現象、屬性和行為的類別。

情境學習

^ back to top ^

論文重點在於大型語言模型中上下文學習的理論和實證分析。

紙張清單（點擊折疊/展開）

使用 Transformers 可證明的上下文學習：線性回歸案例研究[論文連結] 2024-11-04
大克布；黃偉;安迪漢;二反田敦；鈴木太二；張慶福;黃厚山
預先訓練的 Transformer 可以有效地學習上下文中的低維度目標函數[論文連結] 2024-11-04
大子一里；宋玉金;鈴木太二；吳丹尼
理解情境學習與權重學習[論文連結] 2024-10-30
布萊恩陳；陳欣怡;安德拉斯·傑爾吉；戴爾舒爾曼斯
論深度與循環對於任務多樣性情境學習的作用[論文連結] 2024-10-29
卡沙亞爾·加特米里；尼庫尼桑希；薩尚克·J·雷迪；史蒂芬妮·耶格爾卡；桑吉夫·庫馬爾
Transformer Networks 中上下文學習的符號處理機制[論文連結] 2024-10-23
保羅‧斯摩稜斯基；羅蘭費爾南德斯；周正浩;馬蒂亞‧奧珀；高劍鋒
變形金剛可以在上下文中學習線性動力系統的行為嗎？ [論文連結]2024-10-21
烏斯曼·阿克拉姆；哈里斯·維卡洛
用於上下文學習的貝葉斯縮放定律[論文連結] 2024-10-21
阿雅曼·阿羅拉；丹·尤拉夫斯基；克里斯多福‧波茨；諾亞·D·古德曼
使用 Transformer 進行線性迴歸混合的可證明情境學習[論文連結] 2024-10-18
金彥豪;克里希納庫瑪·巴拉蘇布拉曼尼安；賴麗鳳
情境學習與奧卡姆剃刀[論文連結] 2024-10-17
艾瑞克·埃爾莫茲尼諾；湯姆馬蒂；特哈斯‧卡塞蒂；裡奧‧加格農；薩薩克·米塔爾；馬漢法蒂；達尼婭·斯里達爾；紀堯姆·拉茹瓦
情境學習中的情境擴展與任務擴展[論文連結] 2024-10-16
阿米爾赫薩姆·阿貝德索爾坦； Adityanarayanan Radhakrishnan；吳景峰;米哈伊爾·貝爾金
繞過指數依賴：循環變壓器透過多步驟梯度下降有效地學習上下文[論文連結] 2024-10-15
陳博;李曉宇;梁英玉;施珍美;趙松
變壓器如何實現感應頭：近似與優化分析【論文連結】2024-10-15
王明澤;餘若曦;渭南E;吳磊
關於上下文分類的 Transformers 訓練收斂性[論文連結] 2024-10-15
沉偉;週瑞達;楊靜;沉叢
變形金剛在上下文中學習變階馬可夫鏈[論文連結] 2024-10-07
週瑞達;朝天;蘇哈斯·迪加維
重溫大型語言模型中的上下文學習推理電路[論文連結] 2024-10-06
葉風町；加藤真理子；酒井義宏；井上直也
訓練有素的 Transformer 分類器概括並展示上下文中的良性過度擬合[論文連結] 2024-10-02
史賓塞‧弗雷；加爾瓦爾迪
Transformers 處理上下文線性迴歸中的內生性[論文連結] 2024-10-02
梁浩東;克里希納庫瑪·巴拉蘇布拉曼尼安；賴麗鳳
揭曉感應頭：變壓器中可證明的訓練動力學和特徵學習[論文連結] 2024-09-10
陳思宇;希瓊‧希恩；王天浩;楊卓然
學習與檢索：法學碩士回歸中上下文範例的作用[論文連結] 2024-09-06
阿利亞克巴爾·納法爾；克里斯汀·布倫特·維納布爾；帕里莎·科賈姆希迪
Transformers 是 Minimax 最優非參數上下文學習器[論文連結] 2024-08-22
朱諾金；中卷太；鈴木太二
情境學習中的記憶[論文連結] 2024-08-21
沙赫里亞爾·戈爾欽；米哈伊·蘇爾代亞努；史蒂文·貝薩德；愛德華多·布蘭科；艾倫·裡洛夫
In-Context Learning with Representations：經過訓練的 Transformers 的上下文泛化[論文連結] 2024-08-19
童陽;黃宇;梁迎賓;池月傑
透過情境學習快速訓練資料集歸因[論文連結] 2024-08-14
米拉德‧福圖希；穆罕默德·塔哈·巴哈多里；奧盧瓦塞伊·費伊塞坦；佩曼·阿拉沙希；大衛‧赫克曼
Transformers 如何在情境學習中利用多頭注意力？稀疏線性迴歸案例研究[論文連結] 2024-08-08
陳興武;趙雷;鄒滌凡
變形金剛是通用的情境學習器[論文連結] 2024-08-02
古谷隆； Maarten V. de Hoop；加布里埃爾·佩雷
多項式回歸作為透過微調和對齊來理解情境學習的任務[論文連結] 2024-07-27
馬克斯‧威爾科森；莫滕·斯文德加德；裡亞·多西；迪倫戴維斯；雷亞維爾；阿南特·薩海
揭開情境學習：一個理解其工作機制的座標系[論文連結] 2024-07-24
趙安豪;葉芳華;付金蘭;沉曉宇
一層變壓器可證明在上下文中學習一個最近鄰[論文連結] 2024-07-24
李子豪;曹元;程高;何一涵;劉漢;傑森·M·克魯索夫斯基；范建清;王夢迪
變壓器什麼時候可以在上下文中組合概括？ [論文連結]2024-07-17
小林誠人；西蒙·舒格；亞西爾·阿克拉姆；佛洛里安‧雷德哈特；約翰內斯·馮·奧斯瓦爾德；拉茲萬·帕斯卡努；紀堯姆·拉茹瓦；若昂·薩克拉門托
In-Context In-Context Learning with Transformer Neural Processes [論文連結] 2024-06-19
馬修·阿什曼；克里斯蒂安娜·迪亞科努；阿德里安·韋勒；理查德·特納
探究大語言模式中情境學習的決策邊界[論文連結] 2024-06-17
趙思燕;阮東；阿迪亞·格羅弗
State Soup：情境技能學習、檢索與混合[論文連結] 2024-06-12
馬切伊‧皮奧羅；馬切伊·沃齊克；拉茲萬·帕斯卡努；約翰內斯·馮·奧斯瓦爾德；若昂·薩克拉門托
估算生成式AI的幻覺速率[論文連結] 2024-06-11
安德魯傑森；尼古拉斯·貝爾特蘭·貝萊斯；朱昆廷；斯維塔·卡勒卡爾；詹尼克·科森；亞林·加爾；約翰‧P‧坎寧安；大衛布萊
BERT 是生成式情境學習器[論文連結] 2024-06-07
大衛塞繆爾
僅透過基於 SVD 的權重修剪來提高情境學習表現：理論觀點[論文連結] 2024-06-06
姚新浩;胡曉琳;楊慎之;劉勇
語言模型在脈絡中學習什麼？結構化任務假設[論文連結] 2024-06-06
焦大莉;侯逸凡;姆林瑪雅·薩坎；瑞恩·科特雷爾
上下文學習到線性注意力變換器中模型權重的精確轉換[論文連結] 2024-06-05
布萊恩·K·陳;胡天陽;慧金;李惠寬；川口賢二
學習神通：模組化算術任務中情境學習與技能組合的出現[論文連結] 2024-06-04
何天宇;達希爾·多西；阿里特拉·達斯；安德烈·格羅莫夫
為什麼更大的語言模型會以不同的方式進行情境學習？ [論文連結]2024-05-30
施珍美;魏俊毅;徐卓艷;樑英玉
情境學習足以滿足法學碩士的教學要求嗎？ [論文連結]2024-05-30
趙浩;馬克西姆‧安德留申科；弗朗西斯科·克羅切；尼可拉斯·弗拉馬里昂
學習正確的潛在變數是否一定會改善情境學習？ [論文連結]2024-05-29
薩薩克·米塔爾；艾瑞克·埃爾莫茲尼諾；裡奧‧加格農；桑尼·巴德瓦吉；達尼婭·斯里達爾；紀堯姆·拉茹瓦
變形金剛中的情境學習理論[論文連結] 2024-05-29
王一飛;吳宇陽;魏澤明;史蒂芬妮·耶格爾卡；王一森
自回歸訓練變壓器中的檯面優化：出現與能力[論文連結] 2024-05-27
鄭晨宇;黃偉;王榮珍;吳國強;朱軍;李崇軒
分類資料的 Transformer 上下文學習[論文連結] 2024-05-27
王亞倫；里卡多·赫納奧；勞倫斯·卡林
上下文學習中 Transformers 的自動域適應[論文連結] 2024-05-27
畑谷龍一郎；松井幸太；今泉正明
統一情境學習的示範選擇與壓縮[論文連結] 2024-05-27
高俊
論文本產生的上下文學習的噪音穩健性[論文連結] 2024-05-27
高鴻福;張飛鵬;姜文宇;俊舒;馮正;魏洪欣
MLP 在上下文中學習[論文連結] 2024-05-24
威廉·L·唐；森吉茲·佩勒萬
從上下文不確定性量化更好地理解上下文學習能力[論文連結] 2024-05-24
尚劉;蔡中澤;陳冠廷;李曉成
循環變壓器可以學習實現多步驟梯度下降以進行上下文學習嗎？ [論文連結]2024-05-02
卡沙亞爾·加特米里；尼庫尼桑希；薩尚克·J·雷迪；史蒂芬妮·耶格爾卡；桑吉夫·庫馬爾
Transformers 推出的函數類別的上下文學習[論文連結] 2024-05-02
王志傑;姜波；李帥
長上下文模型的脈絡學習：深入探索[論文連結] 2024-04-30
阿曼達·貝爾奇；毛爾·伊夫吉；烏裡·阿隆；喬納森·貝蘭特；馬修‧葛姆雷；格雷厄姆·紐比格
感應頭需要什麼？情境學習迴路及其形成的機制研究[論文連結] 2024-04-10
阿迪蒂亞·K·辛格；特德‧莫斯科維茲；菲利克斯·希爾；史蒂芬妮·CY·陳；安德魯·薩克斯
ICL 需要注意嗎？探討模型架構與情境學習能力的關係【論文連結】2024-04-01
伊凡李；南江；泰勒伯格-柯克派崔克
用於上下文學習的多頭 Softmax Attention 的訓練動態：湧現、收斂和最優性[論文連結] 2024-02-29
陳思宇;希瓊‧希恩；王天浩;楊卓然
變形金剛如何透過梯度下降學習因果結構[論文連結] 2024-02-22
埃沙安·尼查尼；亞歷克斯·達米安；賈森·D·李
線性變壓器區塊的上下文學習：MLP 元件和一步 GD 初始化的優點[論文連結] 2024-02-22
張瑞琪;吳景峰;彼得·L·巴特利特
辨識語意歸納頭以理解情境學習[論文連結] 2024-02-20
任傑；郭啟鵬;杭彥;劉東瑞;邱西鵬;林大華
Transformers 如何進行情境自回歸學習？ [論文連結]2024-02-08
麥可·E·桑德；拉賈·吉里斯；鈴木太二；馬修·布隆德爾；加布里埃爾·佩雷
曼巴能學會如何學習嗎？情境學習任務的比較研究[論文連結] 2024-02-06
樸鐘浩；樸在升；熊哲陽;李娜英；曹在雄;薩梅特·奧伊馬克；李康旭;迪米特里斯·帕帕利奧普洛斯
情境學習的資訊理論分析[論文連結] 2024-01-28
洪俊全;傑森·D·李；齊磊;班傑明·範·羅伊
變形金剛中緊急情境學習的瞬態本質[論文連結] 2023-12-11
阿迪蒂亞·K·辛格；史蒂芬妮·CY·陳；特德‧莫斯科維茲；艾琳·格蘭特；安德魯·M·薩克斯；菲利克斯·希爾
具有不同數量最小值的上下文學習函數[論文連結] 2023-11-21
大衛‧奧尼亞尼；王燕山
探討情境學習與指令調優之間的關係[論文連結] 2023-11-17
段涵予;唐一軒;易陽；艾哈邁德·阿巴西；譚嘉因
情境學習何時會出現不足以及為何？規範-繁重任務的研究[論文連結] 2023-11-15
郝鵬;王曉志;陳建輝;李偉凱;齊雲佳;王子穆;吳志立;曾凱勝;徐斌;侯雷；李娟子
情境學習具有泛化性，但並不總是穩健：以文法為例[論文連結] 2023-11-13
亞倫·穆勒；阿爾伯特·韋伯森；傑克森佩蒂；塔爾林岑
Transformers 學習實現預條件梯度下降以進行上下文學習[論文連結] 2023-11-09
安光俊;向誠;哈迪·達內什曼德；蘇維裡·斯拉
Transformers 學習情境學習的高階最佳化方法：線性模型的研究[論文連結] 2023-10-26
付德清;陳天琪;賈羅賓;瓦薩爾·夏蘭
情境學習建立任務向量[論文連結] 2023-10-24
羅伊‧亨德爾；莫·傑瓦；阿米爾·格洛伯森
大語言模型中的函數向量[論文連結] 2023-10-23
艾瑞克·托德；米利森特·L·李；阿納布·森·夏爾馬；亞倫·穆勒；拜倫·C·華萊士；大衛鮑
使用 Transformer 進行上下文學習確實相當於對比學習模式[論文連結] 2023-10-19
任瑞峰;劉勇
訓練有素的 Transformer 在上下文中學習線性模型[論文連結] 2023-10-19
張瑞琪;史賓塞‧弗雷；彼得·L·巴特利特
Transformer 如何在簡單函數之外的上下文中學習？表徵學習的案例研究[論文連結] 2023-10-16
郭天宇;胡偉;宋梅;王煥;熊才明;西爾維奧·薩瓦雷塞；於白
透過學習離散函數來理解 Transformers 和 LLM 中的情境學習[論文連結] 2023-10-13
薩特維克·巴塔米甚拉；阿基爾·帕特爾；菲爾·布倫瑟姆；瓦倫·卡納德
線性迴歸的脈絡學習需要多少預訓練任務？ [論文連結]2023-10-13
吳景峰;鄒迪凡;陳子祥;弗拉基米爾·布雷弗曼；顧泉泉;彼得·巴特利特
In-Context Learning學習標籤關係但不是常規學習[論文連結] 2023-10-13
詹尼克·科森；亞林·加爾；湯姆·雷恩福斯
Transformers 的脈絡融合[論文連結] 2023-10-13
黃宇;袁成;梁迎賓
透過貝葉斯棱鏡進行情境學習[論文連結] 2023-10-13
馬杜爾潘瓦爾；卡比爾·阿胡賈；納文·戈亞爾
預先訓練的 Transformer 真的透過梯度下降在上下文中學習嗎？ [論文連結]2023-10-12
沈凌風;阿尤什·米甚拉；丹尼爾·卡沙比
情境學習學習什麼、如何學習？貝葉斯模型平均、參數化與泛化[論文連結] 2023-10-10
張玉峰;張峰卓;楊卓然;王兆然
將緊急情境學習解釋為核回歸[論文連結] 2023-10-05
池漢;王子琪;韓昭;恆吉
CausalLM 對於上下文學習並不是最佳的[論文連結] 2023-09-02
南丁;托默·萊文博伊姆；吳嘉琳;塞巴斯蒂安·古德曼；拉杜·索里卡特
梯度下降的一步被證明是具有一層線性自註意力的最佳上下文學習器[論文連結] 2023-07-07
阿爾溫德·馬漢卡利； Tatsunori B.橋本；馬騰宇
Transformers 作為統計學家：可證明的上下文學習與上下文演算法選擇[論文連結] 2023-07-06
於白;範陳;王煥;熊才明;宋梅
變形金剛透過梯度下降在上下文中學習[論文連結] 2023-06-15
約翰內斯·馮·奧斯瓦爾德；艾哈邁德‧尼克拉斯森；埃托雷·蘭達佐；若昂·薩克拉門托；亞歷山大‧莫德溫采夫；安德烈·日莫吉諾夫；馬克斯·弗拉迪米羅夫
Softmax回歸的上下文學習和權重轉移的緊密性[論文連結] 2023-04-26
李帥;趙松;於霞;童宇;週天一
一種內隱結構歸納的湧現情境學習理論[論文連結] 2023-03-14
麥可‧哈恩；納文·戈亞爾
情境學習的可學習性[論文連結] 2023-03-14
諾姆‧維斯；約夫‧萊文；阿姆農·沙舒亞
變形金剛可以在上下文中學到什麼？簡單函數類別的案例研究[論文連結] 2023-01-14
希瓦姆·加爾格；季米特里斯·齊普拉斯；梁珀西；格雷戈里·瓦利安特
Transformer 的概括與上下文中儲存的資訊和權重中儲存的資訊不同[論文連結] 2022-10-13
史蒂芬妮·CY·陳；伊什塔·達斯古普塔；金俊敬;達尚‧庫馬蘭；安德魯·K·蘭皮寧；菲利克斯·希爾
情境學習與歸納頭【論文連結】2022-09-24
凱瑟琳·奧爾森；納爾遜·埃爾哈格；尼爾·南達；尼古拉斯約瑟夫；新達斯薩爾馬；湯姆‧赫尼根；本·曼；阿曼達·阿斯克爾；白雲濤;陳安娜；湯姆康納利；黎明排水；深甘古利；扎克·哈特菲爾德-多茲；丹尼·埃爾南德斯；史考特·約翰斯頓；安迪瓊斯；傑克森·凱尼恩；莉安‧洛維特；卡邁勒‧恩杜斯；達裡奧·阿莫代伊；湯姆布朗；傑克克拉克；賈里德·卡普蘭；薩姆·麥坎利甚；克里斯·奧拉

思想鏈

^ back to top ^

論文分析大型語言模型中的思想鏈現象，探索理論與實證觀點。

紙張清單（點擊折疊/展開）

法學碩士在接受快速思維與慢速思維訓練時會發生什麼：梯度視角[論文連結] 2024-10-31
李明;李艷紅;週天一
思想鏈的理論理解：連貫推理與錯誤感知示範[論文連結] 2024-10-21
崔英謙;何鵬飛;唐鹹豐;齊河；陳洛;唐吉良;月星
從稀疏依賴到稀疏注意力：揭示思想鏈如何增強 Transformer 樣本效率[論文連結] 2024-10-07
文凱悅;張華慶;林洪洲;張敬兆
訓練非線性變壓器進行思想鏈推理：理論概括分析[論文連結] 2024-10-03
李洪康;王萌;路松濤;崔曉東;陳品玉
自回歸+思想鏈（CoT）≃循環：循環在語言模型中的作用以及循環變壓器的修訂[論文連結] 2024-09-14
張翔;穆罕默德·阿卜杜勒-馬吉德；拉克斯 VS 拉克什馬南
揭示思維鏈提示方法的統計基礎[論文連結] 2024-08-25
胡欣陽;張峰卓;陳思宇;楊卓然
解讀影響思維鏈效能的因素：機率、記憶和噪音推理[論文連結] 2024-07-01
阿克薩拉·普拉巴卡爾；托馬斯·L·格里菲斯； R·托馬斯·麥考伊
論思想鏈推理的神經語言模型的表徵能力[論文連結] 2024-06-20
弗朗茨·諾瓦克；阿內吉·斯維特；亞歷珊卓·布托伊；瑞恩·科特雷爾
迭代頭：思想鏈的機制研究【論文連結】2024-06-04
維維安·卡巴內斯；查爾斯·阿納爾；瓦西姆·布阿齊茲；楊愛麗絲；弗朗索瓦·查頓；朱莉婭·肯佩
讓我們逐點思考：Transformer 語言模型中的隱藏計算[論文連結] 2024-04-24
雅各普福；威廉·梅里爾；塞繆爾·R·鮑曼
思想鏈賦能變形金剛解決固有的系列問題[論文連結] 2024-02-20
李志遠;劉紅;周丹尼；馬騰宇
揭示思想鏈背後的奧秘：理論觀點[論文連結] 2023-12-22
谷浩峰;張博航;顧雲天;葉浩天;荻和；王立偉
為什麼大型語言模型能夠產生正確的思考鏈？ [論文連結]2023-10-20
拉蘇爾·圖圖諾夫；安托萬·格羅斯尼特；朱利葉斯·齊奧梅克；王軍;海瑟姆·布阿馬爾
大型語言模型如何實現思想鏈？ [論文連結]2023-10-13
王逸群;胡思樂；張永剛;向田；劉雪松;陳耀武;徐申;葉潔平
思維鏈的變形金剛表現【論文連結】2023-10-13
威廉·梅里爾；阿什什·薩巴瓦爾

幻覺

^ back to top ^

研究語言模型中的幻覺現象的論文，包括理論和實證分析。

紙張清單（點擊折疊/展開）

沒有免費的午餐：學習非幻覺生成模型的基本限制[論文連結] 2024-10-24
吳長龍;阿南特‧格拉瑪；沃伊切赫·斯潘科夫斯基
共享想像力：法學碩士的幻覺相似[論文連結] 2024-07-23
週軼事;熊才明;西爾維奧·薩瓦雷塞；吳建勝
估算生成式AI的幻覺速率[論文連結] 2024-06-11
安德魯傑森；尼古拉斯·貝爾特蘭·貝萊斯；朱昆廷；斯維塔·卡勒卡爾；詹尼克·科森；亞林·加爾；約翰‧P‧坎寧安；大衛布萊
對新知識進行微調的法學碩士是否會助長幻覺？ [論文連結]2024-05-09
佐里克·格赫曼；加爾尤娜；羅伊·阿哈羅尼；馬坦·埃亞爾；阿米爾·費德爾；羅伊·雷查特；喬納森·赫齊格
語言模型中非事實幻覺的機制[論文連結] 2024-03-26
雷宇;孟草;張志傑；岳東
不熟悉的微調範例控制語言模型如何產生幻覺[論文連結] 2024-03-08
凱蒂康；艾瑞克華萊士；克萊爾·湯姆林；阿維拉爾·庫馬爾；謝爾蓋·萊文
作為警報的上下文清晰度：緩解幻覺的內部表徵視角[論文連結] 2024-03-05
陳世奇;繆雄;劉俊騰;吳正軒;滕瀟;高思陽;何俊賢
校準語言模型必須產生幻覺[論文連結] 2023-11-24
亞當·陶曼·卡萊；桑托什·S·文帕拉
幻覺無法回答的奇怪案例：在過度自信的大型語言模型的隱藏狀態中尋找真相[論文連結] 2023-10-18
阿維夫‧斯洛博德金；奧馬爾·戈德曼；阿維·卡丘拉魯；伊多·達甘；紹利·拉夫福格爾

逆轉詛咒

^ back to top ^

分析大型語言模型中的反轉詛咒現象的論文。

紙張清單（點擊折疊/展開）

透過訓練動力從理論上理解「逆轉詛咒」 [論文連結] 2024-05-07
朱翰林;黃百合;張少倫;麥可喬丹；焦建濤;田遠東;史都華·拉塞爾
逆轉詛咒：受過「A is B」訓練的法學碩士無法學習「B is A」 [論文連結] 2024-04-04
盧卡斯‧伯格倫德；梅格唐；馬克斯‧考夫曼；米基塔‧巴萊斯尼；阿薩·庫柏·史蒂克蘭；托馬斯·科爾巴克；歐文·埃文斯
法學碩士理解逆向關係效率低下的調查[論文連結] 2023-12-01
齊成文;李博文;賓源匯;王柏林;李金陽;吳金旺;元君來利
語言模型物理學：第3.2部分，知識操縱[論文連結] 2023-09-25
朱澤元;李遠志
逆轉詛咒：您預測哪些代幣是因式分解詛咒等的基礎[論文連結] 2023-06-07
烏伊爾·基圖尼；尼克拉斯·諾爾特；黛安‧布沙古；阿迪娜·威廉斯；麥克·拉巴特；馬克·易卜拉欣

縮放法則/緊急能力/Grokking/等等。

^ back to top ^

論文探討模型表現如何隨著模型大小、資料大小或計算資源的變化而變化，以及意外能力的出現。

紙張清單（點擊折疊/展開）

解鎖縮放 1 位元神經網路背後的理論[論文連結] 2024-11-03
馬吉德·達利裡；趙松;楊志文
預訓練中的關鍵批量大小如何縮放？ [論文連結]2024-10-29
張翰林;德彭·莫爾瓦尼；尼基爾維亞斯；吳景峰;鄒迪凡;烏達亞蓋伊；迪恩·福斯特；沙姆·卡卡德
語言模型中計算最優尺寸縮放、出現和高原的資訊理論[論文連結] 2024-10-15
阿努吉·K·納亞克；拉夫·瓦爾什尼
縮放定律估計搭車指南[論文連結] 2024-10-15
萊瑟姆‧喬申；張陽；雅各·安德烈亞斯
跨模型架構的縮放法則：大型語言模型中密集模型和 MoE 模型的比較分析[論文連結] 2024-10-08
王思琪;陳正宇;李蓓;何克慶;張敏;王金剛
摸索線性可分性的邊緣[論文連結] 2024-10-06
阿隆·貝克；諾姆·萊維； Yohai Bar-西奈半島
轉移尺度規律的實證研究[論文連結] 2024-08-30
馬修·巴尼特
湧現的滲濾模型：分析在形式語言上訓練的 Transformers [論文連結] 2024-08-22
艾克迪普·辛格·盧巴納；川口京吾；羅伯特·P·迪克；田中英德
學習率退火的縮放定律[論文連結] 2024-08-20
豪威組織；王維納斯；鹿王
大型語言模型的表現規律[論文連結] 2024-08-19
吳楚涵;唐瑞明
資訊理論進展測量揭示Grokking是緊急相變[論文連結] 2024-08-16
肯佐克勞；塞巴斯蒂亞諾‧斯特拉馬利亞；丹尼爾·馬裡納佐
大語言猴子：透過重複取樣擴展推理計算[論文連結] 2024-07-31
布拉德利布朗；喬丹·尤拉夫斯基；瑞安·艾利希；羅納德·克拉克； Quoc V. Le；克里斯多福雷；阿扎莉亞·米爾霍塞尼
非神經模型的出現：透過平均梯度外積進行模運算[論文連結] 2024-07-29
尼爾·馬利納爾；丹尼爾·比格爾霍爾；朱立斌; Adityanarayanan Radhakrishnan；派特·潘迪特；米哈伊爾·貝爾金
探討LLM穩健性的擴展趨勢[論文連結] 2024-07-25
尼古拉斯·豪；米哈烏·扎雅克；伊恩·麥肯齊；奧斯卡·霍林斯沃思；曾湯姆；皮埃爾·呂克·培根；亞當格利夫
理解語言模型中規模、數據和偏差的相互作用：BERT 案例研究[論文連結] 2024-07-25
穆罕默德·阿里；斯瓦塔蘇達熊貓；沉沁蘭;麥可·威克；阿里·科布倫
用詞彙擴展定律：更大的模型值得更大的詞彙[論文連結] 2024-07-18
陶超凡;劉謙;竇龍旭;尼克拉斯·穆尼尼霍夫；中衛萬;羅萍;林敏;黃毅
你為什麼Grok？ Grokking模加法的理論分析[論文連結] 2024-07-17
穆罕默德·阿明·穆哈馬迪；李志遠;吳磊；丹妮卡·J·薩瑟蘭
透過微調預測新興能力[論文連結] 2024-07-10
查理·維克多·斯內爾；艾瑞克華萊士；丹‧克萊因；謝爾蓋·萊文
解語言模型計算最適縮放中的差異[論文連結] 2024-06-25
托默·波里安；米切爾‧沃茨曼；傑妮亞·吉采夫；路德維希·施密特；亞爾·卡蒙
線性複雜性語言模型的縮放定律[論文連結] 2024-06-24
瀋旭陽;董莉;冷銳濤;甄琴；孫偉高;鐘怡然
大型語言模型事實記憶的縮放定律[論文連結] 2024-06-22
星宇路;李曉楠;程沁源;丁凱;黃玄晶;邱西鵬
協調卡普蘭和龍貓縮放定律[論文連結] 2024-06-12
提姆‧皮爾斯；宋振業
Deep Grokking：深度神經網路的泛化能力會更好嗎？ [論文連結]2024-05-29
范思敏;拉茲萬·帕斯卡努；馬丁·賈吉
語言崩潰：（大）語言模型中的神經崩潰[論文連結] 2024-05-28
吳羅伯特；瓦爾丹·帕皮揚
超越固定訓練時間的擴展法則和計算最優訓練[論文連結] 2024-05-28
亞歷山大·黑格勒；埃利·巴科甚；阿特利·科森；盧布納·本·阿拉爾；萊安德羅·馮·韋拉；馬丁·賈吉
gzip 預測資料相關的縮放定律[論文連結] 2024-05-26
羅漢潘迪
語言轉換器中高維度抽象階段的出現[論文連結] 2024-05-24
鄭艾米麗；迭戈·多伊莫；科倫丁·科瓦德克；尤里·馬科科；玉玉;亞歷山德羅·萊奧；馬可·巴羅尼
從頻率角度解釋grokking訓練神經網路的原理[論文連結] 2024-05-24
週張晨;張耀宇;徐志勤
Grokked Transformers 是隱式推理機：通往泛化邊緣的機械之旅[論文連結] 2024-05-23
王博士;向月；於蘇;孫煥
資料混合變得有效率：語言模型預訓練的雙變量縮放定律[論文連結] 2024-05-23
策閣；馬志堅;陳道元;李亞良;頂客
計算最優神經縮放定律的 4+3 階段[論文連結] 2024-05-23
艾略特·帕克特；考特尼·帕克特；肖樂超;傑弗瑞‧彭寧頓
大數定律的奴隸：生成語言模型中困惑度的漸近均分性質[論文連結] 2024-05-22
拉古·穆杜拜；泰勒貝爾
量化大型語言模型中的出現[論文連結] 2024-05-21
陳航;楊新宇;朱家英;王文雅
超越縮放定律：用聯想記憶理解變壓器性能[論文連結] 2024-05-14
牛雪艷;白波;鄧雷；韓偉
更多計算就是你所需要的[論文連結] 2024-04-30
郭振
出現和縮放定律的精確可解模型[論文連結] 2024-04-26
南潤秀；納亞拉·豐塞卡；李錫亨；阿德·路易斯
為什麼小語言模型表現不佳？透過Softmax瓶頸研究語言模型飽和度[論文連結] 2024-04-11
內森·戈迪；艾瑞克·德拉·克萊傑瑞；伯努瓦·薩戈特
大規模探索 $mu$ -轉【論文連結】2024-04-08
盧卡斯·林格爾
縮減規模生成語言模型中的湧現能力[論文連結] 2024-04-02
謝林·穆卡蒂拉；維傑塔·德什潘德；弗拉迪斯拉夫·利亞林；安娜·拉姆希斯基
從損失的角度理解語言模型的湧現能力[論文連結] 2024-03-23
杜正曉;曾敖漢;董玉曉;唐傑
揭開縮放定律之謎：第一部分[論文連結] 2024-03-21
蘇慧;志田;沉曉宇;蔡訓良
語言模型可以透過過度訓練和下游任務可靠地擴展[論文連結] 2024-03-13
薩米爾·伊扎克·加德雷；喬治斯·斯米爾尼斯；維沙爾·香卡；蘇欽‧古魯蘭甘；米切爾‧沃茨曼；邵儒林;讓·梅爾卡特；亞歷克斯·方;傑弗瑞‧李；塞德里克·凱；瑞鑫;瑪麗安娜·涅朱里娜；伊戈爾·瓦西列維奇；傑妮亞·吉采夫；亞歷山德羅斯·G·迪馬基斯；加布里埃爾·伊爾哈科；宋舒然;托馬斯·科拉爾；亞爾‧卡蒙；阿查爾·戴夫；萊因哈德·赫克爾；尼克拉斯·穆尼尼霍夫；路德維希·施密特
當Scaling遇見LLM Finetuning：資料、模型與Finetuning方法的影響【論文連結】2024-02-26
張彪;劉忠濤;科林·櫻桃；奧爾罕·菲拉特
解讀複雜模數運算中的 Grokked Transformers [論文連結] 2024-02-26
古田弘樹；峰岸剛貴；岩澤佑介；松尾豐
尾巴的故事：模型崩潰作為尺度法則的改變[論文連結] 2024-02-10
艾維斯‧多赫馬托布；馮雲珍;濮陽;弗朗索瓦·查頓；朱莉婭·肯佩
擴展資料受限的語言模型[論文連結] 2023-10-25
尼克拉斯·穆尼尼霍夫；亞歷山大·M·拉什；波阿斯·巴拉克；特文·勒·斯考；亞歷山大·皮克圖斯；努瓦馬內·塔齊；桑波‧皮薩洛；托馬斯·沃爾夫；科林·拉斐爾
縮小語言模型的成本：事實回憶在上下文學習之前惡化[論文連結] 2023-10-06
天津；諾蘭·克萊門特；董鑫; Vaishnavh Nagarajan；麥可‧卡賓；喬納森·拉根-凱利；金塔爾·卡羅琳娜·吉蓋特
大型語言模式的新興能力是海市蜃樓嗎？ [論文連結]2023-04-28
瑞蘭謝弗；白蘭度·米蘭達；山米·科耶喬
訓練計算最優的大型語言模型[論文連結] 2022-03-29
喬丹霍夫曼；塞巴斯蒂安·博爾若；阿瑟·門施；埃琳娜·布哈茨卡婭；特雷弗·蔡；伊麗莎‧盧瑟福；迭戈·德拉斯·卡薩斯；麗莎安妮亨德里克斯；約翰內斯·韋爾布爾；艾丹·克拉克；湯姆‧亨尼根；埃里克·諾蘭；凱蒂·米利肯；喬治·範·登·德里斯切；博格丹·達莫克；奧裡莉亞·蓋伊；西蒙‧奧辛德羅；凱倫·西蒙尼揚；埃里希·埃爾森；傑克·W·雷；奧裡奧爾乙烯樹脂；洛朗·西弗雷
神經語言模型的縮放定律[論文連結] 2020-01-22
賈里德·卡普蘭；薩姆·麥坎利甚；湯姆‧赫尼根；湯姆·B·布朗；本傑明國際象棋；重新贏得孩子；史考特·格雷；亞歷克·雷德福；傑弗瑞·吳；達裡奧·阿莫代

知識/記憶機制

^ back to top ^

論文重點在於大型語言模型如何儲存、檢索和利用知識，分析所涉及的記憶機制。

紙張清單（點擊折疊/展開）

理解生成模型中記憶的幾何框架[論文連結] 2024-10-31
布倫丹·利·羅斯；哈米德雷扎·卡姆卡里；吳童子;拉薩·侯賽因扎德；劉兆艷;喬治斯坦；傑西·C·克雷斯韋爾；加布里埃爾·洛艾薩-加內姆
變壓器的最佳記憶能力[論文連結] 2024-09-26
梶塚東京；佐藤一誠
薛丁格記憶：大語言模型[論文連結] 2024-09-16
王偉;李慶
Self-Attention限制了基於Transformer的模型的工作記憶容量[論文連結] 2024-09-16
龔東宇;張涵濤
記憶力強，推理淺：kNN-LM 的限制[論文連結] 2024-08-21
耿尚義;趙文婷;亞歷山大·M·拉什
情境學習中的記憶[論文連結] 2024-08-21
沙赫里亞爾·戈爾欽；米哈伊·蘇爾代亞努；史蒂文·貝薩德；愛德華多·布蘭科；艾倫·裡洛夫
概括第一，記憶第二？自然語言分類任務的記憶在地化[論文連結] 2024-08-09
薇娜·丹克斯；伊凡·季托夫
了解法學碩士的記憶：動態、影響因素和意義[論文連結] 2024-07-27
直到史派克；穆罕默德·阿弗拉·汗；吳欽源;吠檀多南達；蘇米·達斯；比什瓦米特拉·戈什；克里希納·P·古馬迪；埃維瑪麗亞·特爾齊
揭秘大語言模型中的逐字記憶[論文連結] 2024-07-25
黃晶;楊迪一;克里斯多福·波茨
從內部衝突到語言模型的脈絡適應[論文連結] 2024-07-24
薩拉·維拉·馬揚諾維奇；餘海恩;佩帕·阿塔納索娃；瑪麗亞‧邁斯特羅；克里斯蒂娜·利奧馬；伊莎貝爾·奧根斯坦
泛化與記憶：追蹤語言模型的能力回到預訓練資料[論文連結] 2024-07-20
安東尼斯·安東尼亞德斯；王欣怡;亞奈·埃拉扎爾；阿方索·阿馬尤拉斯；阿隆·阿爾巴拉克；張克勳;王威廉
語言模型物理學：第3.1部分，知識儲存與擷取[論文連結] 2024-07-16
朱澤元;李遠志
歸納頭作為情境學習中模式匹配的基本機制[論文連結] 2024-07-09
J.克羅斯比； E·舒托娃
法學碩士會夢見大象嗎（當被告知不要這樣做時）？變形金剛中的潛在概念關聯與聯想記憶[論文連結] 2024-06-26
江一波;古塔姆·拉詹德蘭；普拉迪普‧拉維庫瑪；布萊恩·阿拉加姆
大型語言模型事實記憶的縮放定律[論文連結] 2024-06-22
星宇路;李曉楠;程沁源;丁凱;黃玄晶;邱西鵬
連結點：法學碩士可以從不同的訓練資料推斷和表達潛在結構[論文連結] 2024-06-20
約翰內斯·特羅伊特蘭；達米崔;簡·貝特利；傑姆·阿尼爾；塞繆爾·馬克斯；羅傑·貝克·格羅斯；歐文·埃文斯
揭示潛在記憶：評估大型語言模型中的資料外洩和記憶模式[論文連結] 2024-06-20
段陽;米凱爾·科納；阿比拉姆·艾耶；瑞蘭謝弗；伊拉·R·菲特
了解事實知識擷取的微調[論文連結] 2024-06-20
高拉夫·戈薩爾；橋本辰典；阿迪蒂·拉古納坦
在不產生單一標記的情況下估計大型語言模型中的知識[論文連結] 2024-06-18
丹妮拉‧戈特斯曼；莫爾·傑瓦
大型語言模型如何在預訓練過程中獲得事實知識？ [論文連結]2024-06-17
張慧妍;金浩公園；葉成賢;楊素熙；徐永慶;張都成；徐敏俊
像金魚一樣，不要死記硬背！減輕生成法學碩士的記憶[論文連結] 2024-06-14
阿比曼紐·漢斯；溫雨欣;尼爾·傑恩；約翰‧基興鮑爾；哈米德·卡澤米；普拉吉瓦爾·辛哈尼亞；悉達思·辛格；戈塔米·薩帕利；喬納斯·蓋平；阿比納夫·巴特勒；湯姆‧戈德斯坦
預訓練 Transformer 中的知識電路[論文連結] 2024-05-28
姚雲芝;張寧宇;奚澤坤;王夢茹;徐子文;鄧淑敏;陳華軍
用於下一個令牌預測的變壓器記憶體容量上限和下限[論文連結] 2024-05-22
利亞姆·馬登；柯蒂斯·福克斯；克里斯托·斯拉姆普里迪斯
大語言模型記憶的多視角分析[論文連結] 2024-05-19
陳博文;南吉漢；宮尾佑介
語言模型物理：第 3.3 部分，知識能力縮放定律[論文連結] 2024-04-08
朱澤元;李遠志
變壓器中多頭注意力的記憶能力[論文連結] 2024-03-02
薩德格·馬赫達維；廖仁傑;克里斯托·斯拉姆普里迪斯
變形金剛的誕生：記憶觀點[論文連結] 2023-11-06
阿爾貝托·比埃蒂；維維安·卡巴內斯；黛安‧布沙古；埃爾維·傑古；萊昂·博圖
語言模型物理學：第3.2部分，知識操縱[論文連結] 2023-09-25
朱澤元;李遠志
神經網路記憶可以局部化嗎？ [論文連結]2023-07-18
普拉圖什·邁尼；麥可·C·莫澤爾；哈妮‧塞吉；扎卡里·C·利普頓； J.濟科·科爾特；張馳元
量化神經語言模型的記憶[論文連結] 2022-02-15
尼可拉斯‧卡里尼；達芙妮·伊波利托；馬修·賈吉爾斯基；凱瑟琳李；弗洛里安·特拉默；張馳元

訓練動態/景觀/優化/微調/等

^ back to top ^

論文討論了訓練過程的各個方面，包括優化、微調和大型語言模型的訓練前景。

紙張清單（點擊折疊/展開）

全球融合訓練大型變壓器[論文連結] 2024-10-31
程高;曹元;李子豪;何一涵;王夢迪;劉漢;傑森·馬修·克魯索夫斯基；范建清
法學碩士在接受快速思維與慢速思維訓練時會發生什麼：梯度視角[論文連結] 2024-10-31
李明;李艷紅;週天一
使用線性變換器學習和遷移稀疏上下文二元組[論文連結] 2024-10-30
任運偉;王子軒;賈森·D·李
變形金剛中的突變學習：矩陣補全案例研究[論文連結] 2024-10-29
普爾基特·戈帕拉尼；艾克迪普·辛格·盧巴納；韋虎
LoRA vs Full Fine-tuning：等價的錯覺[論文連結] 2024-10-28
里斯·沙特爾沃斯；雅各·安德烈亞斯；安東尼奧·托拉爾巴；普拉秋莎·夏爾馬
Transformer 學習動態中的分佈簡單性偏差[論文連結] 2024-10-25
里卡多·倫德；費代麗卡·傑拉斯；亞歷山德羅·萊奧；塞巴斯蒂安·戈爾特
活躍-休眠注意力頭：從機制上揭秘法學碩士中的極端令牌現象[論文連結] 2024-10-17
郭天宇;德魯夫派；於白;焦建濤;麥可喬丹；宋梅
變壓器如何實現感應頭：近似與優化分析【論文連結】2024-10-15
王明澤;餘若曦;渭南E;吳磊
成為變形金剛意味著什麼？ Hessian 理論分析的見解[論文連結] 2024-10-14
韋羅尼卡·奧爾馬涅克；菲利克斯·丹格爾；西達克·帕爾·辛格
法學碩士的適應之旅：為什麼額外的預訓練有時無法改善？ [論文連結]2024-10-08
菲拉特·翁塞爾；馬蒂亞斯‧貝思格；貝札‧埃爾米斯；米爾科·拉瓦內利；傑姆·蘇巴坎；恰加泰·伊爾迪茲
關於符號梯度下降的兩層變壓器的最佳化和泛化[論文連結] 2024-10-07
李秉瑞;黃偉;安迪漢;週展鵬;鈴木太二；朱軍;陳劍飛
了解Warmup-Stable-Decay學習率：河谷損失景觀觀點[論文連結] 2024-10-07
文凱悅;李志遠;王傑森；大衛霍爾；梁珀西；馬騰宇
訓練非線性變壓器進行思想鏈推理：理論概括分析[論文連結] 2024-10-03
李洪康;王萌;路松濤;崔曉東;陳品玉
微調注意力機制的理論見解：泛化與最佳化[論文連結] 2024-10-03
姚新浩;錢洪金;胡曉琳;徐庚澤;劉勇
訓練有素的 Transformer 分類器概括並展示上下文中的良性過度擬合[論文連結] 2024-10-02
史賓塞‧弗雷；加爾瓦爾迪
法學碩士培訓後對合成資料的理論理解：逆瓶頸視角[論文連結] 2024-10-02
甘澤宇;劉勇
研究大型語言模型中模型複雜性的影響[論文連結] 2024-10-01
羅靜;王惠媛;黃蔚然
注意力機制令牌選擇中的良性或非良性過擬合[論文連結] 2024-09-26
坂本慶太郎；佐藤一誠
用於下一個令牌預測的訓練變壓器的非漸近收斂[論文連結] 2024-09-25
黃瑞泉;梁迎賓;景陽
大型語言模型的最佳化超參數定律[論文連結] 2024-09-07
謝星宇;丁匡宇;嚴水成;杜金全；魏天文
AdEMAMix 優化器：更好、更快、更舊[論文連結] 2024-09-05
馬泰奧·帕利亞爾迪尼；皮埃爾·阿布林；大衛格蘭吉爾
聚類與對齊：理解模加法中的訓練動態[論文連結] 2024-08-18
提比略穆薩特
訓練大型變壓器的全球融合[論文連結] 2024-08
程高;曹元;李子豪;何一涵;王夢迪;劉漢;傑森·M·克魯索夫斯基；范建清
論僅編碼器淺層變壓器的收斂性[論文連結] 2024-08
吳永濤;劉芳輝;格里戈里奧斯·G·克里索斯；沃爾坎·塞弗爾
用於持續學習的參數高效微調：神經切線核視角[論文連結] 2024-07-24
劉靜仁;仲吉;於雲龍;曹家樂;龐彥偉;韓軍工;李雪龍
LLM Finetuning的學習動態【論文連結】2024-07-15
伊人；丹妮卡·J·薩瑟蘭
解構什麼才是好的語言模型最佳化器[論文連結] 2024-07-10
趙羅茜；德彭·莫爾瓦尼；大衛布蘭德豐布雷納；尼基爾維亞斯；沙姆·卡卡德
指令調優期間的零樣本泛化：相似性和粒度的見解[論文連結] 2024-06-17
何秉祥;丁寧；程潛;鄧佳;甘曲崔;袁力帆;高煥昂;陳慧敏;劉志遠;孫茂松
從NTK的角度理解線性探測然後微調語言模型[論文連結] 2024-05-27
富張秋吉；佐藤一誠
多頭變壓器動力學的無限極限[論文連結] 2024-05-24
布萊克·博德隆；哈姆扎·塔希爾·喬杜里；森吉茲·佩勒萬
透過訓練動力從理論上理解「逆轉詛咒」 [論文連結] 2024-05-07
朱翰林;黃百合;張少倫;麥可喬丹；焦建濤;田遠東;史都華·拉塞爾
微調和遷移學習的控制理論方法[論文連結] 2024-04-16
埃爾坎·拜拉姆；劉申宇;穆罕默德·阿里·貝拉巴斯；塔梅爾·巴沙爾
看正文：指令調優的語言模型是比你想像的更穩健的多項選擇選擇器【論文連結】2024-04-12
王新鵬;胡承志;馬伯雷；保羅‧羅特格；芭芭拉·普朗克
論GPT模型的訓練資料影響[論文連結] 2024-04-11
劉慶義;柴業坤;王碩環;孫宇;王克澤;華吾
語言模型合成資料的最佳實踐和經驗教訓[論文連結] 2024-04-11
劉瑞波;傑瑞‧韋；劉芳宇;程磊斯;張彥哲;饒金夢;史蒂文‧鄭；彭代義;楊迪一;周丹尼；戴安德
合成資料訓練有多糟糕？語言模型崩潰的統計分析[論文連結] 2024-04-07
穆罕默德·艾爾·阿明·塞迪克；陳穗文;蘇菲安·哈尤；皮埃爾·優素福；梅魯安·德巴
揭示微調大型語言模型的泛化能力[論文連結] 2024-03-14
楊浩然;張雨萌;徐嘉琪;宏源路；彭安興;偉林
Transformers 變得穩定：語言模型的端到端訊號傳播理論[論文連結] 2024-03-14
阿希爾·凱迪亞；莫哈末阿巴斯札伊迪；蘇希爾·凱利亞；鄭正浩;哈希斯·戈卡；李海俊
線性注意力（也許）就是你所需要的（理解變壓器優化） [論文連結] 2024-03-13
安光俊;向誠;宋敏鶴；朱熙雲；阿里·賈德巴伊；蘇維裡·斯拉
神經網路和法學碩士優化軌蹟的標誌：長度、彎曲和死胡同[論文連結] 2024-03-12
西達克·帕爾·辛格；何波比；托馬斯·霍夫曼；伯恩哈德·舍爾科普夫
啟發式核心：理解預訓練語言模型中的子網路泛化[論文連結] 2024-03-06
阿迪蒂亞·巴斯卡；丹‧弗里德曼；陳丹琪
用於上下文學習的多頭 Softmax Attention 的訓練動態：湧現、收斂和最優性[論文連結] 2024-02-29
陳思宇;希瓊‧希恩；王天浩;楊卓然
變形金剛如何透過梯度下降學習因果結構[論文連結] 2024-02-22
埃沙安·尼查尼；亞歷克斯·達米安；賈森·D·李
NTK 機制中的 LoRA 訓練沒有虛假局部極小值[論文連結] 2024-02-19
張義正；傑森·D·李；歐內斯特·K·柳
關於預訓練-微調範式中跨任務線性的出現[論文連結] 2024-02-06
週展鵬;陳子君;陳宜蘭;張博;嚴俊馳
變形金剛透過逐步提升等級來學習[論文連結] 2023-12-10
恩里克·博瓦-阿德塞拉；埃泰·利特文；伊曼紐·阿貝；薩米·本吉奧；約書亞·蘇斯金德
機械分析微調對程式定義任務的影響[論文連結] 2023-11-21
薩米亞克耆那教；羅伯特‧柯克；艾克迪普·辛格·盧巴納；羅伯特·P·迪克；田中秀則；愛德華‧格雷芬施泰特；蒂姆·洛克塔舍爾；大衛·斯科特·克魯格
透過表示屬性連接預訓練語言模型和下游任務[論文連結] 2023-11-02
吳辰偉;霍爾頓李；榮格
Scan and Snap：了解 1-layer Transformer 中的訓練動態與代幣組成[論文連結] 2023-07-02
田遠東;王一平;陳貝迪;杜西蒙
基於核心的語言模型微調[論文連結] 2023-06-15
薩迪卡·馬拉迪；亞歷山大·韋蒂格；丁立宇;陳丹琪;桑吉夫·阿羅拉
預訓練模型微調的穩定性分析[論文連結] 2023-01-24
付子豪;安東尼·曼祖;奈傑爾·科利爾

學習/泛化/推理/弱到強泛化

^ back to top ^

論文從弱泛化到強泛化分析語言模型的學習能力和泛化表現。

紙張清單（點擊折疊/展開）

遞歸神經網路的泛化與風險界限[論文連結] 2024-11-05
程雪偉;黃克;馬樹傑
透過譜濾波進行序列預測中的可證明長度泛化[論文連結] 2024-11-01
安妮馬斯登；埃文·多加留；納曼·阿加瓦爾；陳欣怡;索丹尼爾；埃拉德·哈贊
RL-STaR：自學推理機強化學習架構的理論分析[論文連結] 2024-10-31
張富傑;李玉婷;施惠英；吳培元
鸚鵡螺混種：專家提升記憶力比推理更重要【論文連結】2024-10-24
薩米·杰拉西；克拉拉·莫里；大衛布蘭德豐布雷納；亞歷克斯·顧;尼基爾·維亞斯；尼基爾·阿南德；大衛·阿爾瓦雷斯·梅利斯；李遠志; Sham M.卡卡德；埃蘭·馬拉赫
數值精確度如何影響法學碩士的數學推理能力[論文連結] 2024-10-17
谷浩峰;楊凱;顧雲天;艾新月;羅勝傑;孫家成;荻和；李振國;王立偉
關於 Transformers 的秩相關泛化誤差界[論文連結] 2024-10-15
蘭訴張
單頭注意力中的良性過度擬合[論文連結] 2024-10-10
羅伊·馬根；尚書寧;徐志偉;史賓塞‧弗雷；胡偉;加爾瓦爾迪
概念學習與成分概括的動力學[論文連結] 2024-10-10
楊永義;弗朗西斯科核心公園；艾克迪普·辛格·盧巴納；大川瑪雅；胡偉;田中英德
使用經過訓練的兩層 ReLU 網路進行回歸的良性過度擬合[論文連結] 2024-10-08
樸俊亨；派崔克·布洛鮑姆；希瓦·普拉薩德·卡西維斯瓦納坦
透過良性過度擬合可證明弱到強泛化[論文連結] 2024-10-06
吳大衛；阿南特·薩海
理解 Transformers 長度泛化的正式架構[論文連結] 2024-10-03
黃心婷;楊安迪；薩特維克·巴塔米甚拉；亞什‧薩羅夫；安德烈亞斯·克雷布斯；周海蒂；普雷圖姆·納基蘭；麥可·哈恩
訓練有素的 Transformer 分類器概括並展示上下文中的良性過度擬合[論文連結] 2024-10-02
史賓塞‧弗雷；加爾瓦爾迪
大語言模型中的想法[論文連結] 2024-10-02
拉斐爾·薩爾法蒂；托妮·JB·劉；尼古拉斯·布爾；克里斯多福·J·厄爾斯
研究大型語言模型中模型複雜性的影響[論文連結] 2024-10-01
羅靜;王惠媛;黃蔚然
注意力機制Token選擇中的良性或非良性過擬合[論文連結] 2024-09-26
坂本慶太郎；佐藤一誠
透過學習動態了解組合映射的簡單性偏差[論文連結] 2024-09-15
伊人；丹妮卡·J·薩瑟蘭
語言模型中令人難忘的泛化[論文連結] 2024-09-03
張埃里克；萊瑟姆選擇；雅各·安德烈亞斯
最優弱到強學習的多面性[論文連結] 2024-08-30
米凱爾·莫勒·霍格斯加德；卡斯帕·格林·拉森；馬庫斯·恩格倫德·馬蒂亞森
語言模型物理：第2.2部分，如何從小學數學問題的錯誤中學習[論文連結] 2024-08-29
田野；徐子成;李遠志;朱澤元
透過組合進行分佈外泛化：變形金剛中透過感應頭的透鏡[論文連結] 2024-08-18
宋家軍;徐卓艷;鐘一橋
用DPO泛化偏好學習[論文連結] 2024-08-06
肖恩·姆；李逸軒
歸納法還是演繹法？重新思考法學碩士的基本推理能力[論文連結] 2024-07-31
程克偉;楊景峰;蔣浩明;王正陽;黃斌軒;李瑞瑞;李世陽;鄭莉;高一凡;李賢;丙寅;孫一舟