本文重点关注语言模型,特别是大型语言模型(LLM)的理论和实证分析。该列表中的论文通过理论分析、实证分析或两者的结合来研究语言模型的学习行为、泛化能力和其他属性。
此列表的范围:
此列表的局限性:
论文列表统计:
如果您有任何建议或想要做出贡献,请随时提出问题或拉取请求。
详细贡献方式请参见贡献指南。
您还可以在讨论中分享您的想法并与其他人讨论。
笔记
未分类版本请参考这里。
^ back to top ^
侧重于在大型语言模型 (LLM) 和基于 Transformer 的模型中观察到的不同现象、属性和行为的类别。
^ back to top ^
论文重点关注大型语言模型中上下文学习的理论和实证分析。
使用 Transformers 可证明的上下文学习:线性回归案例研究[论文链接] 2024-11-04
大克布;黄伟;安迪汉;二反田敦;铃木太二;张庆福;黄厚山
预训练的 Transformer 可以有效地学习上下文中的低维目标函数[论文链接] 2024-11-04
大子一里;宋玉金;铃木太二;吴丹尼
理解上下文学习与权重学习[论文链接] 2024-10-30
布莱恩·陈;陈欣怡;安德拉斯·杰尔吉;戴尔·舒尔曼斯
论深度和循环对于任务多样性情境学习的作用[论文链接] 2024-10-29
卡沙亚尔·加特米里;尼库尼·桑希;萨尚克·J·雷迪;斯蒂芬妮·耶格尔卡;桑吉夫·库马尔
Transformer Networks 中上下文学习的符号处理机制[论文链接] 2024-10-23
保罗·斯摩棱斯基;罗兰·费尔南德斯;周正浩;马蒂亚·奥珀;高剑锋
变形金刚可以在上下文中学习线性动力系统的行为吗? [论文链接]2024-10-21
乌斯曼·阿克拉姆;哈里斯·维卡洛
用于上下文学习的贝叶斯缩放定律[论文链接] 2024-10-21
阿雅曼·阿罗拉;丹·尤拉夫斯基;克里斯托弗·波茨;诺亚·D·古德曼
使用 Transformer 进行线性回归混合的可证明上下文学习[论文链接] 2024-10-18
金彦豪;克里希纳库玛·巴拉苏布拉曼尼安;赖丽凤
情境学习与奥卡姆剃刀[论文链接] 2024-10-17
埃里克·埃尔莫兹尼诺;汤姆·马蒂;特哈斯·卡塞蒂;里奥·加格农;萨萨克·米塔尔;马汉·法蒂;达尼娅·斯里达尔;纪尧姆·拉茹瓦
情境学习中的情境扩展与任务扩展[论文链接] 2024-10-16
阿米尔赫萨姆·阿贝德索尔坦; Adityanarayanan Radhakrishnan;吴景峰;米哈伊尔·贝尔金
绕过指数依赖:循环变压器通过多步梯度下降有效地学习上下文[论文链接] 2024-10-15
陈博;李晓宇;梁英玉;施珍美;赵松
变压器如何实现感应头:近似与优化分析【论文链接】2024-10-15
王明泽;余若曦;渭南E;吴磊
关于上下文分类的 Transformers 训练收敛性[论文链接] 2024-10-15
沉伟;周瑞达;杨静;沉丛
变形金刚在上下文中学习变阶马尔可夫链[论文链接] 2024-10-07
周瑞达;朝天;苏哈斯·迪加维
重温大型语言模型中的上下文学习推理电路[论文链接] 2024-10-06
叶风町;加藤真理子;酒井义宏;井上直也
训练有素的 Transformer 分类器概括并展示上下文中的良性过度拟合[论文链接] 2024-10-02
斯宾塞·弗雷;加尔瓦尔迪
Transformers 处理上下文线性回归中的内生性[论文链接] 2024-10-02
梁浩东;克里希纳库玛·巴拉苏布拉曼尼安;赖丽凤
揭晓感应头:变压器中可证明的训练动力学和特征学习[论文链接] 2024-09-10
陈思宇;希琼·希恩;王天浩;杨卓然
学习与检索:法学硕士回归中上下文示例的作用[论文链接] 2024-09-06
阿利亚克巴尔·纳法尔;克里斯汀·布伦特·维纳布尔;帕里莎·科贾姆希迪
Transformers 是 Minimax 最优非参数上下文学习器[论文链接] 2024-08-22
朱诺·金;中卷太;铃木太二
情境学习中的记忆[论文链接] 2024-08-21
沙赫里亚尔·戈尔钦;米哈伊·苏尔代亚努;史蒂文·贝萨德;爱德华多·布兰科;埃伦·里洛夫
In-Context Learning with Representations:经过训练的 Transformers 的上下文泛化[论文链接] 2024-08-19
童阳;黄宇;梁迎宾;池月杰
通过情境学习快速训练数据集归因[论文链接] 2024-08-14
米拉德·福图希;穆罕默德·塔哈·巴哈多里;奥卢瓦塞伊·费伊塞坦;佩曼·阿拉沙希;大卫·赫克曼
Transformers 如何在上下文学习中利用多头注意力?稀疏线性回归案例研究[论文链接] 2024-08-08
陈兴武;赵雷;邹涤凡
变形金刚是通用的情境学习器[论文链接] 2024-08-02
古谷隆; Maarten V. de Hoop;加布里埃尔·佩雷
多项式回归作为通过微调和对齐理解上下文学习的任务[论文链接] 2024-07-27
马克斯·威尔科森;莫滕·斯文德加德;里亚·多西;迪伦·戴维斯;雷亚维尔;阿南特·萨海
揭开情境学习:一个理解其工作机制的坐标系[论文链接] 2024-07-24
赵安豪;叶芳华;付金兰;沉晓宇
一层变压器可证明在上下文中学习一个最近邻[论文链接] 2024-07-24
李子豪;曹元;程高;何一涵;刘汉;杰森·M·克鲁索夫斯基;范建清;王梦迪
变压器什么时候可以在上下文中组合概括? [论文链接]2024-07-17
小林诚人;西蒙·舒格;亚西尔·阿克拉姆;弗洛里安·雷德哈特;约翰内斯·冯·奥斯瓦尔德;拉兹万·帕斯卡努;纪尧姆·拉茹瓦;若昂·萨克拉门托
In-Context In-Context Learning with Transformer Neural Processes [论文链接] 2024-06-19
马修·阿什曼;克里斯蒂安娜·迪亚科努;阿德里安·韦勒;理查德·特纳
探究大语言模型中情境学习的决策边界[论文链接] 2024-06-17
赵思燕;阮东;阿迪亚·格罗弗
State Soup:情境技能学习、检索和混合[论文链接] 2024-06-12
马切伊·皮奥罗;马切伊·沃齐克;拉兹万·帕斯卡努;约翰内斯·冯·奥斯瓦尔德;若昂·萨克拉门托
估算生成式AI的幻觉率[论文链接] 2024-06-11
安德鲁·杰森;尼古拉斯·贝尔特兰·贝莱斯;朱昆廷;斯维塔·卡勒卡尔;詹尼克·科森;亚林·加尔;约翰·P·坎宁安;大卫·布莱
BERT 是生成式情境学习器[论文链接] 2024-06-07
大卫塞缪尔
仅通过基于 SVD 的权重修剪来提高情境学习性能:理论视角[论文链接] 2024-06-06
姚新浩;胡晓琳;杨慎之;刘勇
语言模型在上下文中学习什么?结构化任务假设[论文链接] 2024-06-06
焦大莉;侯逸凡;姆林玛雅·萨坎;瑞恩·科特雷尔
上下文学习到线性注意力变换器中模型权重的精确转换[论文链接] 2024-06-05
布莱恩·K·陈;胡天阳;慧金;李惠宽;川口贤二
学习神通:模块化算术任务中情境学习和技能组合的出现[论文链接] 2024-06-04
何天宇;达希尔·多西;阿里特拉·达斯;安德烈·格罗莫夫
为什么更大的语言模型会以不同的方式进行上下文学习? [论文链接]2024-05-30
施珍美;魏俊毅;徐卓艳;梁英玉
情境学习足以满足法学硕士的教学要求吗? [论文链接]2024-05-30
赵浩;马克西姆·安德留申科;弗朗西斯科·克罗切;尼古拉斯·弗拉马里昂
学习正确的潜在变量是否一定会改善情境学习? [论文链接]2024-05-29
萨萨克·米塔尔;埃里克·埃尔莫兹尼诺;里奥·加格农;桑尼·巴德瓦吉;达尼娅·斯里达尔;纪尧姆·拉茹瓦
变形金刚中的情境学习理论[论文链接] 2024-05-29
王一飞;吴宇阳;魏泽明;斯蒂芬妮·耶格尔卡;王一森
自回归训练变压器中的台面优化:出现和能力[论文链接] 2024-05-27
郑晨宇;黄伟;王荣珍;吴国强;朱军;李崇轩
分类数据的 Transformer 上下文学习[论文链接] 2024-05-27
王亚伦;里卡多·赫纳奥;劳伦斯·卡林
上下文学习中 Transformers 的自动域适应[论文链接] 2024-05-27
畑谷龙一郎;松井幸太;今泉正明
统一情境学习的示范选择和压缩[论文链接] 2024-05-27
高俊
论文本生成的上下文学习的噪声鲁棒性[论文链接] 2024-05-27
高鸿福;张飞鹏;姜文宇;俊舒;冯正;魏洪欣
MLP 在上下文中学习[论文链接] 2024-05-24
威廉·L·唐;森吉兹·佩勒万
从上下文不确定性量化更好地理解上下文学习能力[论文链接] 2024-05-24
尚刘;蔡中泽;陈冠廷;李晓成
循环变压器可以学习实现多步梯度下降以进行上下文学习吗? [论文链接]2024-05-02
卡沙亚尔·加特米里;尼库尼·桑希;萨尚克·J·雷迪;斯蒂芬妮·耶格尔卡;桑吉夫·库马尔
Transformers 推出的函数类的上下文学习[论文链接] 2024-05-02
王志杰;姜波;李帅
长上下文模型的上下文学习:深入探索[论文链接] 2024-04-30
阿曼达·贝尔奇;毛尔·伊夫吉;乌里·阿隆;乔纳森·贝兰特;马修·葛姆雷;格雷厄姆·纽比格
感应头需要什么?情境学习回路及其形成的机理研究[论文链接] 2024-04-10
阿迪蒂亚·K·辛格;特德·莫斯科维茨;菲利克斯·希尔;斯蒂芬妮·CY·陈;安德鲁·萨克斯
ICL 需要注意吗?探索模型架构与情境学习能力的关系【论文链接】2024-04-01
伊万·李;南江;泰勒·伯格-柯克帕特里克
用于上下文学习的多头 Softmax Attention 的训练动态:涌现、收敛和最优性[论文链接] 2024-02-29
陈思宇;希琼·希恩;王天浩;杨卓然
变形金刚如何通过梯度下降学习因果结构[论文链接] 2024-02-22
埃沙安·尼查尼;亚历克斯·达米安;贾森·D·李
线性变压器块的上下文学习:MLP 组件和一步 GD 初始化的优点[论文链接] 2024-02-22
张瑞琪;吴景峰;彼得·L·巴特利特
识别语义归纳头以理解情境学习[论文链接] 2024-02-20
任杰;郭启鹏;杭彦;刘东瑞;邱西鹏;林大华
Transformers 如何进行上下文自回归学习? [论文链接]2024-02-08
迈克尔·E·桑德;拉贾·吉里斯;铃木太二;马修·布隆德尔;加布里埃尔·佩雷
曼巴能学会如何学习吗?情境学习任务的比较研究[论文链接] 2024-02-06
朴钟浩;朴在升;熊哲阳;李娜英;曹在雄;萨梅特·奥伊马克;李康旭;迪米特里斯·帕帕利奥普洛斯
情境学习的信息论分析[论文链接] 2024-01-28
洪俊全;杰森·D·李;齐磊;本杰明·范·罗伊
变形金刚中紧急情境学习的瞬态本质[论文链接] 2023-12-11
阿迪蒂亚·K·辛格;斯蒂芬妮·CY·陈;特德·莫斯科维茨;艾琳·格兰特;安德鲁·M·萨克斯;菲利克斯·希尔
具有不同数量最小值的上下文学习函数[论文链接] 2023-11-21
大卫·奥尼亚尼;王燕山
探索情境学习与指令调优之间的关系[论文链接] 2023-11-17
段涵予;唐一轩;易阳;艾哈迈德·阿巴西;谭嘉因
情境学习何时会出现不足以及为什么?规范-繁重任务的研究[论文链接] 2023-11-15
郝鹏;王晓志;陈建辉;李伟凯;齐云佳;王子穆;吴志立;曾凯胜;徐斌;侯雷;李娟子
情境学习具有泛化性,但并不总是稳健:以语法为例[论文链接] 2023-11-13
亚伦·穆勒;阿尔伯特·韦伯森;杰克逊·佩蒂;塔尔林岑
Transformers 学习实现预条件梯度下降以进行上下文学习[论文链接] 2023-11-09
安光俊;向诚;哈迪·达内什曼德;苏维里·斯拉
Transformers 学习上下文学习的高阶优化方法:线性模型的研究[论文链接] 2023-10-26
付德清;陈天琪;贾罗宾;瓦萨尔·夏兰
情境学习创建任务向量[论文链接] 2023-10-24
罗伊·亨德尔;莫·杰瓦;阿米尔·格洛伯森
大语言模型中的函数向量[论文链接] 2023-10-23
埃里克·托德;米利森特·L·李;阿纳布·森·夏尔马;亚伦·穆勒;拜伦·C·华莱士;大卫·鲍
使用 Transformer 进行上下文学习确实相当于对比学习模式[论文链接] 2023-10-19
任瑞峰;刘勇
训练有素的 Transformer 在上下文中学习线性模型[论文链接] 2023-10-19
张瑞琪;斯宾塞·弗雷;彼得·L·巴特利特
Transformer 如何在简单函数之外的上下文中学习?表征学习的案例研究[论文链接] 2023-10-16
郭天宇;胡伟;宋梅;王焕;熊才明;西尔维奥·萨瓦雷塞;于白
通过学习离散函数来理解 Transformers 和 LLM 中的情境学习[论文链接] 2023-10-13
萨特维克·巴塔米什拉;阿基尔·帕特尔;菲尔·布伦瑟姆;瓦伦·卡纳德
线性回归的上下文学习需要多少预训练任务? [论文链接]2023-10-13
吴景峰;邹迪凡;陈子祥;弗拉基米尔·布雷弗曼;顾泉泉;彼得·巴特利特
In-Context Learning学习标签关系但不是常规学习[论文链接] 2023-10-13
詹尼克·科森;亚林·加尔;汤姆·雷恩福斯
Transformers 的上下文融合[论文链接] 2023-10-13
黄宇;袁成;梁迎宾
通过贝叶斯棱镜进行情境学习[论文链接] 2023-10-13
马杜尔·潘瓦尔;卡比尔·阿胡贾;纳文·戈亚尔
预训练的 Transformer 真的通过梯度下降在上下文中学习吗? [论文链接]2023-10-12
沉凌风;阿尤什·米什拉;丹尼尔·卡沙比
情境学习学习什么以及如何学习?贝叶斯模型平均、参数化和泛化[论文链接] 2023-10-10
张玉峰;张峰卓;杨卓然;王兆然
将紧急情境学习解释为核回归[论文链接] 2023-10-05
池汉;王子琪;韩昭;恒吉
CausalLM 对于上下文学习来说并不是最佳的[论文链接] 2023-09-02
南丁;托默·莱文博伊姆;吴嘉琳;塞巴斯蒂安·古德曼;拉杜·索里卡特
梯度下降的一步被证明是具有一层线性自注意力的最佳上下文学习器[论文链接] 2023-07-07
阿尔温德·马汉卡利; Tatsunori B.桥本;马腾宇
Transformers 作为统计学家:可证明的上下文学习与上下文算法选择[论文链接] 2023-07-06
于白;范陈;王焕;熊才明;宋梅
变形金刚通过梯度下降在上下文中学习[论文链接] 2023-06-15
约翰内斯·冯·奥斯瓦尔德;艾温德·尼克拉斯森;埃托雷·兰达佐;若昂·萨克拉门托;亚历山大·莫德温采夫;安德烈·日莫吉诺夫;马克斯·弗拉迪米罗夫
Softmax回归的上下文学习和权重转移的紧密性[论文链接] 2023-04-26
李帅;赵松;于霞;童宇;周天一
一种内隐结构归纳的涌现情境学习理论[论文链接] 2023-03-14
迈克尔·哈恩;纳文·戈亚尔
情境学习的可学习性[论文链接] 2023-03-14
诺姆·维斯;约夫·莱文;阿姆农·沙舒亚
变形金刚可以在上下文中学到什么?简单函数类的案例研究[论文链接] 2023-01-14
希瓦姆·加尔格;季米特里斯·齐普拉斯;梁珀西;格雷戈里·瓦利安特
Transformer 的概括与上下文中存储的信息和权重中存储的信息不同[论文链接] 2022-10-13
斯蒂芬妮·CY·陈;伊什塔·达斯古普塔;金俊敬;达尚·库马兰;安德鲁·K·兰皮宁;菲利克斯·希尔
情境学习和归纳头【论文链接】2022-09-24
凯瑟琳·奥尔森;纳尔逊·埃尔哈格;尼尔·南达;尼古拉斯·约瑟夫;新达斯萨尔马;汤姆·赫尼根;本·曼;阿曼达·阿斯克尔;白云涛;陈安娜;汤姆·康纳利;黎明排水;深甘古利;扎克·哈特菲尔德-多兹;丹尼·埃尔南德斯;斯科特·约翰斯顿;安迪·琼斯;杰克逊·凯尼恩;莉安·洛维特;卡迈勒·恩杜斯;达里奥·阿莫代伊;汤姆·布朗;杰克·克拉克;贾里德·卡普兰;萨姆·麦坎利什;克里斯·奥拉
^ back to top ^
论文分析大型语言模型中的思想链现象,探索理论和实证视角。
法学硕士在接受快速思维与慢速思维训练时会发生什么:梯度视角[论文链接] 2024-10-31
李明;李艳红;周天一
思想链的理论理解:连贯推理和错误感知演示[论文链接] 2024-10-21
崔英谦;何鹏飞;唐咸丰;齐河;陈洛;唐吉良;月星
从稀疏依赖到稀疏注意力:揭示思想链如何增强 Transformer 样本效率[论文链接] 2024-10-07
文凯悦;张华庆;林洪洲;张敬兆
训练非线性变压器进行思想链推理:理论概括分析[论文链接] 2024-10-03
李洪康;王萌;路松涛;崔晓东;陈品玉
自回归+思想链(CoT)≃循环:循环在语言模型中的作用以及循环变压器的修订[论文链接] 2024-09-14
张翔;穆罕默德·阿卜杜勒-马吉德;拉克斯 VS 拉克什马南
揭示思维链提示方法的统计基础[论文链接] 2024-08-25
胡欣阳;张峰卓;陈思宇;杨卓然
解读影响思维链功效的因素:概率、记忆和噪声推理[论文链接] 2024-07-01
阿克萨拉·普拉巴卡尔;托马斯·L·格里菲斯; R·托马斯·麦考伊
论思想链推理的神经语言模型的表征能力[论文链接] 2024-06-20
弗朗茨·诺瓦克;阿内吉·斯维特;亚历山德拉·布托伊;瑞恩·科特雷尔
迭代头:思想链的机制研究【论文链接】2024-06-04
维维安·卡巴内斯;查尔斯·阿纳尔;瓦西姆·布阿齐兹;杨爱丽丝;弗朗索瓦·查顿;朱莉娅·肯佩
让我们逐点思考:Transformer 语言模型中的隐藏计算[论文链接] 2024-04-24
雅各布·普福;威廉·梅里尔;塞缪尔·R·鲍曼
思想链赋能变形金刚解决固有的系列问题[论文链接] 2024-02-20
李志远;刘红;周丹尼;马腾宇
揭示思想链背后的奥秘:理论视角[论文链接] 2023-12-22
谷浩峰;张博航;顾云天;叶浩天;荻和;王立伟
为什么大型语言模型能够产生正确的思维链? [论文链接]2023-10-20
拉苏尔·图图诺夫;安托万·格罗斯尼特;朱利叶斯·齐奥梅克;王军;海瑟姆·布阿马尔
大型语言模型如何实现思想链? [论文链接]2023-10-13
王逸群;胡思乐;张永刚;向田;刘雪松;陈耀武;徐申;叶洁平
思维链的变形金刚表现力【论文链接】2023-10-13
威廉·梅里尔;阿什什·萨巴瓦尔
^ back to top ^
研究语言模型中的幻觉现象的论文,包括理论和实证分析。
没有免费的午餐:学习非幻觉生成模型的基本限制[论文链接] 2024-10-24
吴长龙;阿南特·格拉玛;沃伊切赫·斯潘科夫斯基
共享想象力:法学硕士的幻觉相似[论文链接] 2024-07-23
周轶伦;熊才明;西尔维奥·萨瓦雷塞;吴建胜
估算生成式AI的幻觉率[论文链接] 2024-06-11
安德鲁·杰森;尼古拉斯·贝尔特兰·贝莱斯;朱昆廷;斯维塔·卡勒卡尔;詹尼克·科森;亚林·加尔;约翰·P·坎宁安;大卫·布莱
对新知识进行微调的法学硕士是否会助长幻觉? [论文链接]2024-05-09
佐里克·格赫曼;加尔尤娜;罗伊·阿哈罗尼;马坦·埃亚尔;阿米尔·费德尔;罗伊·雷查特;乔纳森·赫齐格
语言模型中非事实幻觉的机制[论文链接] 2024-03-26
雷宇;孟草;张志杰;岳东
不熟悉的微调示例控制语言模型如何产生幻觉[论文链接] 2024-03-08
凯蒂·康;埃里克·华莱士;克莱尔·汤姆林;阿维拉尔·库马尔;谢尔盖·莱文
作为警报的上下文清晰度:缓解幻觉的内部表征视角[论文链接] 2024-03-05
陈世奇;缪雄;刘俊腾;吴正轩;滕潇;高思阳;何俊贤
校准语言模型必须产生幻觉[论文链接] 2023-11-24
亚当·陶曼·卡莱;桑托什·S·文帕拉
幻觉无法回答的奇怪案例:在过度自信的大型语言模型的隐藏状态中寻找真相[论文链接] 2023-10-18
阿维夫·斯洛博德金;奥马尔·戈德曼;阿维·卡丘拉鲁;伊多·达甘;绍利·拉夫福格尔
^ back to top ^
分析大型语言模型中的反转诅咒现象的论文。
通过训练动力从理论上理解“逆转诅咒” [论文链接] 2024-05-07
朱翰林;黄百合;张少伦;迈克尔·乔丹;焦建涛;田远东;斯图尔特·拉塞尔
逆转诅咒:受过“A is B”训练的法学硕士无法学习“B is A” [论文链接] 2024-04-04
卢卡斯·伯格伦德;梅格·唐;马克斯·考夫曼;米基塔·巴莱斯尼;阿萨·库珀·斯蒂克兰;托马斯·科尔巴克;欧文·埃文斯
法学硕士理解逆向关系效率低下的调查[论文链接] 2023-12-01
齐成文;李博文;宾源汇;王柏林;李金阳;吴金旺;元君来利
语言模型物理学:第3.2部分,知识操纵[论文链接] 2023-09-25
朱泽元;李远志
逆转诅咒:您预测哪些代币是因式分解诅咒等的基础[论文链接] 2023-06-07
乌伊尔·基图尼;尼克拉斯·诺尔特;黛安·布沙古;阿迪娜·威廉姆斯;迈克·拉巴特;马克·易卜拉欣
^ back to top ^
论文探讨模型性能如何随着模型大小、数据大小或计算资源的变化而变化,以及意外能力的出现。
解锁缩放 1 位神经网络背后的理论[论文链接] 2024-11-03
马吉德·达利里;赵松;杨志文
预训练中的关键批量大小如何缩放? [论文链接]2024-10-29
张翰林;德彭·莫尔瓦尼;尼基尔·维亚斯;吴景峰;邹迪凡;乌达亚·盖伊;迪恩·福斯特;沙姆·卡卡德
语言模型中计算最优尺寸缩放、出现和高原的信息理论[论文链接] 2024-10-15
阿努吉·K·纳亚克;拉夫·瓦尔什尼
缩放定律估计搭车指南[论文链接] 2024-10-15
莱瑟姆·乔申;张阳;雅各布·安德烈亚斯
跨模型架构的缩放法则:大型语言模型中密集模型和 MoE 模型的比较分析[论文链接] 2024-10-08
王思琪;陈正宇;李蓓;何克庆;张敏;王金刚
摸索线性可分性的边缘[论文链接] 2024-10-06
阿隆·贝克;诺姆·莱维; Yohai Bar-西奈半岛
转移尺度规律的实证研究[论文链接] 2024-08-30
马修·巴尼特
涌现的渗滤模型:分析在形式语言上训练的 Transformers [论文链接] 2024-08-22
埃克迪普·辛格·卢巴纳;川口京吾;罗伯特·P·迪克;田中英德
学习率退火的缩放定律[论文链接] 2024-08-20
豪威组织;王维纳斯;鹿王
大型语言模型的性能规律[论文链接] 2024-08-19
吴楚涵;唐瑞明
信息论进展测量揭示Grokking是一个紧急相变[论文链接] 2024-08-16
肯佐·克劳;塞巴斯蒂亚诺·斯特拉马利亚;丹尼尔·马里纳佐
大语言猴子:通过重复采样扩展推理计算[论文链接] 2024-07-31
布拉德利·布朗;乔丹·尤拉夫斯基;瑞安·埃利希;罗纳德·克拉克; Quoc V. Le;克里斯托弗·雷;阿扎莉亚·米尔霍塞尼
非神经模型的出现:通过平均梯度外积进行模运算[论文链接] 2024-07-29
尼尔·马利纳尔;丹尼尔·比格尔霍尔;朱立斌; Adityanarayanan Radhakrishnan;帕特·潘迪特;米哈伊尔·贝尔金
探索LLM稳健性的扩展趋势[论文链接] 2024-07-25
尼古拉斯·豪;米哈乌·扎雅克;伊恩·麦肯齐;奥斯卡·霍林斯沃思;曾汤姆;皮埃尔·吕克·培根;亚当·格利夫
理解语言模型中规模、数据和偏差的相互作用:BERT 案例研究[论文链接] 2024-07-25
穆罕默德·阿里;斯瓦塔苏达熊猫;沉沁兰;迈克尔·威克;阿里·科布伦
用词汇扩展定律:更大的模型值得更大的词汇[论文链接] 2024-07-18
陶超凡;刘谦;窦龙旭;尼克拉斯·穆尼尼霍夫;中卫万;罗萍;林敏;黄毅
你为什么Grok? Grokking模加法的理论分析[论文链接] 2024-07-17
穆罕默德·阿明·穆哈马迪;李志远;吴磊;丹妮卡·J·萨瑟兰
通过微调预测新兴能力[论文链接] 2024-07-10
查理·维克多·斯内尔;埃里克·华莱士;丹·克莱因;谢尔盖·莱文
解决语言模型计算最优缩放中的差异[论文链接] 2024-06-25
托默·波里安;米切尔·沃茨曼;杰尼娅·吉采夫;路德维希·施密特;亚尔·卡蒙
线性复杂性语言模型的缩放定律[论文链接] 2024-06-24
沉旭阳;董莉;冷锐涛;甄琴;孙伟高;钟怡然
大型语言模型事实记忆的缩放定律[论文链接] 2024-06-22
星宇路;李晓楠;程沁源;丁凯;黄玄晶;邱西鹏
协调卡普兰和龙猫缩放定律[论文链接] 2024-06-12
蒂姆·皮尔斯;宋振业
Deep Grokking:深度神经网络的泛化能力会更好吗? [论文链接]2024-05-29
范思敏;拉兹万·帕斯卡努;马丁·贾吉
语言崩溃:(大)语言模型中的神经崩溃[论文链接] 2024-05-28
吴罗伯特;瓦尔丹·帕皮扬
超出固定训练时间的扩展法则和计算最优训练[论文链接] 2024-05-28
亚历山大·黑格勒;埃利·巴科什;阿特利·科森;卢布纳·本·阿拉尔;莱安德罗·冯·韦拉;马丁·贾吉
gzip 预测数据相关的缩放定律[论文链接] 2024-05-26
罗汉·潘迪
语言转换器中高维抽象阶段的出现[论文链接] 2024-05-24
郑艾米丽;迭戈·多伊莫;科伦丁·科瓦德克;尤里·马科科;玉玉;亚历山德罗·莱奥;马可·巴罗尼
从频率角度解释grokking训练神经网络的原理[论文链接] 2024-05-24
周张晨;张耀宇;徐志勤
Grokked Transformers 是隐式推理机:通向泛化边缘的机械之旅[论文链接] 2024-05-23
王博士;向月;于苏;孙焕
数据混合变得高效:语言模型预训练的双变量缩放定律[论文链接] 2024-05-23
策阁;马志坚;陈道元;李亚良;丁柏林
计算最优神经缩放定律的 4+3 阶段[论文链接] 2024-05-23
艾略特·帕克特;考特尼·帕克特;肖乐超;杰弗里·彭宁顿
大数定律的奴隶:生成语言模型中困惑度的渐近均分性质[论文链接] 2024-05-22
拉古·穆杜拜;泰勒·贝尔
量化大型语言模型中的出现[论文链接] 2024-05-21
陈航;杨新宇;朱家英;王文雅
超越缩放定律:用联想记忆理解变压器性能[论文链接] 2024-05-14
牛雪艳;白波;邓雷;韩伟
更多计算就是你所需要的[论文链接] 2024-04-30
郭振
出现和缩放定律的精确可解模型[论文链接] 2024-04-26
南润秀;纳亚拉·丰塞卡;李锡亨;阿德·路易斯
为什么小语言模型表现不佳?通过Softmax瓶颈研究语言模型饱和度[论文链接] 2024-04-11
内森·戈迪;埃里克·德拉·克莱杰里;伯努瓦·萨戈特
大规模探索
卢卡斯·林格尔
缩减规模生成语言模型中的涌现能力[论文链接] 2024-04-02
谢林·穆卡蒂拉;维杰塔·德什潘德;弗拉迪斯拉夫·利亚林;安娜·拉姆希斯基
从损失的角度理解语言模型的涌现能力[论文链接] 2024-03-23
杜正晓;曾敖汉;董玉晓;唐杰
揭开缩放定律之谜:第一部分[论文链接] 2024-03-21
苏慧;志田;沉晓宇;蔡训良
语言模型可以通过过度训练和下游任务可靠地扩展[论文链接] 2024-03-13
萨米尔·伊扎克·加德雷;乔治斯·斯米尔尼斯;维沙尔·香卡;苏钦·古鲁兰甘;米切尔·沃茨曼;邵儒林;让·梅尔卡特;亚历克斯·方;杰弗里·李;塞德里克·凯;瑞鑫;玛丽安娜·涅朱里娜;伊戈尔·瓦西列维奇;杰尼娅·吉采夫;亚历山德罗斯·G·迪马基斯;加布里埃尔·伊尔哈科;宋舒然;托马斯·科拉尔;亚尔·卡蒙;阿查尔·戴夫;莱因哈德·赫克尔;尼克拉斯·穆尼尼霍夫;路德维希·施密特
当Scaling遇见LLM Finetuning:数据、模型和Finetuning方法的影响【论文链接】2024-02-26
张彪;刘忠涛;科林·樱桃;奥尔罕·菲拉特
解读复杂模数运算中的 Grokked Transformers [论文链接] 2024-02-26
古田弘树;峰岸刚贵;岩泽佑介;松尾丰
尾巴的故事:模型崩溃作为尺度法则的改变[论文链接] 2024-02-10
埃尔维斯·多赫马托布;冯云珍;濮阳;弗朗索瓦·查顿;朱莉娅·肯佩
扩展数据受限的语言模型[论文链接] 2023-10-25
尼克拉斯·穆尼尼霍夫;亚历山大·M·拉什;波阿斯·巴拉克;特文·勒·斯考;亚历山大·皮克图斯;努瓦马内·塔齐;桑波·皮萨洛;托马斯·沃尔夫;科林·拉斐尔
缩小语言模型的成本:事实回忆在上下文学习之前恶化[论文链接] 2023-10-06
天津;诺兰·克莱门特;董鑫; Vaishnavh Nagarajan;迈克尔·卡宾;乔纳森·拉根-凯利;金塔尔·卡罗琳娜·吉盖特
大型语言模型的新兴能力是海市蜃楼吗? [论文链接]2023-04-28
瑞兰·谢弗;白兰度·米兰达;山米·科耶乔
训练计算最优的大型语言模型[论文链接] 2022-03-29
乔丹·霍夫曼;塞巴斯蒂安·博尔若;阿瑟·门施;埃琳娜·布哈茨卡娅;特雷弗·蔡;伊丽莎·卢瑟福;迭戈·德拉斯·卡萨斯;丽莎·安妮·亨德里克斯;约翰内斯·韦尔布尔;艾丹·克拉克;汤姆·亨尼根;埃里克·诺兰;凯蒂·米利肯;乔治·范·登·德里斯切;博格丹·达莫克;奥里莉亚·盖伊;西蒙·奥辛德罗;凯伦·西蒙尼扬;埃里希·埃尔森;杰克·W·雷;奥里奥尔乙烯树脂;洛朗·西弗雷
神经语言模型的缩放定律[论文链接] 2020-01-22
贾里德·卡普兰;萨姆·麦坎利什;汤姆·赫尼根;汤姆·B·布朗;本杰明国际象棋;重新赢得孩子;斯科特·格雷;亚历克·雷德福;杰弗里·吴;达里奥·阿莫代
^ back to top ^
论文重点关注大型语言模型如何存储、检索和利用知识,分析所涉及的记忆机制。
理解生成模型中记忆的几何框架[论文链接] 2024-10-31
布伦丹·利·罗斯;哈米德雷扎·卡姆卡里;吴童子;拉萨·侯赛因扎德;刘兆艳;乔治斯坦;杰西·C·克雷斯韦尔;加布里埃尔·洛艾萨-加内姆
变压器的最佳记忆能力[论文链接] 2024-09-26
梶冢东京;佐藤一诚
薛定谔记忆:大语言模型[论文链接] 2024-09-16
王伟;李庆
Self-Attention限制了基于Transformer的模型的工作记忆容量[论文链接] 2024-09-16
龚东宇;张涵涛
记忆力强,推理浅:kNN-LM 的局限性[论文链接] 2024-08-21
耿尚义;赵文婷;亚历山大·M·拉什
情境学习中的记忆[论文链接] 2024-08-21
沙赫里亚尔·戈尔钦;米哈伊·苏尔代亚努;史蒂文·贝萨德;爱德华多·布兰科;埃伦·里洛夫
概括第一,记忆第二?自然语言分类任务的记忆本地化[论文链接] 2024-08-09
维尔娜·丹克斯;伊万·季托夫
了解法学硕士的记忆:动态、影响因素和含义[论文链接] 2024-07-27
直到斯派克;穆罕默德·阿弗拉·汗;吴钦源;吠檀多南达;苏米·达斯;比什瓦米特拉·戈什;克里希纳·P·古马迪;埃维玛丽亚·特尔齐
揭秘大语言模型中的逐字记忆[论文链接] 2024-07-25
黄晶;杨迪一;克里斯托弗·波茨
从内部冲突到语言模型的语境适应[论文链接] 2024-07-24
萨拉·维拉·马扬诺维奇;余海恩;佩帕·阿塔纳索娃;玛丽亚·迈斯特罗;克里斯蒂娜·利奥马;伊莎贝尔·奥根斯坦
泛化与记忆:追踪语言模型的能力回到预训练数据[论文链接] 2024-07-20
安东尼斯·安东尼亚德斯;王欣怡;亚奈·埃拉扎尔;阿方索·阿马尤拉斯;阿隆·阿尔巴拉克;张克勋;王威廉
语言模型物理学:第3.1部分,知识存储和提取[论文链接] 2024-07-16
朱泽元;李远志
归纳头作为上下文学习中模式匹配的基本机制[论文链接] 2024-07-09
J.克罗斯比; E·舒托娃
法学硕士会梦见大象吗(当被告知不要这样做时)?变压器中的潜在概念关联和关联记忆[纸链接] 2024-06-26
Yibo Jiang;古瑟姆·拉金德兰(Goutham Rajendran); Pradeep Ravikumar;布赖恩·阿拉加姆
大型语言模型的事实记忆的缩放法律[纸质链接] 2024-06-22
xingyu lu;小李; Qinyuan Cheng; Kai ding; XUANJING HUANG;邱西鹏
连接点:LLM可以从不同的培训数据中推断和口头表达潜在结构[纸张链接] 2024-06-20
约翰内斯·特鲁特林;达米·崔(Dami Choi);扬·贝利(Jan Betley);塞姆·阿尼尔;塞缪尔·马克斯(Samuel Marks);罗杰·贝克·格罗斯(Roger Baker Grosse);欧文·埃文斯
揭示潜在记忆:在大语言模型中评估数据泄漏和记忆模式[Paper Link] 2024-06-20
阳光明媚的杜安; Mikail Khona; Abhiram Iyer; Rylan Schaeffer;伊拉·菲埃特(Ila r Fiete)
了解事实知识提取的填充[Paper Link] 2024-06-20
Gaurav Ghosal; tatsunori hashimoto;阿迪蒂·拉古纳坦
估计大语模型中的知识,而无需产生单个令牌[PAPER LINK] 2024-06-18
Daniela Gottesman; Mor Geva
大型语言模型如何在预处理过程中获取事实知识? [纸链接] 2024-06-17
Hoyeon Chang;金字公园; seonghyeon ye; Sohee Yang; Youngkyung Seo; Du-Seong Chang;徐敏俊
像金鱼一样,不要记住!缓解生成LLMS中的记忆[纸链接] 2024-06-14
Abhimanyu Hans; Yuxin Wen; Neel Jain; John Kirchenbauer; Hamid Kazemi; Prajwal Singhania; Siddharth Singh; Gowthami Somepalli;乔纳斯·格林(Jonas Geiping); Abhinav Bhatele;汤姆·戈德斯坦
经过验证的变压器的知识电路[纸张链接] 2024-05-28
Yunzhi Yao; Ningyu Zhang; Zekun XI;王梦茹; Ziwen Xu; Shumin Deng; Huajun Chen
变压器的上和下记忆容量界限用于下一句话预测[纸张链接] 2024-05-22
利亚姆·麦登(Liam Madden);柯蒂斯·福克斯; Christos Thrampoulidis
大语言模型中的记忆的多人分析[Paper Link] 2024-05-19
鲍恩·陈Namgi Han;米亚妈妈
语言模型的物理学:第3.3部分,知识能力缩放法律[纸质链接] 2024-04-08
Zeyuan Allen-Zhu;李远志
变压器中多头注意的记忆能力[纸链接] 2024-03-02
Sadegh Mahdavi; Renjie Liao; Christos Thrampoulidis
变压器的诞生:记忆观点[Paper Link] 2023-11-06
Alberto Bietti; Vivien Cabannes; Diane Bouchacourt;赫尔维·杰古莱昂·博图
语言模型的物理学:第3.2部分,知识操纵[纸质链接] 2023-09-25
Zeyuan Allen-Zhu;李远志
神经网络记忆可以定位吗? [纸链接] 2023-07-18
Pratyush maini;迈克尔·莫泽(Michael C. Mozer); Hanie Sedghi; Zachary C. Lipton; J. Zico Kolter; Chiyuan Zhang
跨神经语言模型量化记忆[Paper Link] 2022-02-15
尼古拉斯·卡利尼(Nicholas Carlini);达芙妮·伊波利托(Daphne Ippolito);马修·贾吉尔斯基(Matthew Jagielski);凯瑟琳·李; Florian Tramer; Chiyuan Zhang
^ back to top ^
论文讨论了培训过程的各个方面,包括优化,微调和大型语言模型的培训格局。
训练大规模变压器的全球收敛[纸链接] 2024-10-31
Cheng Gao; Yuan Cao; Zihao li; yihan他Mengdi Wang;刘; Jason Matthew Klusowski;江恩的粉丝
快速和缓慢思考的训练时,LLMS层发生了什么:梯度视角[纸张链接] 2024-10-31
明li; Yanhong Li;周天一
使用线性变压器的学习和转移稀疏上下文大型群岛[纸链接] 2024-10-30
Yunwei Ren; Zixuan Wang;贾森·D·李
变形金刚中的突然学习:矩阵完成的案例研究[纸张链接] 2024-10-29
Pulkit Gopalani; Ekdeep Singh Lubana;韦虎
洛拉vs完整的微调:等价的幻想[纸链接] 2024-10-28
Reece Shuttleworth;雅各布·安德里亚斯(Jacob Andreas);安东尼奥·托拉尔巴(Antonio Torralba);普拉秋莎·夏尔马
变压器学习动力学中的分布简单偏置[纸链接] 2024-10-25
Riccardo Rende;费德里卡·格雷斯(Federica Gerace);亚历山德罗·莱奥(Alessandro Laio);塞巴斯蒂安·戈德特(Sebastian Goldt)
积极休眠的注意力头:LLMS中的极端现象在机械上脱神秘[纸张链接] 2024-10-17
蒂亚尤·郭; Druv Pai;于白; Jiantao Jiao;迈克尔·乔丹;宋梅
变形金刚如何实施感应头:近似和优化分析[纸张链接] 2024-10-15
Mingze Wang;卢西·尤(Ruoxi Yu)韦南E; Lei Wu
成为变压器意味着什么?理论Hessian分析的见解[Paper Link] 2024-10-14
Weronika Ormaniec; Felix Dangel; Sidak Pal Singh
LLMS中的Adaptation Odyssey:为什么有时额外的预处理有时无法改善? [纸张链接] 2024-10-08
fıratÖncel; Matthias Bethge; Beyza Ermis; Mirco Ravanelli; Cem subakan; ÇağatayYıldız
关于具有标志梯度下降的两层变压器的优化和概括[Paper Link] 2024-10-07
Bingrui li;黄伟;安迪·汉; Zhanpeng Zhou;太极铃木;朱陈剑飞
了解热身稳定的学习率:河谷损失景观视角[纸张链接] 2024-10-07
Kaiyue Wen; Zhiyuan li;杰森·王(Jason Wang);大卫·霍尔;珀西·梁;马腾宇
训练非线性变压器以进行思考链推断:理论概括分析[纸张链接] 2024-10-03
Hongkang li;王萌; Songtao lu; Xiaodong cui; PIN-YU CHEN
对微调注意机制的理论见解:概括和优化[纸张链接] 2024-10-03
新闻Yao;洪吉恩;小胡子; Gengze Xu;刘勇
受过训练的变压器分类器概括并展示良性过度拟合中的贴纸[纸链接] 2024-10-02
Spencer Frei;加尔·瓦尔迪(Gal Vardi)
在训练后LLM中对合成数据的理论理解:反向斜角的观点[PAPER LINK] 2024-10-02
Zeyu Gan;刘勇
研究模型复杂性在大语言模型中的影响[纸质链接] 2024-10-01
罗静; Huiyuan Wang;威兰黄
贝尼(Benigh)或不限制注意力的注意机制[Paper Link] 2024-09-26
Keitaro Sakamoto; Issei Sato
训练变压器的非反应收敛用于下一句话预测[纸链接] 2024-09-25
Ruiquan Huang; Yingbin Liang;杨阳
大语言模型的优化超参数法[纸质链接] 2024-09-07
Xingyu Xie; kuangyu ding; Shuicheng Yan; Kim-chuan toh;天文魏
ADEMAMIX优化器:更好,更快,较旧的[纸链接] 2024-09-05
Matteo Pagliardini;皮埃尔·阿布林(Pierre Ablin);大卫·格兰吉尔(David Grangier)
聚类和对齐方式:了解模块化添加[纸链接]中的训练动力学2024-08-18
tiberiu musat
训练大规模变压器的全球收敛[纸链接] 2024-08
Cheng Gao; Yuan Cao; Zihao li; yihan他Mengdi Wang;刘; Jason M. Klusowski;江恩的粉丝
关于仅编码浅变压器的收敛[纸链接] 2024-08
旺托; fanghui liu; Grigorios G Chrysos;沃尔坎·塞弗尔
持续学习的参数效率微调:神经切线内核观点[纸张链接] 2024-07-24
刘;智智; Yunlong Yu; Jiale Cao; yanwei pang;洪港; Xuelong Li
LLM Finetuning的学习动力[纸张链接] 2024-07-15
yi ren; Danica J. Sutherland
解构是什么使语言模型的好优化器[Paper Link] 2024-07-10
Rosie Zhao;驱逐莫瓦尼; David Brandfonbrener; Nikhil Vyas;沙姆·卡卡德
教学调整期间的零弹性概括:相似性和粒度的见解[纸张链接] 2024-06-17
Bingxiang他;丁宁; Cheng Qian;贾邓ganqu cui; lifan yuan; Huan-ang Gao;陈慧敏;刘志远;孙茂松
从NTK的角度了解线性探测然后进行微调语言模型[纸张链接] 2024-05-27
akiyoshi comihari; Issei Sato
多头变压器动力学的无限限制[纸链接] 2024-05-24
布莱克·博德隆(Blake Bordelon); Hamza Tahir Chaudhry;森吉兹·佩勒万
通过训练动力学[纸张链接] 2024-05-07对“逆转诅咒”的理论理解
Hanlin Zhu; Baihe Huang; Shaolun Zhang;迈克尔·乔丹; Jiantao Jiao; Yuandong Tian;斯图尔特·拉塞尔
控制微调和转移学习的理论方法[纸张链接] 2024-04-16
Erkan Bayram; Shenyu Liu;穆罕默德·阿里·贝拉巴斯(Mohamed-Ali Belabbas); TamerBaşar
查看文本:指令调整语言模型比您想象的更强大的多项选择选择器[Paper Link] 2024-04-12
Xinpeng Wang; Chengzhi Hu; Bolei MA; PaulRöttger;芭芭拉木板
关于GPT模型的培训数据影响[纸张链接] 2024-04-11
liu; Yekun Chai; Shuohuan Wang;孙宇; Keze Wang;华吾
关于语言模型的合成数据的最佳实践和经验教训[Paper Link] 2024-04-11
卢博刘;杰里·韦; fangyu liu; Chenglei si;杨张;金门王;史蒂文郑; Daiyi Peng; diyi Yang;丹尼周安德鲁·戴
对合成数据的培训有多糟糕?语言模型崩溃的统计分析[纸张链接] 2024-04-07
Mohamed El Amine Seddik; Suei-Wen Chen; Soufiane Hayou;皮埃尔·尤斯夫(Pierre Youssef);梅鲁安·德巴
揭示微调大语言模型的概括能力[纸链接] 2024-03-14
海伦·杨(Haoran Yang)张雨萌; jiaqi Xu;洪uan lu; Pheng Ann Heng; WAI LAM
变压器变得稳定:语言模型的端到端信号传播理论[纸质链接] 2024-03-14
Akhil Kedia; Mohd Abbas Zaidi; Sushil Khyalia; Jungho Jung; Harshith Goka; Haejun Lee
线性注意是(也许)您需要的(了解变压器优化) [纸链接] 2024-03-13
Kwangjun Ahn;徐郑; Minhak歌; Chulhee Yun;阿里·贾达巴(Ali Jadbabaie); SUVRIT SRA
神经网络和LLM中优化轨迹的标志:长度,弯曲和死胡同[纸链接] 2024-03-12
Sidak Pal Singh;鲍比他托马斯·霍夫曼;伯恩哈德·舍尔科普夫
启发式核心:了解验证的语言模型中的子网概括[纸质链接] 2024-03-06
Adithya Bhaskar;丹·弗里德曼(Dan Friedman);陈丹琪
多头软磁性注意的训练动力学的培训动力学:出现,融合和最佳性[纸张链接] 2024-02-29
Siyu Chen; heejune sheen;天王; Zhuoran Yang
变压器如何通过梯度下降[纸链接]学习因果结构2024-02-22
Eshaan Nichani;亚历克斯·达米安(Alex Damian);贾森·D·李
NTK政权的LORA培训没有虚假的本地最小值[纸张链接] 2024-02-19
uijeong jang;杰森·李(Jason D. Lee);欧内斯特·K·瑞(Ernest K. Ryu)
关于在预处理范式[纸链接] 2024-02-06中的跨任务线性的出现
Zhanpeng Zhou; Zijun Chen; Yilan Chen;张博;严俊驰
变形金刚通过逐渐增加[纸张链接] 2023-12-10学习
Enric Boix-Adsera; Etai Littwin;伊曼纽尔·阿贝(Emmanuel Abbe); Samy Bengio;约书亚·苏斯金德(Joshua Susskind)
机械学分析微调对程序定义的任务的影响[纸质链接] 2023-11-21
Samyak Jain;罗伯特·柯克(Robert Kirk); Ekdeep Singh Lubana;罗伯特·迪克(Robert P. Dick);田中Hidenori;爱德华·格雷芬斯特(Edward Grefenstette);蒂姆·洛克舍尔(TimRocktäschel);大卫·斯科特·克鲁格(David Scott Krueger)
通过表示属性[Paper Link] 2023-11-02连接预训练的语言模型和下游任务
Chenwei Wu;霍顿·李; Rong GE
扫描和快照:1层变压器中的训练动力学和令牌组成[纸链接] 2023-07-02
Yuandong Tian; Yiping Wang; Beidi Chen;西蒙·杜
基于内核的语言模型微调[Paper Link] 2023-06-15
萨迪卡·马拉迪(Sadhika Malladi);亚历山大·韦蒂格(Alexander Wettig); dingli yu; Danqi Chen; Sanjeev Arora
微调预训练模型的稳定性分析[Paper Link] 2023-01-24
Zihao fu; Anthony Man-cho如此;奈杰尔·科利尔(Nigel Collier)
^ back to top ^
分析语言模型的学习能力和概括性能的论文,从弱到强烈的概括。
复发性神经网络的概括和风险范围[纸质链接] 2024-11-05
Xuewei Cheng; ke huang;舒吉·马
通过光谱滤波[纸链接] 2024-11-01在序列预测中可证明的长度泛化
安妮·马斯登; Evan Dogariu; Naman Agarwal; Xinyi Chen;丹尼尔·苏奥(Daniel Suo);埃拉德·哈赞
RL-Star:自学成才推理器的强化学习框架的理论分析[Paper Link] 2024-10-31
fu-chieh chang;李·李; Hui-Ying Shih; PEI-YUAN WU
鹦鹉的混合物:专家改善了记忆,而不是推理[纸张链接] 2024-10-24
萨米·杰拉西(Samy Jelassi);克拉拉·莫里(Clara Mohri); David Brandfonbrener;亚历克斯·古(Alex Gu); Nikhil Vyas;尼基尔·阿南德;大卫·阿尔瓦雷斯·梅利斯(David Alvarez-Melis); Yuanzhi li; Sham M. Kakade;埃兰·玛拉克(Eran Malach)
数值精度如何影响LLM的数学推理能力[Paper Link] 2024-10-17
Guhao Feng; Kai Yang; Yuntian gu; Xinyue ai; Shengjie Luo;吉安太阳;他Zhenguo li; Liwei Wang
在秩依赖性的概括误差范围[Paper Link] 2024-10-15
Lan V. Truong
良性过度拟合单头注意[纸张链接] 2024-10-10
罗伊·玛格(Roey Magen);避开尚; Zhiwei Xu; Spencer Frei;胡伟;加尔·瓦尔迪(Gal Vardi)
概念学习和组成概括的动力学[论文链接] 2024-10-10
Yongyi Yang;核心弗朗西斯科公园; Ekdeep Singh Lubana;玛雅·奥卡瓦(Maya Okawa);胡伟;田中英德
通过训练有训练的两层relu网络[纸链接] 2024-10-08
Junhyung公园;帕特里克·布洛鲍姆(Patrick Bloebaum); Shiva Prasad Kasiviswanathan
通过良性过度拟合[Paper Link] 2024-10-06,可证明的弱到很概括
大卫X. Wu;阿南特·萨海
一个正式的框架,用于理解变压器中长度概括[纸张链接] 2024-10-03
Xinting Huang;安迪杨; Satwik Bhattamishra; Yash Sarrof; Andreas Krebs; Hattie Zhou; nakkiran Preetum;迈克尔·哈恩
受过训练的变压器分类器概括并展示良性过度拟合中的贴纸[纸链接] 2024-10-02
Spencer Frei;加尔·瓦尔迪(Gal Vardi)
大语言模型中的思维线[纸链接] 2024-10-02
RaphaëlSarfati; Toni JB Liu;尼古拉斯·布尔(NicolasBoullé);克里斯托弗·J·伯爵
研究模型复杂性在大语言模型中的影响[纸质链接] 2024-10-01
罗静; Huiyuan Wang;威兰黄
良性或不偶然性的注意力选择机制[Paper Link] 2024-09-26
Keitaro Sakamoto; Issei Sato
通过学习动力学了解简单性偏见[纸张链接] 2024-09-15
yi ren; Danica J. Sutherland
语言模型中的难忘概括[Paper Link] 2024-09-03
埃里克·张;选择的leshem;雅各布·安德烈亚斯(Jacob Andreas)
最佳弱到较强学习的许多面孔[纸张链接] 2024-08-30
MikaelMøllerHøgsgaard; Kasper Green Larsen; Markus Engelund Mathiasen
语言模型的物理学:第2.2部分,如何从成绩数学问题上学习[纸张链接] 2024-08-29
天ye; Zicheng Xu; Yuanzhi li;朱泽元
通过组成的分布概括:通过变压器中的感应头镜头[纸链接] 2024-08-18
Jijun Song; Zhuoyan Xu; Yiqiao Zhong
关于使用DPO [Paper Link] 2024-08-06的偏好学习的概括
肖恩·伊姆;李逸轩
感应还是演绎?重新考虑LLM的基本推理能力[纸张链接] 2024-07-31
Kewei Cheng; Jingfeng Yang; Haoming Jiang;王王; Binxuan Huang; ruirui li; Shiyang li;李李; Yifan Gao;西安; bing yin; Yizhou Sun