Awesome LLM Uncertainty Reliability Robustness下载 - Awesome LLM Uncertainty Reliability Robustness源代码下载

Awesome LLM Uncertainty Reliability Robustness

Ai源码

1.0.0

下载

Awesome-LLM-不确定性-可靠性-稳健性

这个名为UR2-LLMs 的存储库包含有关大型语言模型中的不确定性、可靠性和鲁棒性的资源和论文的集合。

“大型语言模型的可靠性有限、理解能力有限、范围有限，因此需要人工监督。”- Michael Osborne，牛津大学工程科学系机器学习教授，2023 年 1 月 25 日

欢迎分享您在该领域的论文、想法和想法！

内容

Awesome-LLM-不确定性-可靠性-稳健性
- 内容
资源
- 介绍性帖子
- 技术报告
- 教程
文件
- 评估与调查
- 不确定
  - 不确定性估计
  - 校准
  - 歧义
  - 信心
  - 主动学习
- 可靠性
  - 幻觉
  - 诚实
  - 推理
  - 及时调整、优化和设计
  - 指令和 RLHF
  - 工具和外部API
  - 微调
- 鲁棒性
  - 不变性
  - 分布转移
  - 分布外
  - 适应和推广
  - 对抗性的
  - 归因
  - 因果关系

资源

介绍性帖子

GPT 是一种不可靠的信息存储
诺布尔·阿克森
[关联]
2023 年 2 月 20 日

“滥用”大型语言模型和机器翻译的未来
阿尔勒洛梅尔
[关联]
2022 年 12 月 20 日

大型语言模型：基础知识及其应用
玛戈·波达
[关联]
2023 年 2 月 9 日

快速工程：提高响应和可靠性
彼得·福伊
[关联]
2023 年 3 月 19 日

OpenAI 的提高可靠性技术指南
开放人工智能
[Github]
2023 年 3 月 18 日

GPT/校准标签
格温·布兰文
[关联]

及时工程
翁莉莲
[关联]

LLM 支持的自主代理
翁莉莲
[关联]

学习提示的可靠性
[关联]

构建用于生产的法学硕士应用程序
奇普·惠恩
[关联]
2023 年 4 月 11 日

技术报告

GPT-4 技术报告
开放人工智能
arXiv 2023。[论文][食谱]
2023 年 3 月 16 日

GPT-4系统卡
开放人工智能
arXiv 2023。 [论文] [Github]
2023 年 3 月 15 日

教程

自然语言处理的不确定性估计
亚当·费什、贾罗宾、塔尔·舒斯特
COLLING 2022。[网站]

文件

评估与调查

更广泛、更深层次的 LLM 网络是更公平的 LLM 评估者
张兴华、于博文、于海洋、吕阳宇、刘廷文、黄飞、徐洪波、李永斌
arXiv 2023。[论文][Github]
2023 年 8 月 3 日

大型语言模型评估调查
常宇鹏、王旭、王金东、吴元、朱凯杰、陈浩、杨林一、易晓源、王存祥、王一东、叶伟、张越、常毅、于飞利、杨强、谢兴
Arxiv 2023。[论文][Github]
2023 年 7 月 6 日

DecodingTrust：GPT 模型可信度的综合评估
王博鑫、陈伟新、裴恒志、谢楚林、康敏彤、张晨辉、徐车健、熊子迪、Ritik Dutta、Rylan Schaeffer、Sang T. Truong、Simran Arora、Mantas Mazeika、Dan Hendrycks、Zinan Lin、Yu Cheng、 Sanmi Koyejo、黎明宋、李博
Arxiv，2023。[论文][Github][网站]
2023 年 6 月 20 日

我们信任 ChatGPT？测量和表征 ChatGPT 的可靠性
沉心悦、陈泽元、Michael Backes、张阳
arXiv，2023。[论文]
2023 年 4 月 18 日

在实践中利用法学硕士的力量：对 ChatGPT 及其他内容的调查
杨景峰、金红叶、唐瑞祥、韩笑天、冯启章、姜浩明、尹冰、胡夏
arXiv 2023。[论文][Github]
2023 年 4 月 27 日

GPT-3.5 对于前辈来说有多强大？语言理解任务的综合研究
陈玄霆、叶俊杰、祖灿、徐诺、郑锐、彭敏龙、周杰、陶桂、张琪、黄轩静
arXiv 2023。[论文][Github]
2023 年 3 月 1 日

语言模型的整体评估
Percy Liang、Rishi Bommasani、Tony Lee、Dimitris Tsipras、Dilara Soylu、Michihiro Yasunaga、Yian Zhang、Deepak Narayanan、吴玉怀、Ananya Kumar、Benjamin Newman、Binhang Yuan、Bobby Yan、Ce Chang、Christian Cosgrove、Christopher D. Manning、克里斯托弗·雷、戴安娜·阿科斯塔-纳瓦斯、德鲁·A·哈德森、埃里克·泽利克曼、埃辛Durmus, Faisal Ladhak, Frieda Rong, Hongyu Ren, Huaxiu Yao, Jue Wang, Keshav Santhanam, Laurel Orr, Lucia Cheng, Mert Yuksekgonul, Mirac Suzgun, Nathan Kim, Neel Guha, Niladri Chatterji, Omar Khattab, Peter Henderson, 黄干, Ryan Chi、Sang Michael Xie、Shibani Santurkar、Surya Ganguli、桥本龙典、 Thomas Icard、张天一、Vishrav Chaudhary、William Wang、李学晨、麦一帆、张宇辉、Yuta Koreeda
arXiv 2022。[论文][网站][Github][博客]
2022 年 11 月 16 日

提示 GPT-3 是可靠的
司成磊、甘哲、杨正元、王硕航、王剑锋、Jordan Boyd-Graber、王丽娟
ICLR 2023。 [论文] [Github]
2022 年 10 月 17 日

Plex：使用预训练的大型模型扩展实现可靠性
Dustin Tran、Jeremiah Liu、Michael W. Dusenberry、Du Phan、Mark Collier、任杰、韩克航、Zi Wang、Zelda Mariet、Hu Huiyi Hu、Neil Band、Tim GJ Rudner、Karan Singhal、Zachary Nado、Joost van Amersfoort、Andreas基尔希、鲁道夫·杰纳顿、尼瑟姆·塞恩、袁洪林、凯利·布坎南、凯文·墨菲、D.斯卡利、亚林·加尔、祖宾·加拉玛尼、贾斯珀·斯诺克、巴拉吉·拉克什米纳拉亚南
arXiv 2022。[论文]
2022 年 7 月 15 日

语言模型（大多数）知道他们所知道的
索拉夫·卡达瓦斯 / 汤姆·康纳利 / 阿曼达·阿斯克尔 / 汤姆·赫尼汉 / 道恩·德雷恩 / 伊桑·佩雷斯 / 尼古拉斯·席弗 / 扎克·哈特菲尔德-多兹 / 诺瓦·达斯萨玛 / 伊莱·特兰-约翰逊 / 斯科特·约翰斯顿 / 谢尔·埃尔-肖克 / 安迪·琼斯 / 尼尔森·埃尔哈奇 / 特里斯坦·休姆, 陈安娜, 白云涛, Sam Bowman, Stanislav Fort, Deep Ganguli, Danny埃尔南德斯、乔什·雅各布森、杰克逊·科尼恩、肖娜·克拉维克、丽安·洛维特、卡迈勒·恩杜斯、凯瑟琳·奥尔森、萨姆·林格、达里奥·阿莫代、汤姆·布朗、杰克·克拉克、尼古拉斯·约瑟夫、本·曼、萨姆·麦坎迪什、克里斯·奥拉、贾里德·卡普兰
arXiv 2022。[论文]
2022 年 7 月 11 日

增强语言模型：调查
Grégoire Mialon、Roberto Dessì、Maria Lomeli、Christoforos Nalmpantis、Ram Pasunuru、Roberta Raileanu、Baptiste Rozière、Timo Schick、Jane Dwivedi-Yu、Asli Celikyilmaz、Edouard Grave、Yann LeCun、Thomas Scialom
arXiv 2023。[论文]
2023 年 2 月 15 日

NLG 系统评估指标调查
Ananya B. Sai、阿卡什·库马尔·莫汉库马尔、Mitesh M. Khapra
ACM 计算调查，2022 年。[论文]
2022 年 1 月 18 日

NL-Augmenter：任务敏感的自然语言增强框架
Kaustubh D. Dhole 等人。
ACL 2021。[论文][Github]
2021 年 12 月 6 日

TextFlint：自然语言处理的统一多语言鲁棒性评估工具包
陶桂等人。
arXiv 2021。[论文][Github]
2021 年 3 月 21 日

Robustness Gym：统一 NLP 评估格局
Karan Goel、Nazneen Rajani、Jesse Vig、Samson Tan、Jason Wu、Stephan Cheng、Caiming Xiong、Mohit Bansal、Christopher Ré
ACL 2021。[论文][Github]
2021 年 1 月 13 日

超越准确性：使用 CheckList 对 NLP 模型进行行为测试
Marco Tulio Ribeiro、吴同霜、Carlos Guestrin、Sameer Singh
ACL 2020。[论文][Github]
2020 年 5 月 8 日

不确定

不确定性估计

BLoB：大型语言模型的反向传播贝叶斯低阶自适应
王一斌、石海洲、韩立功、Dimitris Metaxas、王浩
arXiv 2024。[论文]
2024 年 6 月 18 日

法学硕士的不确定性估计和量化：一种简单的监督方法
刘林宇、潘宇、李晓成、陈冠廷
arXiv 2024。[论文]
2024 年 4 月 24 日

将注意力转向相关性：大型语言模型的不确定性估计
段锦浩、程浩、王世奇、Alex Zavalny、王辰安、徐仁静、Bhavya Kailkhura、徐凯迪
arXiv 2023。[论文]
2023 年 10 月 9 日

三思而后行：大型语言模型不确定性测量的探索性研究
黄宇恒、宋嘉阳、王志杰、赵胜明、陈华明、徐觉飞、马磊
arXiv 2023。[论文]
2023 年 7 月 16 日

量化大型语言模型自然语言解释中的不确定性
Sree Harsha Tanneru、Chirag Agarwal、Himabindu Lakkaraju
arXiv 2023。[论文]
2023 年 11 月 6 日

共形自回归生成：具有覆盖保证的波束搜索
尼古拉斯·多伊奇曼、马文·艾伯茨、玛丽亚·罗德里格斯·马丁内斯
arXiv 2023。[论文]
2023 年 9 月 7 日

量化任何语言模型答案的不确定性并增强其可信度
陈久海、乔纳斯·穆勒
arXiv 2023。[论文]
2023 年 8 月 30 日

自然语言生成的不确定性：从理论到应用
乔里斯·班恩、尼科·达海姆、叶夫根尼娅·伊利亚、丹尼斯·乌尔默、李豪星、拉奎尔·费尔南德斯、芭芭拉·普朗克、里克·森里奇、Chrysoula Zerva、威尔克·阿齐兹
arXiv 2023。[论文]
2023 年 7 月 28 日

充满信心地生成：黑盒大型语言模型的不确定性量化
林臻、Shubhendu Trivedi、孙继猛
arXiv 2023。 [论文] [Github]
2023 年 5 月 30 日

基于概念的人工智能系统中的人类不确定性
凯瑟琳·M·柯林斯、马修·巴克、马特奥·埃斯皮诺萨·扎伦加、纳维恩·拉曼、乌芒·巴特、马特贾·贾姆尼克、伊利亚·苏霍卢茨基、阿德里安·韦勒、克里希那穆西·德维约坦
arXiv 2023。[论文]
2023 年 3 月 22 日

穿越灰色地带：语言模型中过度自信和不确定性的表现
凯特琳·周、丹·尤拉夫斯基、桥本龙典
arXiv 2023。[论文]
2023 年 2 月 25 日

DEUP：直接认知不确定性预测
Salem Lahlou、Moksh Jain、Hadi Nekoei、Victor Ion Butoi、Paul Bertin、Jarrid Rector-Brooks、Maksym Koratoryov、Yoshua Bengio
TMLR 2023。[论文]
2023 年 2 月 3 日

Seq2seq 图解析的组合不确定性量化
Zi Lin、Du Phan、Panupong Pasupat、Jeremiah Zhe Liu、Jingbo Shang
ICLR 2023。[论文]
2023 年 2 月 1 日

通过组合不确定性量化进行鲁棒自回归图解析的神经符号推理
子林、刘杰利、尚静波
EMNLP 2022。[论文]
2023 年 1 月 16 日

教学模型用言语表达不确定性
斯蒂芬妮·林、雅各布·希尔顿、欧文·埃文斯
TMLR 2022。 [论文] [Github] [TMLR] [幻灯片]
2022 年 5 月 28 日

语义不确定性：自然语言生成中不确定性估计的语言不变性
洛伦兹·库恩、亚林·加尔、塞巴斯蒂安·法夸尔
ICLR 2023。[论文]
2022 年 2 月 19 日

用于小样本语言模型微调的冷启动数据选择：一种基于提示的不确定性传播方法
于悦、张荣志、徐冉、张洁宇、沉家明、张超
arXiv 2022。[论文][Github]
2022 年 9 月 15 日

通过认知神经网络微调语言模型
伊恩·奥斯班德、赛义德·穆罕默德·阿斯加里、本杰明·范·罗伊、纳特·麦卡利斯、约翰·阿斯兰尼德斯、杰弗里·欧文
arXiv 2022。[论文][Github]
2022 年 11 月 3 日

使用预训练语言模型进行不确定性量化：大规模实证分析
肖宇鑫、保罗·蒲良、Umang Bhatt、Willie Neiswanger、Ruslan Salakhutdinov、Louis-Philippe Morency
EMNLP 2022（调查结果）。 [论文][Github]
2022 年 10 月 10 日

语言奖励模型的不确定性估计
亚当·格利夫、杰弗里·欧文
arXiv 2022。[论文]
2022 年 3 月 14 日

文本回归预训练模型的不确定性估计和减少
王玉霞、丹尼尔·贝克、蒂莫西·鲍德温、卡琳·弗斯普尔
TACL 2022。[论文]
2022年6月

自回归结构化预测中的不确定性估计
安德烈·马里宁、马克·盖尔斯
ICLR 2021。[论文]
2020 年 2 月 18 日

神经机器翻译的无监督质量估计
Marina Fomicheva、孙硕、Lisa Yankovskaya、Frédéric Blain、Francisco Guzmán、Mark Fishel、Nikolaos Aletras、Vishrav Chaudhary、Lucia Specia
TACL 2020。[论文][数据集]
2020 年 5 月 21 日

分析神经机器翻译中的不确定性
迈尔·奥特、迈克尔·奥利、大卫·格兰吉尔、马克·奥雷利奥·兰扎托
ICML 2018。 [论文]
2018年

校准

批量校准：重新思考情境学习和即时工程的校准
周涵、万星辰、Lev Proleev、Diana Mincu、Jilin Chen、Katherine Heller、Subhrajit Roy
ICLR 2024。[论文]2024 年 1 月 24 日

大型语言模型知道它们不知道的东西吗？
尹章跃、孙秋实、郭启鹏、吴嘉文、邱西鹏、黄轩静
arXiv 2023。[论文]2023 年 5 月 29 日

只需要求校准：从根据人类反馈进行微调的语言模型中获取校准置信度分数的策略
凯瑟琳·田、埃里克·米切尔、艾伦·周、阿奇特·夏尔马、拉斐尔·拉法洛夫、姚华秀、切尔西·芬恩、克里斯托弗·D·曼宁
arXiv 2023。[论文]
2023 年 5 月 24 日

实现可靠的错误信息缓解：泛化、不确定性和 GPT-4
凯林·佩尔林、梅丽娜·雷克索普罗德乔、迦勒·古普塔、乔尔·克里斯托夫、雷哈内·拉巴尼
arXiv 2023。[论文]
2023 年 5 月 24 日

校准解释：语义解析中的置信度估计
埃利亚斯·斯坦格尔-埃斯金、本杰明·范·杜尔姆
arXiv 2022。 [论文] [Github]
2022 年 11 月 14 日。

校准序列似然改善条件语言生成
姚昭、Misha Khalman、Rishabh Joshi、Shashi Narayan、Mohammad Saleh、Peter J. Liu
ICLR 2023。[论文]
2022 年 9 月 30 日

校准选择性分类
亚当·费什、托米·雅科拉、雷吉娜·巴尔兹莱
TMLR 2022。[论文]
2022 年 8 月 25 日

通过语言校准减少会话代理的过度自信
萨布丽娜·J·米尔克、阿瑟·斯兹拉姆、艾米丽·迪南、Y-Lan Boureau
NAACL 2022。[论文]
2022 年 6 月 22 日

重新审视校准：以问答为例
司成雷、赵晨、Sewon Min、Jordan Boyd-Graber
EMNLP 2022 调查结果。 [纸]
2022 年 5 月 25 日

通过不确定性进行协作神经符号图语义解析
子林、刘杰利、尚静波
ACL 指法 2022。[论文]
2022 年 5 月 22 日

不确定性感知机器翻译评估
Taisiya Glushkova、Chrysoula Zerva、Ricardo Rei、André FT Martins
EMNLP 2021。[论文]
2021 年 9 月 13 日

使用前校准：提高语言模型的小样本性能
托尼·赵、埃里克·华莱士、石峰、丹·克莱因、萨米尔·辛格
ICML 2021。[论文][Github
2021 年 2 月 19 日

我们如何知道语言模型何时知道？问答语言模型的标定
蒋正宝、荒木润、丁海波、Graham Neubig
TACL 2021。[论文][Github]
2020 年 12 月 2 日

预训练变压器的校准
施瑞·德赛，格雷格·德雷特
EMNLP 2020。[论文][Github]
2020 年 5 月 17 日

歧义

澄清之树：用检索增强的大型语言模型回答模棱两可的问题
金江宇、金成东、全秉国、朴俊石、姜在宇
EMNLP 2023。[论文][Github]
2023 年 10 月 23 日

有选择地回答模棱两可的问题
Jeremy R. Cole、Michael JQ Zhang、Daniel Gillick、Julian Martin Eisenschlos、Bhuwan Dhingra、Jacob Eisenstein arXiv 2023。 [论文]
2023 年 5 月 24 日

我们担心语言模型无法模拟歧义 Alisa Liu、Zhaofeng Wu、Julian Michael、Alane Suhr、Peter West、Alexander Koller、Swabha Swayamdipta、Noah A. Smith、Yejin Choi
arXiv 2023。[论文][Github]
2023 年 4 月 24 日

人类和语言模型中的任务歧义
亚历克斯·塔姆金、库纳尔·汉达、阿瓦什·什雷斯塔、诺亚·古德曼
ICLR 2023。[论文][Github]
2022 年 12 月 20 日

CLAM：使用生成语言模型选择性澄清模糊问题
洛伦兹·库恩、亚林·加尔、塞巴斯蒂安·法夸尔
arXiv 2022。[论文]
2022 年 12 月 15 日

如何处理会话式搜索中的模糊查询：技术、方法、工具和挑战的调查
Kimiya Keyvan、黄向吉
ACM 计算调查，2022 年。[论文]
2022 年 12 月 7 日

大型语言模型的协助
德米特里·克拉申尼尼科夫、叶戈尔·克拉申尼尼科夫、大卫·克鲁格
NeurIPS MLSW 研讨会 2022。[论文]
2022 年 12 月 5 日

鸡为什么过马路？重新表述和分析 VQA 中的歧义问题
埃利亚斯·斯坦格尔-埃斯金、希梅纳·瓜拉尔-布拉斯科、周毅、本杰明·范·杜尔姆
arXiv 2022。[论文][Github]
2022 年 11 月 14 日

Abg-CoQA：澄清会话问答中的歧义
郭美琪、张明达、Siva Reddy、Malihe Alikhani
AKBC 2021。[论文]
2021 年 6 月 22 日

信心

大型语言模型中的置信能力差距：一项认知研究
Aniket Kumar Singh、Suman Devkota、Bishal Lamichane、Uttam Dhakal、Chandra Dhakal
arXiv 2023。[论文]
2023 年 9 月 28 日

数量优势：通过即时一致估计大型语言模型的置信度
格温妮丝·波蒂略·怀特曼 / 亚历山德拉·德露西亚 / 马克·德雷泽
ACL TrustNLP 研讨会 2023。[论文]
2023 年 7 月 1 日

检测 LLM（例如 ChatGPT）生成的内容有哪些不同方法？它们如何工作和有何不同？
塞巴斯蒂安·拉斯卡
[链接] [GPTZero]
2023 年 2 月 1 日

DetectGPT：使用概率曲率进行零样本机器生成的文本检测
埃里克·米切尔、李允浩、亚历山大·卡扎茨基、克里斯托弗·D·曼宁、切尔西·芬恩
arXiv 2023。[论文][网站]
2023 年 1 月 26 日

自信的自适应语言建模
塔尔·舒斯特、亚当·费什、杰伊·古普塔、莫斯塔法·德哈尼、达拉·巴里、Vinh Q. Tran、Yi Tay、唐纳德·梅茨勒
NeurIPS 2022。[论文]2022 年 10 月 25 日

保形风险控制
阿纳斯塔西奥斯·N·安杰洛普洛斯、史蒂芬·贝茨、亚当·费什、雷丽华、塔尔·舒斯特
arXiv 2022。[论文][Github]
2022 年 8 月 4 日

主动学习

自然语言处理主动学习综述
张志松、艾玛·斯特鲁贝尔、爱德华·霍维
EMNLP 2022。[论文][Github]
2022 年 10 月 18 日

大型语言模型的思想链主动提示
刁世哲、王鹏程、林勇、张桐
arXiv 2023。[论文][Github]
2023 年 2 月 23 日

用于微调语言模型的低资源交互式主动标签
前川征尔、张丹、Hannah Kim、Sajjadur Rahman、Estevan Hruschka
EMNLP 2022 年调查结果。[论文]
2022 年 12 月 7 日

您可以通过使用域外数据来减少标记吗？具有少量指令的主动和迁移学习
Rafal Kocielnik、Sara Kangaslahti、Shrimai Prabhumoye、Meena Hari、R. Michael Alvarez、Anima Anandkumar
NeurIPS 研讨会 2022。[论文]
2022 年 11 月 21 日

AfroLM：基于自主学习的 23 种非洲语言的多语言预训练语言模型
Bonaventure FP Dossou、Atnafu Lambebo Tonja、Oreen Yousuf、Salomey Osei、Abigail Oppong、Iyanuoluwa Shode、Oluwabusayo Olufunke Awoyomi、Chris Chininye Emezue
EMNLP 2022。[论文][Github]
2022 年 11 月 7 日

主动学习帮助预训练模型学习预期任务
亚历克斯·塔姆金、达特·范·阮、萨利尔·德什潘德、杰西·穆、诺亚·古德曼
NeurIPS 2022。[论文][Github]
2022 年 10 月 31 日

选择性注释使语言模型更好地适应少样本学习者
苏洪进、葛西淳吾、陈亨利、施伟佳、王天禄、辛嘉怡、张锐、Mari Ostendorf、Luke Zettlemoyer、Noah A. Smith、Tao Yu
ICLR 2023。[论文][Github]
2022 年 9 月 5 日

基于 Transformer 的预训练模型的多任务主动学习
盖伊·罗特曼，罗伊·雷查特
TACL 2022。 [论文] [Github]
2022 年 8 月 10 日

AcTune：基于不确定性的主动自我训练，用于预训练语言模型的主动微调
于悦、孔令凯、张洁宇、张荣志、张超
NAACL-HLT2022。 [论文] [Github]
2022 年 7 月 10 日

迈向计算可行的深度主动学习
阿基姆·茨维贡、阿乔姆·谢尔曼诺夫、格列布·库兹明、列昂尼德·萨诺奇金、丹尼尔·拉里奥诺夫、格列布·古谢夫、曼维尔·阿维蒂西安、列昂尼德·朱可夫
NAACL 2022。 [论文] [Github]
2022 年 5 月 7 日

FAMIE：用于多语言信息提取的快速主动学习框架
Minh Van Nguyen、Nghia Trung Ngo、Bonan Min、Thien Huu Nguyen
NAACL 2022。 [论文] [Github]
2022 年 2 月 16 日

论有效调整预训练语言模型对主动学习的重要性
卡特琳娜·玛加蒂娜、卢伊克·巴罗、尼古拉斯·阿莱特拉斯
ACL 2022。[论文]
2022 年 3 月 2 日

Deep Transformer 语言模型主动学习的局限性
迈克·达西、道格·唐尼
Arxiv 2022。[论文]
2022 年 1 月 28 日

通过获取对比例子进行主动学习
卡特琳娜·玛加蒂娜、乔治·韦尔尼科斯、卢伊克·巴罗、尼古拉斯·阿莱特拉斯
EMNLP 2021。[论文][Github]
2021 年 9 月 8 日

重新审视基于不确定性的查询策略，使用 Transformer 进行主动学习
克里斯托弗·施罗德、安德烈亚斯·尼克勒、马丁·波塔斯特
ACL 2022 调查结果。 [论文][Github]
2021 年 7 月 12 日

使用深度预训练模型和贝叶斯不确定性估计进行序列标记的主动学习
Artem Shelmanov、Dmitri Puzyrev、Lyubov Kupriyanova、Denis Belyakov、Daniil Larionov、Nikita Khromov、Olga Kozlova、Ekaterina Artemova、Dmitry V. Dylov、Alexander Panchenko
EACL 2021。[论文]
2021 年 2 月 18 日

通过主动学习微调 BERT 以实现低资源自然语言理解
丹尼尔·格里斯哈伯、约翰内斯·毛彻、Ngoc Thang Vu
COLING 2020。 [论文]
2020 年 12 月 4 日

可靠性

幻觉

很棒的幻觉检测

HallusionBench：大型视觉语言模型中纠缠语言幻觉和视觉错觉的高级诊断套件
天瑞关*、刘福晓*、吴希阳、冼瑞琪、李宗霞、刘晓宇、王希军、陈立昌、黄芙蓉、Yaser Yacoob、Dinesh Manocha、周天一
CVPR 2024。[论文][Github]
2024 年 3 月 18 日

国家标准委员会 $^3$ ：通过语义感知交叉检查一致性在黑盒语言模型中进行可靠的幻觉检测
张嘉欣、李卓航、Kamalika Das、Bradley A. Malin、Sricharan Kumar
EMNLP 2023。[论文][Github]
2023 年 11 月 3 日

幻觉排行榜
维克塔拉
[关联]
2023 年 11 月 2 日

超越事实：作为知识生成器的大型语言模型的综合评估
陈良、邓阳、卞亚涛、秦泽宇、吴秉哲、蔡达成、黄锦辉
EMNLP 2023。[论文][Github]
2023 年 10 月 12 日

验证链减少大型语言模型中的幻觉
Shehzaad Dhuliawala、Mojtaba Komeili、徐静、Roberta Raileanu、李贤、Asli Celikylmaz、Jason Weston
arXiv 2023。[论文]
2023 年 9 月 20 日

语言模型知道它们何时出现幻觉引用吗？
阿尤什·阿格拉沃尔、莱斯特·麦基、亚当·陶曼·卡莱
arXiv 2023。[论文]
2023 年 5 月 29 日。

大型语言模型的自相矛盾的幻觉：评估、检测和缓解
Niels Mündler、何景轩、Slobodan Jenko、Martin Vechev
arXiv 2023。[论文]
2023 年 5 月 25 日

为什么 ChatGPT 无法提供真实答案？
沉峥、黄杰、张震川
arXiv 2023。[论文]
2023 年 5 月 24 日

语言模型幻觉如何滚雪球
Muru 张，Ofir Press，William Merrill，Alisa Liu，Noah A. Smith
arXiv 2023。[论文]
2023 年 5 月 22 日

LM vs LM：通过交叉检查检测事实错误
罗伊·科恩、梅·哈姆里、莫尔·吉瓦、阿米尔·格洛伯森
arXiv 2023。[论文]
2023 年 5 月 22 日

HaluEval：大型语言模型的大规模幻觉评估基准
李俊毅、程晓雪、赵鑫、聂建云、温继荣
arXiv 2023。[论文]2023 年 5 月 19 日

SelfCheckGPT：生成大语言模型的零资源黑盒幻觉检测
波萨维·马纳库尔、阿迪安·刘西、马克·JF·盖尔斯
arXiv 2023。 [论文] [Github]
2023 年 3 月 8 日

检查你的事实并再试一次：利用外部知识和自动反馈改进大型语言模型
彭宝林、Michel Galley、何鹏程、程浩、谢雨佳、胡宇、黄秋媛、Lars Liden、周宇、陈伟柱、高剑锋
arXiv 2023。[论文]
2023 年 2 月 23 日

RHO (ρ)：通过知识基础减少开放领域对话中的幻觉
季子伟、刘子涵、李娜妍、余铁正、Bryan Wilie、曾敏、冯帕斯卡
arXiv 2022。[论文]
2022 年 12 月 3 日

FaithDial：信息寻求对话的忠实基准
Nouha Dziri、Ehsan Kamalloo、Sivan Milton、Osmar Zaiane、Mo Yu、Edoardo M. Ponti、Siva Reddy
TACL 2022。[论文]
2022 年 4 月 22 日

自然语言生成中的幻觉调查
季紫薇、李娜妍、Rita Frieske、余铁正、苏丹、徐岩、石井悦子、Yejin Bang、戴文亮、Andrea Madotto、Pascale Fung
arXiv 2022。[论文]
2022 年 2 月 8 日

诚实

TruthX：通过在真实空间中编辑大型语言模型来缓解幻觉 Shaolei Zhang、Tian Yu、Yang Feng
arXiv 2024。 [论文] [Github]
2024 年 2 月 27 日

推理时间干预：从语言模型中得出真实答案 Kenneth Li、Oam Patel、Fernanda Viégas、Hanspeter Pfister、Martin Wattenberg
arXiv 2023。 [论文] [Github]
2023 年 6 月 6 日

法学硕士的内部状态知道什么时候说谎
阿莫斯·阿扎利亚、汤姆·米切尔
arXiv 2023。[论文]
2023 年 4 月 26 日

TruthfulQA：衡量模型如何模仿人类的谎言
斯蒂芬妮·林、雅各布·希尔顿、欧文·埃文斯
ACL 2022。[论文][Github][博客]
2021 年 9 月 8 日

诚实的人工智能：开发和管理不会说谎的人工智能
欧文·埃文斯、欧文·科顿-巴拉特、卢卡斯·芬维登、亚当·贝尔斯、阿维塔尔·巴尔维特、彼得·威尔斯、卢卡·莱赫蒂、威廉·桑德斯
arXiv 2021。[论文][博客]
2021 年 10 月 13 日

通过语义一致性衡量大型语言模型的可靠性
哈什·拉杰、多梅尼克·罗萨蒂、苏巴布拉塔·马宗达尔
NeurIPS 2022 机器学习安全研讨会。 [纸]
2022 年 11 月 10 日

推理

REFINER：中间表示的推理反馈
德布吉特·保罗、梅特·伊斯马伊尔扎达、马克西姆·佩拉德、比阿特丽斯·博尔赫斯、安托万·博斯卢特、罗伯特·韦斯特、博伊·法尔廷斯
arXiv 2023。[论文]
2023 年 4 月 4 日

OpenICL：用于情境学习的开源框架
吴振宇、王耀翔、叶家成、冯江涛、徐晶晶、乔宇、吴志勇
arXiv 2023。 [论文] [Github]
2023 年 3 月 6 日

通过大型语言模型和答案集编程实现可靠的自然语言理解
Abhiramon Rajasekharan、Yankai Zeng、Parth Padalkar、Gopal Gupta
arXiv 2023。[论文]
2023 年 2 月 7 日

自洽改善了语言模型中的思维推理链
王学智、Jason Wei、Dale Schuurmans、Quoc Le、Ed Chi、Sharan Narang、Aakanksha Chowdhery、Denny Zhou
ICLR 2023。[论文]
2022 年 3 月 21 日

思维链提示引发大型语言模型中的推理。
卫杰森、王学智、Dale Schuurmans、Maarten Bosma、Ed Chi、Quoc Le、Denny Zhou
arXiv 2022。[论文]
2022 年 1 月 28 日

STAR：自学推理机通过推理引导推理。
埃里克·泽利克曼、吴玉怀、诺亚·D·古德曼
NeurIPS 2022。[论文][Github]
2022 年 3 月 28 日

文本推理的小样本提示中解释的不可靠性
夕夜，格雷格·杜雷特
NeurIPS 2022。 [论文] [Github]
2022 年 5 月 6 日

语言模型中的基本原理增强集成
王学智、Jason Wei、Dale Schuurmans、Quoc Le、Ed Chi、Denny Zhou
arXiv 2022。[论文]
2022 年 7 月 2 日

ReAct：在语言模型中协同推理和行动
姚舜宇、赵杰弗里、于殿、杜南、Izhak Shafran、Karthik Narasimhan、曹元
ICLR 2023。[论文][Github][项目]
2022 年 10 月 6 日

转念一想，我们不要一步步思考！零样本推理中的偏差和毒性
奥马尔·谢赫、张宏欣、威廉·赫尔德、迈克尔·伯恩斯坦、杨迪怡
arXiv 2022。[论文]
2022 年 12 月 15 日

关于让语言模型更好地推理的进展
李逸飞、林泽琪、张世卓、付强、陈蓓、楼建光、陈伟柱
arXiv 2022。[论文][Github]
2022 年 6 月 6 日

问我任何问题：提示语言模型的简单策略
Simran Arora、Avanika Narayan、Mayee F. Chen、Laurel Orr、Neel Guha、Kush Bhatia、Ines Chami、Frederic Sala、Christopher Ré
arXiv 2022。[论文][Github]
2022 年 10 月 5 日

MathPrompter：使用大型语言模型进行数学推理
岛伊玛尼、杜亮、Harsh Shrivastava
arXiv 2023。[论文]
2023 年 3 月 4 日

基于复杂性的多步推理提示
付耀、彭浩、Ashish Sabharwal、Peter Clark、Tushar Khot
arXiv 2022。[论文][Github]
2022 年 10 月 3 日

测量和缩小语言模型中的组合性差距
Ofir Press、Muru 张、Sewon Min、Ludwig Schmidt、Noah A. Smith、Mike Lewis
arXiv 2022。[论文][Github] 2022 年 10 月 7 日

针对知识密集型多步骤问题的交叉检索与思维链推理
Harsh Trivedi、Niranjan Balasubramanian、Tushar Khot、Ashish Sabharwal
arXiv 2023。[论文][Github]
2022 年 12 月 20 日

及时调整、优化和设计

作为优化器的大型语言模型
杨成润、王学智、陆一峰、刘汉晓、Quoc V. Le、Denny Zhou、陈新云
arXiv 2023。[论文]
2023 年 9 月 7 日

InstructZero：黑盒大型语言模型的高效指令优化
陈立昌、陈久海、Tom Goldstein、黄恒、周天一
arXiv 2023。 [论文] [Github]
2023 年 6 月 5 日

Promptboosting：具有十次前向传递的黑盒文本分类
侯百如、乔·奥康纳、雅各布·安德烈亚斯、张世宇、张阳
ICML 2023。[论文][Github]
2023 年 1 月 23 日

GrIPS：用于提示大型语言模型的无梯度、基于编辑的指令搜索
Archiki Prasad、Peter Hase、周翔、Mohit Bansal
EACL 2023。[论文][Github]
2022 年 3 月 14 日

RLPrompt：通过强化学习优化离散文本提示
邓明凯、王建宇、谢正平、王一涵、韩国、舒天民、宋孟、Eric P. Xing、胡志廷
EMNLP 2022。[论文][Github]
2022 年 5 月 25 日

预训练语言模型的黑盒提示学习
刁世哲、黄志超、徐瑞嘉、李雪春、林勇、小周、张桐
TMLR 2023。[论文][Github]
2022 年 1 月 22 日

语言模型即服务的黑盒调优
孙天翔、邵云帆、钱洪、黄玄静、邱西鹏
ICML 2022。[论文][Github]
2022 年 1 月 10 日

BBTv2：利用大型语言模型迈向无梯度的未来
孙天翔、何正福、钱红、周云华、黄玄晶、邱西鹏 EMNLP 2022. [论文] [Github]
2022 年 12 月 7 日

大型语言模型中的自动思维提示链
张卓胜、张阿斯顿、穆里、亚历克斯·斯莫拉
ICLR 2023。[论文][Github]
2022 年 10 月 7 日

通过标记数据的思路自动提示增强和选择
岑嘉顺、刁世哲、张桐
arXiv 2023。[论文][Github]
2023 年 2 月 24 日

大型语言模型是人类水平的提示工程师
周永超、Andrei Ioan Muresanu、Ziwen Han、Keiran Paster、Silviu Pitis、Harris Chan、Jimmy Ba
ICLR 2023。 [论文] [Github]
2022 年 11 月 3 日

奇妙有序的提示以及在哪里可以找到它们：克服小样本提示顺序敏感性
姚璐、马克斯·巴托罗、阿拉斯泰尔·摩尔、塞巴斯蒂安·里德尔、庞图斯·斯坦托普
ACL 2022。[论文]

用于情境学习的主动示例选择
张一鸣、石峰、谭晨浩
EMNLP 2022。[论文][Github]
2022 年 11 月 8 日

选择性注释使语言模型更好地适应少样本学习者
苏洪进、葛西淳吾、陈亨利、施伟佳、王天禄、辛嘉怡、张锐、Mari Ostendorf、Luke Zettlemoyer、Noah A. Smith、Tao Yu
ICLR 2023。[论文][Github]
2022 年 9 月 5 日

学习检索情境学习的提示
奥哈德·鲁宾、乔纳森·赫齐格、乔纳森·贝兰特
NAACL-HLT 2022。[论文][Github]
2021 年 12 月 16 日

指令和 RLHF

LaMini-LM：从大规模指令中提取出的多样化模型
吴明浩、Abdul Waheed、张驰宇、Muhammad Abdul-Mageed、Alham Fikri Aji
arXiv 2023。[论文][Github]
2023 年 4 月 27 日

自我细化：通过自我反馈进行迭代细化
阿曼·马达安、尼基特·坦登、普拉哈·古普塔、斯凯勒·哈利南、高鲁豫、莎拉·维格瑞夫、乌里·阿隆、努哈·德齐里、什里迈·帕布胡莫耶、杨一鸣、肖恩·韦尔克、Bodhisattwa Prasad Majumder、沙尚克·古普塔、阿米尔·亚兹丹巴赫什、彼得·克拉克
arXiv 2023。[论文][Github][网站]
2023 年 3 月 30 日

您只需要提示吗？全面、更广泛的教学学习观
楼仁泽、张凯、尹文鹏
arXiv 2023。[论文][Github]
2023 年 3 月 18 日

自指导：使语言模型与自生成的指令保持一致
王一中、Yeganeh Kordi、Swaroop Mishra、Alisa Liu、Noah A. Smith、Daniel Khashabi、Hannaneh Hajishirzi
arXiv 2022。 [论文] [Github]
2022 年 12 月 20 日

宪法人工智能：人工智能反馈的无害性
白云涛等人（人类）
arXiv 2022。[论文]
2022 年 12 月 15 日

通过模型编写的评估发现语言模型行为
伊桑·佩雷斯等人。
arXiv 2022。[论文]
2022 年 12 月 19 日

情境教学学习
Seonghyeon Ye、Hyeonbin Hwang、Sohee Yang、Hyungu Yun、Yireun Kim、Minjoon Seo
arXiv 2023。[论文][Github]
2023 年 2 月 28 日

工具和外部 API

通过少量提示进行开放域问答的互联网增强语言模型
安吉利基·拉扎里杜、埃琳娜·格里博夫斯卡娅、沃伊切赫·斯托科维茨、尼古拉·格里戈列夫
arXiv 2023。[论文]
2023 年 3 月 10 日

思路提示：将计算与数值推理任务的推理分开
陈文虎、马学光、王欣怡、William W. Cohen
arXiv 2022。[论文][Github]
2022 年 11 月 22 日

PAL：程序辅助语言模型
高鲁宇、Aman Madaan、周书彦、Uri Alon、刘鹏飞、杨一鸣、Jamie Callan、Graham Neubig
arXiv 2022。 [论文] [Github] [项目]
2022 年 11 月 18 日

TALM：工具增强语言模型
亚伦·帕里西、姚照、诺亚·菲德尔
arXiv 2022。[论文]
2022 年 5 月 24 日

Toolformer：语言模型可以自学使用工具
蒂莫·希克、简·德维维迪-于、罗伯托·德西、罗伯塔·雷莱亚努、玛丽亚·洛梅利、卢克·泽特莫耶、尼古拉·坎塞达、托马斯·夏洛姆
arXiv 2023。[论文]
2023 年 2 月 9 日

微调

一步一步蒸馏！使用较少的训练数据和较小的模型大小超越较大的语言模型
谢正宇、李春亮、叶志宽、Hootan Nakhost、藤井康久、亚历山大·拉特纳、Ranjay Krishna、李振宇、托马斯·菲斯特
arXiv 2023。[论文]
2023 年 5 月 3 日

FreeLM：免微调语言模型
李翔1、蒋欣、孟旭英、孙爱新、王业全
arXiv 2023。[论文]
2023 年 5 月 2 日

用于鲁棒语言模型微调的自动数据管理
陈久海、乔纳斯·穆勒
arXiv 2024。[论文]
2024 年 3 月 19 日

鲁棒性

不变性

不变语言建模 Maxime Peyrard、Sarvjeet Singh Ghotra、Martin Josifoski、Vidhan Agarwal、Barun Patra、Dean Carignan、Emre Kiciman、Robert West
EMNLP 2022。[论文][Github]
2021 年 10 月 16 日

通过顺序不敏感的表示正则化实现稳健的个性化对话生成
陈良、王宏儒、邓阳、关伟忠、黄锦辉
ACL 2023 的调查结果。[论文][Github]
2023 年 5 月 22 日

分布转移

探索用于代码分析的大型语言模型中的分布变化
蜀山阿拉克里安、Rocktim Jyoti Das、毛一、向仁
arXiv 2023。[论文]
2023 年 3 月 16 日

分布外

条件语言模型的分布外检测和选择性生成
任杰、罗家明、赵耀、Kundan Krishna、Mohammad Saleh、Balaji Lakshminarayanan、Peter J. Liu
ICLR 2023。[论文]
2022 年 9 月 30 日

适应和推广

关于预训练语言模型的领域适应和泛化：调查
徐果、韩宇
arXiv 2022。[论文]
2022 年 11 月 6 日

对抗性的

对法学硕士的对抗性攻击
翁莉莲[博客]
2023 年 10 月 25 日

PromptBench：评估大型语言模型在对抗性提示上的鲁棒性
朱凯杰、王金东、周家恒、王子辰、陈浩、王一东、杨林一、叶伟、龚振强、张悦、谢兴
arXiv 2023。[论文][Github]
20223 年 6 月 7 日

关于 ChatGPT 的鲁棒性：对抗性和非分布视角
王金东、胡希旭、侯文鑫、陈浩、郑润凯、王一东、杨林一、黄浩军、叶伟、耿秀波、焦彬新、张悦、谢兴
arXiv 2023。 [论文] [Github]
2023 年 2 月 22 日

自然语言处理系统的可靠性测试
Samson Tan、Shafiq Joty、Kathy Baxter、Araz Taeihagh、Gregory A. Bennett、Min-Yen Kan
ACL-IJCNLP 2021。[论文]
2021 年 5 月 6 日

归因

属性问答：属性大语言模型的评估和建模
Bernd Bohnet、Vinh Q. Tran、Pat Verga、Roee Aharoni、Daniel Andor、Livio Baldini Soares、Massimiliano Ciaramita、Jacob Eisenstein、Kuzman Ganchev、Jonathan Herzig、Kai Hui、Tom Kwiatkowski、Ji Ma、Jianmo Ni、Lierni Sestorain Saralegui、Tal舒斯特、威廉·W·科恩、迈克尔·柯林斯、迪潘扬·达斯、唐纳德梅茨勒、斯拉夫·彼得罗夫、凯莉·韦伯斯特
arXiv 2022。[论文]
2022 年 12 月 15 日

因果关系

大型语言模型可以从相关性推断因果关系吗？
金志静、刘嘉瑞、吕志恒、Spencer Poff、Mrinmaya Sachan、Rada Mihalcea、Mona Diab、Bernhard Schölkopf
arXiv 2023。 [论文] [Github]
2023 年 6 月 9 日

选择推理：利用大型语言模型进行可解释的逻辑推理
安东尼娅·克雷斯韦尔、穆雷·沙纳汉、伊琳娜·希金斯
ICLR 2023。[论文]
2022 年 5 月 19 日

调查法学硕士的因果理解
马吕斯·霍巴恩、汤姆·利伯鲁姆、大卫·塞勒
NeurIPS 2022 研讨会。 [论文][博客]
2022 年 10 月 3 日

展开

附加信息

版本 1.0.0
类型 Ai源码
更新时间 2025-01-08
大小 20.97KB
来自于 Github