Awesome LLM Uncertainty Reliability Robustness下載 - Awesome LLM Uncertainty Reliability Robustness原始碼下載

Awesome LLM Uncertainty Reliability Robustness

Ai源碼

1.0.0

下載

Awesome-LLM-不確定性-可靠性-穩健性

這個名為UR2-LLMs 的儲存庫包含有關大型語言模型中的不確定性、可靠性和穩健性的資源和論文的集合。

「大型語言模型的可靠性有限、理解能力有限、範圍有限，因此需要人工監督。」- Michael Osborne，牛津大學工程科學系機器學習教授，2023 年 1 月 25 日

歡迎分享您在該領域的論文、想法和想法！

內容

Awesome-LLM-不確定性-可靠性-穩健性
- 內容
資源
- 介紹性帖子
- 技術報告
- 教學
文件
- 評估與調查
- 不確定
  - 不確定性估計
  - 校準
  - 歧義
  - 信心
  - 主動學習
- 可靠性
  - 幻覺
  - 誠實
  - 推理
  - 及時調整、優化和設計
  - 指令和 RLHF
  - 工具和外部 API
  - 微調
- 穩健性
  - 不變性
  - 分佈轉移
  - 分佈外
  - 適應和推廣
  - 對抗性的
  - 歸因
  - 因果關係

資源

介紹性帖子

GPT 是一種不可靠的資訊存儲
諾布爾·阿克森
[關聯]
2023 年 2 月 20 日

「濫用」大型語言模型與機器翻譯的未來
阿爾勒洛梅爾
[關聯]
2022 年 12 月 20 日

大型語言模型：基礎知識及其應用
瑪戈·波達
[關聯]
2023 年 2 月 9 日

快速工程：提高響應和可靠性
彼得·福伊
[關聯]
2023 年 3 月 19 日

OpenAI 的提高可靠性技術指南
開放人工智慧
[Github]
2023 年 3 月 18 日

GPT/校準標籤
格溫·布蘭文
[關聯]

及時工程
翁莉蓮
[關聯]

LLM 支援的自主代理
翁莉蓮
[關聯]

學習提示的可靠性
[關聯]

建構用於生產的法學碩士應用程序
奇普·惠恩
[關聯]
2023 年 4 月 11 日

技術報告

GPT-4 技術報告
開放人工智慧
arXiv 2023。
2023 年 3 月 16 日

GPT-4系統卡
開放人工智慧
arXiv 2023。
2023 年 3 月 15 日

教學

自然語言處理的不確定性估計
亞當費許、賈羅賓、塔爾舒斯特
COLLING 2022。

文件

評估與調查

更廣泛、更深層的 LLM 網路是更公平的 LLM 評估者
張興華、於博文、於海洋、呂陽宇、劉廷文、黃飛、徐洪波、李永斌
arXiv 2023。
2023 年 8 月 3 日

大型語言模型評估調查
常宇鵬、王旭、王金東、吳元、朱凱傑、陳浩、楊林一、易曉源、王存祥、王一東、葉偉、張越、常毅、於飛利、楊強、謝興
Arxiv 2023。
2023 年 7 月 6 日

DecodingTrust：GPT 模型可信度的綜合評估
王博鑫、陳偉新、裴恆志、謝楚林、康敏彤、張晨輝、徐車健、熊子迪、Ritik Dutta、Rylan Schaeffer、Sang T. Truong、Simran Arora、Mantas Mazeika、Dan Hendrycks、Zinan Lin、Yu Cheng、黎明 Sanmi Koyejo、黎明宋、李博
Arxiv，2023。
2023 年 6 月 20 日

我們信任 ChatGPT？測量並表徵 ChatGPT 的可靠性
沈心悅、陳澤元、Michael Backes、張陽
arXiv，2023。
2023 年 4 月 18 日

在實踐中利用法學碩士的力量：對 ChatGPT 及其他內容的調查
楊景峰、金紅葉、唐瑞祥、韓笑天、馮啟章、姜浩明、尹冰、胡夏
arXiv 2023。
2023 年 4 月 27 日

GPT-3.5 對於前輩來說有多強大？語言理解任務的綜合研究
陳玄霆、葉俊傑、祖燦、徐諾、鄭銳、彭敏龍、週傑、陶桂、張琪、黃軒靜
arXiv 2023。
2023 年 3 月 1 日

語言模型的整體評估
Percy Liang、Rishi Bommasani、Tony Lee、Dimitris Tsipras、Dilara Soylu、Michihiro Yasunaga、Yian Zhang、Deepak Narayanan、吳玉懷、Ananya Kumar、Benjamin Newman、Binhang Yuan、Bobby Yan、Ce Chang、Christian Cosgrove、Benjamin D. Manning、 Ce Chang Ré, Diana Acosta-Navas, Drew A. Hudson, Eric Zelikman, Esin Durmus, Faisal Ladhak, Frieda Rong, Hongyu Ren, Huaxiu Yao, Jue Wang, Keshav Santhanam, Laurel Orr, Lucia Cheng, Mert Yuekgonul, Mirac Suzgun, Nathan Laurel Orr, Lucia Cheng, Mert Yuksgonul, Mirac Suzgun, Mirac 、Neel Guha、Niladri Chatterji、Omar Khattab、Peter Henderson、Qian Huang、Ryan Chi、Sang Michael Xie、Shibani Santurkar、Surya Ganguli、Tatsunori Hashimoto、Thomas Icard、張天一、Vish Mairav Chaudhary、William Wang、Xue Li、Yifan Maiue Li , 是枝裕太
arXiv 2022。
2022 年 11 月 16 日

提示 GPT-3 是可靠的
司成磊、甘哲、楊正元、王碩航、王劍鋒、Jordan Boyd-Graber、王麗娟
ICLR 2023。
2022 年 10 月 17 日

Plex：使用預先訓練的大型模型擴充來實現可靠性
Dustin Tran、Jeremiah Liu、Michael W. Dusenberry、Du Phan、Mark Collier、任傑、韓克航、Zi Wang、Zelda Mariet、Hu Huiyi Hu、Neil Band、Tim GJ Rudner、Karan Singhal、Zachary Nado、Joost van Amersfoort、Andreas基爾希、魯道夫·傑納頓、尼桑·塞恩、袁洪林、凱利·布坎南、凱文·墨菲、D.·斯卡利、亞林·加爾、祖賓·加拉瑪尼、賈斯珀·斯諾克、巴拉吉·拉克什米納拉亞南
arXiv 2022。
2022 年 7 月 15 日

語言模型（大多數）知道他們所知道的
索拉夫·卡達瓦斯/ 湯姆·康納利/ 阿曼達·阿斯克爾/ 湯姆·赫尼漢/ 道恩·德雷恩/ 伊桑·佩雷斯/ 尼古拉斯·席弗/ 扎克·哈特菲爾德-多茲/ 諾瓦·達斯薩瑪/ 伊萊·特蘭-約翰遜/ 斯科特·約翰斯頓/ 謝爾·埃爾-肖克/ 安迪·瓊斯/ 尼爾森·埃爾哈奇/特里斯坦·休姆, 陳安娜, 白雲濤, 薩姆·鮑曼, 斯坦尼斯拉夫·福特, Deep Ganguli, 丹尼·埃爾南德斯, 喬什·雅各布森, 傑克遜·凱尼恩, 肖娜·克拉維克, 麗安·洛維特, 卡邁勒·恩杜斯, 凱瑟琳·奧爾森, 薩姆·林格, 達裡奧·阿莫代, 湯姆·布朗, 傑克·克拉克,尼可拉斯約瑟夫、班曼、山姆麥坎迪許、克里斯奧拉、賈里德卡普蘭
arXiv 2022。
2022 年 7 月 11 日

增強語言模式：調查
Grégoire Mialon、Roberto Dessì、Maria Lomeli、Christoforos Nalmpantis、Ram Pasunuru、Roberta Raileanu、Baptiste Rozière、Timo Schick、Jane Dwivedi-Yu、Asli Celikyilmaz、Edouard Grave、Yann LeCun、Thomas Scialcial
arXiv 2023。
2023 年 2 月 15 日

NLG 系統評估指標調查
Ananya B. Sai、阿卡什·庫馬爾·莫漢庫馬爾、Mitesh M. Khapra
ACM 計算調查，2022 年。
2022 年 1 月 18 日

NL-Augmenter：任務敏感的自然語言增強框架
Kaustubh D. Dhole 等人。
ACL 2021。
2021 年 12 月 6 日

TextFlint：自然語言處理的統一多語言穩健性評估工具包
陶桂等。
arXiv 2021。
2021 年 3 月 21 日

Robustness Gym：統一 NLP 評估格局
Karan Goel、Nazneen Rajani、Jesse Vig、Samson Tan、Jason Wu、Stephan Cheng、Caiming Xiong、Mohit Bansal、Christopher Ré
ACL 2021。
2021 年 1 月 13 日

超越準確性：使用 CheckList 對 NLP 模型進行行為測試
Marco Tulio Ribeiro、吳同霜、Carlos Guestrin、Sameer Singh
ACL 2020。
2020 年 5 月 8 日

不確定

不確定性估計

BLoB：大型語言模型的反向傳播貝葉斯低階自適應
王一斌、石海洲、韓立功、Dimitris Metaxas、王浩
arXiv 2024。
2024 年 6 月 18 日

法學碩士的不確定性估計和量化：一種簡單的監督方法
劉林宇、潘宇、李曉成、陳冠廷
arXiv 2024。
2024 年 4 月 24 日

將注意力轉向相關性：大型語言模型的不確定性估計
段錦浩、程浩、王世奇、Alex Zavalny、王辰安、徐仁靜、Bhavya Kailkhura、徐凱迪
arXiv 2023。
2023 年 10 月 9 日

三思而後行：大型語言模型不確定性測量的探索性研究
黃宇恆、宋嘉陽、王志傑、趙勝明、陳華明、徐覺飛、馬磊
arXiv 2023。
2023 年 7 月 16 日

量化大型語言模型自然語言解釋的不確定性
Sree Harsha Tanneru、Chirag Agarwal、Himabindu Lakkaraju
arXiv 2023。
2023 年 11 月 6 日

共形自回歸生成：具有覆蓋保證的波束搜索
尼可拉斯多伊奇曼、馬文艾伯茨、瑪麗亞羅德里格斯
arXiv 2023。
2023 年 9 月 7 日

量化任何語言模型答案的不確定性並增強其可信度
陳久海、喬納斯·穆勒
arXiv 2023。
2023 年 8 月 30 日

自然語言生成的不確定性：從理論到應用
喬里斯·班恩、尼可·達海姆、葉夫根尼婭·伊利亞、丹尼斯·烏爾默、李豪星、拉奎爾·費爾南德斯、芭芭拉·普朗克、瑞克·森里奇、Chrysoula Zerva、威爾克·阿齊茲
arXiv 2023。
2023 年 7 月 28 日

充滿信心地產生：黑盒大型語言模型的不確定性量化
林臻、Shubhendu Trivedi、孫繼猛
arXiv 2023。
2023 年 5 月 30 日

基於概念的人工智慧系統中的人類不確定性
凱瑟琳·M·柯林斯、馬修·巴克、馬特奧·埃斯皮諾薩·扎倫加、納維恩·拉曼、烏芒·巴特、馬特賈·賈姆尼克、伊利亞·蘇霍盧茨基、阿德里安·韋勒、克里希那穆西·德維約坦
arXiv 2023。
2023 年 3 月 22 日

穿越灰色地帶：語言模型中過度自信與不確定性的表現
凱特琳週、丹尤拉夫斯基、橋本龍典
arXiv 2023。
2023 年 2 月 25 日

DEUP：直接認知不確定性預測
Salem Lahlou、Moksh Jain、Hadi Nekoei、Victor Ion Butoi、Paul Bertin、Jarrid Rector-Brooks、Maksym Koratoryov、Yoshua Bengio
TMLR 2023。
2023 年 2 月 3 日

Seq2seq 圖解析的組合不確定性量化
Zi Lin、Du Phan、Panupong Pasupat、Jeremiah Zhe Liu、Jingbo Shang
ICLR 2023。
2023 年 2 月 1 日

透過組合不確定性量化進行穩健自迴歸圖解析的神經符號推理
子林、劉傑利、尚靜波
EMNLP 2022。
2023 年 1 月 16 日

教學模型用言語表達不確定性
史蒂芬妮林、雅各希爾頓、歐文埃文斯
TMLR 2022。
2022 年 5 月 28 日

語意不確定性：自然語言生成中不確定性估計的語言不變性
洛倫茲·庫恩、亞林·加爾、塞巴斯蒂安·法誇爾
ICLR 2023。
2022 年 2 月 19 日

用於小樣本語言模型微調的冷啟動資料選擇：一種基於提示的不確定性傳播方法
於悅、張榮志、徐冉、張潔宇、沉家明、張超
arXiv 2022。
2022 年 9 月 15 日

透過認知神經網路微調語言模型
伊恩·奧斯班德、賽義德·穆罕默德·阿斯加里、班傑明·範·羅伊、納特·麥卡利斯、約翰·阿斯蘭尼德斯、傑弗裡·歐文
arXiv 2022。
2022 年 11 月 3 日

使用預訓練語言模型進行不確定性量化：大規模實證分析
蕭宇鑫、保羅蒲良、Umang Bhatt、Willie Neiswanger、Ruslan Salakhutdinov、Louis-Philippe Morency
EMNLP 2022（調查結果）。 [論文][Github]
2022 年 10 月 10 日

語言獎勵模型的不確定性估計
亞當格利夫、傑弗瑞歐文
arXiv 2022。
2022 年 3 月 14 日

文本迴歸預訓練模型的不確定性估計與減少
王玉霞、丹尼爾貝克、提摩西鮑德溫、卡琳佛斯普爾
TACL 2022。
2022年6月

自迴歸結構化預測中的不確定性估計
安德烈馬裡寧、馬克蓋爾斯
ICLR 2021。
2020 年 2 月 18 日

神經機器翻譯的無監督品質估計
Marina Fomicheva、孫碩、Lisa Yankovskaya、Frédéric Blain、Francisco Guzmán、Mark Fishel、Nikolaos Aletras、Vishrav Chaudhary、Lucia Specia
TACL 2020。
2020 年 5 月 21 日

分析神經機器翻譯中的不確定性
邁爾·奧特、麥可·奧利、大衛·格蘭吉爾、馬克·奧雷利奧·蘭扎托
ICML 2018。
2018年

校準

批量校準：重新思考情境學習和即時工程的校準
週涵、萬星辰、Lev Proleev、Diana Mincu、Jilin Chen、Katherine Heller、Subhrajit Roy
ICLR 2024。

大型語言模型知道它們不知道的東西嗎？
尹章躍、孫秋實、郭啟鵬、吳嘉文、邱西鵬、黃軒靜
arXiv 2023。

只需要求校準：從根據人類回饋進行微調的語言模型中獲取校準置信度分數的策略
凱瑟琳田、艾瑞克米契爾、艾倫週、阿奇特夏爾馬、拉斐爾拉法洛夫、姚華秀、切爾西芬恩、克里斯多福曼寧
arXiv 2023。
2023 年 5 月 24 日

實現可靠的錯誤訊息緩解：泛化、不確定性和 GPT-4
凱林·佩林、梅麗娜·雷克索普羅德喬、迦勒·古普塔、喬爾·克里斯托夫、雷哈內·拉巴尼
arXiv 2023。
2023 年 5 月 24 日

校準解釋：語意解析中的置信度估計
埃利亞斯·斯坦格爾-埃斯金、班傑明·範·杜爾姆
arXiv 2022。
2022 年 11 月 14 日。

校準序列似然改善條件語言生成
姚昭、Misha Khalman、Rishabh Joshi、Shashi Narayan、Mohammad Saleh、Peter J. Liu
ICLR 2023。
2022 年 9 月 30 日

校準選擇性分類
亞當費許、托米雅科拉、雷吉娜巴爾茲萊
TMLR 2022。
2022 年 8 月 25 日

透過語言校準減少會話代理的過度自信
薩布麗娜·J·米爾克、阿瑟·斯茲拉姆、艾米麗·迪南、Y-Lan Boureau
NAACL 2022。
2022 年 6 月 22 日

重新檢視校準：以問答為例
司成雷、趙晨、Sewon Min、Jordan Boyd-Graber
EMNLP 2022 調查結果。 [紙]
2022 年 5 月 25 日

透過不確定性進行協作神經符號圖語義解析
子林、劉傑利、尚靜波
ACL 指法 2022。
2022 年 5 月 22 日

不確定性感知機器翻譯評估
Taisiya Glushkova、Chrysoula Zerva、Ricardo Rei、André FT Martins
EMNLP 2021。
2021 年 9 月 13 日

使用前校準：提高語言模型的小樣本效能
東尼趙、艾瑞克華萊士、石峰、丹克萊因、薩米爾辛格
ICML 2021。
2021 年 2 月 19 日

我們如何知道語言模型何時知道？問答語言模式的標定
蔣正寶、荒木潤、丁海波、Graham Neubig
TACL 2021。
2020 年 12 月 2 日

預訓練變壓器的校準
施瑞‧德賽，格雷格‧德雷特
EMNLP 2020。
2020 年 5 月 17 日

歧義

澄清之樹：用檢索增強的大型語言模型回答模糊的問題
金江宇、金成東、全秉國、樸俊石、姜在宇
EMNLP 2023。
2023 年 10 月 23 日

有選擇地回答模稜兩可的問題
Jeremy R. Cole、Michael JQ Zhang、Daniel Gillick、Julian Martin Eisenschlos、Bhuwan Dhingra、Jacob Eisenstein arXiv 2023。
2023 年 5 月 24 日

我們擔心語言模型無法模擬歧義 Alisa Liu、Zhaofeng Wu、Julian Michael、Alane Suhr、Peter West、Alexander Koller、Swabha Swayamdipta、Noah A. Smith、Yejin Choi
arXiv 2023。
2023 年 4 月 24 日

人類和語言模型中的任務歧義
亞歷克斯·塔姆金、庫納爾·漢達、阿瓦什·什雷斯塔、諾亞·古德曼
ICLR 2023。
2022 年 12 月 20 日

CLAM：使用生成語言模型選擇性澄清模糊問題
洛倫茲·庫恩、亞林·加爾、塞巴斯蒂安·法誇爾
arXiv 2022。
2022 年 12 月 15 日

如何處理會話式搜尋中的模糊查詢：技術、方法、工具和挑戰的調查
Kimiya Keyvan、黃向吉
ACM 計算調查，2022 年。
2022 年 12 月 7 日

大型語言模式的協助
德米特里‧克拉申尼尼科夫、葉戈爾‧克拉申尼尼科夫、大衛‧克魯格
NeurIPS MLSW 研討會 2022。
2022 年 12 月 5 日

雞為什麼要過馬路？重新表述和分析 VQA 中的歧義問題
埃利亞斯·斯坦格爾-埃斯金、希梅納·瓜拉爾-布拉斯科、周毅、班傑明·範·杜爾姆
arXiv 2022。
2022 年 11 月 14 日

Abg-CoQA：釐清會話問答中的歧義
郭美琪、張明達、Siva Reddy、Malihe Alikhani
AKBC 2021。
2021 年 6 月 22 日

信心

大型語言模型中的置信能力差距：一項認知研究
Aniket Kumar Singh、Suman Devkota、Bishal Lamichane、Uttam Dhakal、Chandra Dhakal
arXiv 2023。
2023 年 9 月 28 日

數量優勢：透過即時一致估計大型語言模型的置信度
葛妮絲‧波蒂略‧懷特曼 / 亞歷珊卓‧德露西亞 / 馬克‧德雷澤
ACL TrustNLP 研討會 2023。
2023 年 7 月 1 日

檢測 LLM（例如 ChatGPT）產生的內容有哪些不同方法？它們如何運作和有何不同？
塞巴斯蒂安·拉斯卡
[連結] [GPTZero]
2023 年 2 月 1 日

DetectGPT：使用機率曲率進行零樣本機器產生的文字偵測
艾瑞克·米切爾、李允浩、亞歷山大·卡扎斯基、克里斯多福·D·曼寧、切爾西·芬恩
arXiv 2023。
2023 年 1 月 26 日

自信的自適應語言建模
塔爾舒斯特、亞當費許、傑伊古普塔、莫斯塔法德哈尼、達拉巴里、Vinh Q. Tran、Yi Tay、唐納德梅茨勒
NeurIPS 2022。

保形風險控制
阿納斯塔西奧斯·N·安傑洛普洛斯、史蒂芬·貝茨、亞當·費什、雷麗華、塔爾·舒斯特
arXiv 2022。
2022 年 8 月 4 日

主動學習

自然語言處理主動學習綜述
張志松、艾瑪·斯特魯貝爾、愛德華·霍維
EMNLP 2022。
2022 年 10 月 18 日

大型語言模型的思想鏈主動提示
刁世哲、王鵬程、林勇、張桐
arXiv 2023。
2023 年 2 月 23 日

用於微調語言模型的低資源互動式主動標籤
前川徵爾、張丹、Hannah Kim、Sajjadur Rahman、Estevan Hruschka
EMNLP 2022 年調查結果。
2022 年 12 月 7 日

您可以透過使用域外資料來減少標記嗎？具有少量指令的主動和遷移學習
Rafal Kocielnik、Sara Kangaslahti、Shrimai Prabhumoye、Meena Hari、R. Michael Alvarez、Anima Anandkumar
NeurIPS 研討會 2022。
2022 年 11 月 21 日

AfroLM：基於自主學習的 23 種非洲語言的多語言預訓練語言模型
Bonaventure FP Dossou、Atnafu Lambebo Tonja、Oreen Yousuf、Salomey Osei、Abigail Oppong、Iyanuoluwa Shode、Oluwabusayo Olufunke Awoyomi、Chris Chininye Emezue
EMNLP 2022。
2022 年 11 月 7 日

主動學習幫助預訓練模型學習預期任務
亞歷克斯·塔姆金、達特·範·阮、薩利爾·德什潘德、傑西·穆、諾亞·古德曼
NeurIPS 2022。
2022 年 10 月 31 日

選擇性註釋使語言模型更適應少樣本學習者
蘇洪進、葛西淳吾、陳亨利、施偉佳、王天祿、辛嘉怡、張銳、Mari Ostendorf、Luke Zettlemoyer、Noah A. Smith、Tao Yu
ICLR 2023。
2022 年 9 月 5 日

基於 Transformer 的預訓練模型的多任務主動學習
蓋伊·羅特曼，羅伊·雷查特
TACL 2022。
2022 年 8 月 10 日

AcTune：基於不確定性的主動自我訓練，用於預訓練語言模型的主動微調
於悅、孔令凱、張潔宇、張榮志、張超
NAACL-HLT2022。 [論文] [Github]
2022 年 7 月 10 日

邁向運算可行的深度主動學習
阿基姆·茨維貢、阿喬姆·謝爾曼諾夫、格列布·庫茲明、列昂尼德·薩諾奇金、丹尼爾·拉里奧諾夫、格列布·古謝夫、曼維爾·阿維蒂西安、列昂尼德·朱可夫
NAACL 2022。
2022 年 5 月 7 日

FAMIE：用於多語言資訊擷取的快速主動學習框架
Minh Van Nguyen、Nghia Trung Ngo、Bonan Min、Thien Huu Nguyen
NAACL 2022。
2022 年 2 月 16 日

論有效調整預訓練語言模型對主動學習的重要性
卡特琳娜·瑪加蒂娜、盧伊克·巴羅、尼可拉斯·阿萊特拉斯
ACL 2022。
2022 年 3 月 2 日

Deep Transformer 語言模型主動學習的局限性
麥克達西、道格唐尼
Arxiv 2022。
2022 年 1 月 28 日

透過取得對比範例進行主動學習
卡特琳娜·瑪加蒂娜、喬治·韋爾尼科斯、盧伊克·巴羅、尼古拉斯·阿萊特拉斯
EMNLP 2021。
2021 年 9 月 8 日

重新檢視基於不確定性的查詢策略，使用 Transformer 進行主動學習
克里斯多福·施羅德、安德烈亞斯·尼克勒、馬丁·波塔斯特
ACL 2022 調查結果。 [論文][Github]
2021 年 7 月 12 日

使用深度預訓練模型和貝葉斯不確定性估計進行序列標記的主動學習
Artem Shelmanov、Dmitri Puzyrev、Lyubov Kupriyanova、Denis Belyakov、Daniil Larionov、Nikita Khromov、Olga Kozlova、Ekaterina Artemova、Dmitry V. Dylov、Alexander Panchenko
EACL 2021。
2021 年 2 月 18 日

透過主動學習微調 BERT 以實現低資源自然語言理解
丹尼爾·格里斯哈伯、約翰內斯·毛徹、Ngoc Thang Vu
COLING 2020。
2020 年 12 月 4 日

可靠性

幻覺

很棒的幻覺偵測

HallusionBench：大型視覺語言模型中糾纏語言幻覺和視覺錯覺的高級診斷套件
天瑞關*、劉福曉*、吳希陽、冼瑞琪、李宗霞、劉曉宇、王希軍、陳立昌、黃芙蓉、Yaser Yacoob、Dinesh Manocha、週天一
CVPR 2024。
2024 年 3 月 18 日

國家標準委員會 $^3$ ：透過語意感知交叉檢查一致性在黑盒語言模型中進行可靠的幻覺偵測
張嘉欣、李卓航、Kamalika Das、Bradley A. Malin、Sricharan Kumar
EMNLP 2023。
2023 年 11 月 3 日

幻覺排行榜
維克塔拉
[關聯]
2023 年 11 月 2 日

超越事實：作為知識生成器的大型語言模型的綜合評估
陳良、鄧陽、卞亞濤、秦澤宇、吳秉哲、蔡達成、黃錦輝
EMNLP 2023。
2023 年 10 月 12 日

驗證鏈減少大型語言模型中的幻覺
Shehzaad Dhuliawala、Mojtaba Komeili、徐靜、Roberta Raileanu、李賢、Asli Celikylmaz、Jason Weston
arXiv 2023。
2023 年 9 月 20 日

語言模型知道它們何時出現幻覺引用嗎？
阿尤什·阿格拉沃爾、萊斯特·麥基、亞當·陶曼·卡萊
arXiv 2023。
2023 年 5 月 29 日。

大型語言模型的矛盾的幻覺：評估、檢測和緩解
Niels Mündler、何景軒、Slobodan Jenko、Martin Vechev
arXiv 2023。
2023 年 5 月 25 日

為什麼 ChatGPT 無法提供真實答案？
沉崢、黃傑、張震川
arXiv 2023。
2023 年 5 月 24 日

語言模型幻覺如何滾雪球
Muru 張，Ofir Press，William Merrill，Alisa Liu，Noah A. Smith
arXiv 2023。
2023 年 5 月 22 日

LM vs LM：透過交叉檢查偵測事實錯誤
羅伊·科恩、梅·哈姆裡、莫爾·吉瓦、阿米爾·格洛伯森
arXiv 2023。
2023 年 5 月 22 日

HaluEval：大型語言模型的大規模幻覺評估基準
李俊毅、程曉雪、趙鑫、聶建雲、溫繼榮
arXiv 2023。

SelfCheckGPT：產生大語言模型的零資源黑盒子幻覺偵測
波薩維·馬納庫爾、阿迪安·劉西、馬克·JF·蓋爾斯
arXiv 2023。
2023 年 3 月 8 日

檢查你的事實並再試一次：利用外部知識和自動回饋來改進大型語言模型
彭寶林、Michel Galley、何鵬程、程浩、謝雨佳、胡宇、黃秋媛、Lars Liden、週宇、陳偉柱、高劍鋒
arXiv 2023。
2023 年 2 月 23 日

RHO (ρ)：透過知識基礎減少開放領域對話中的幻覺
季子偉、劉子涵、李娜妍、餘鐵正、Bryan Wilie、曾敏、馮帕斯卡
arXiv 2022。
2022 年 12 月 3 日

FaithDial：資訊尋求對話的忠實基準
Nouha Dziri、Ehsan Kamalloo、Sivan Milton、Osmar Zaiane、Mo Yu、Edoardo M. Ponti、Siva Reddy
TACL 2022。
2022 年 4 月 22 日

自然語言生成中的幻覺調查
季紫薇、李娜妍、Rita Frieske、餘鐵正、蘇丹、徐岩、石井悅子、Yejin Bang、戴文亮、Andrea Madotto、Pascale Fung
arXiv 2022。
2022 年 2 月 8 日

誠實

TruthX：透過在真實空間中編輯大型語言模型來緩解幻覺 Shaolei Zhang、Tian Yu、Yang Feng
arXiv 2024。
2024 年 2 月 27 日

推理時間介入：從語言模型中得出真實答案 Kenneth Li、Oam Patel、Fernanda Viégas、Hanspeter Pfister、Martin Wattenberg
arXiv 2023。
2023 年 6 月 6 日

法學碩士的內部狀態知道什麼時候說謊
阿莫斯·阿扎利亞、湯姆·米切爾
arXiv 2023。
2023 年 4 月 26 日

TruthfulQA：衡量模型如何模仿人類的謊言
史蒂芬妮林、雅各希爾頓、歐文埃文斯
ACL 2022。
2021 年 9 月 8 日

誠實的人工智慧：開發和管理不會說謊的人工智慧
歐文·埃文斯、歐文·科頓-巴拉特、盧卡斯·芬維登、亞當·貝爾斯、阿維塔爾·巴爾維特、彼得·威爾斯、盧卡·萊赫蒂、威廉·桑德斯
arXiv 2021。
2021 年 10 月 13 日

透過語義一致性衡量大型語言模型的可靠性
哈什·拉傑、多梅尼克·羅薩蒂、蘇巴布拉塔·馬宗達爾
NeurIPS 2022 機器學習安全研討會。 [紙]
2022 年 11 月 10 日

推理

REFINER：中間表示的推理回饋
德布吉特·保羅、梅特·伊斯馬伊爾扎達、馬克西姆·佩拉德、比阿特麗斯·博爾赫斯、安托萬·博斯盧特、羅伯特·韋斯特、博伊·法爾廷斯
arXiv 2023。
2023 年 4 月 4 日

OpenICL：情境學習的開源框架
吳振宇、王耀翔、葉家成、馮江濤、徐晶晶、喬宇、吳志勇
arXiv 2023。
2023 年 3 月 6 日

透過大型語言模型和答案集程式設計實現可靠的自然語言理解
Abhiramon Rajasekharan、Yankai Zeng、Parth Padalkar、Gopal Gupta
arXiv 2023。
2023 年 2 月 7 日

自洽改善了語言模型中的思考推理鏈
王學智、Jason Wei、Dale Schuurmans、Quoc Le、Ed Chi、Sharan Narang、Aakanksha Chowdhery、Denny Zhou
ICLR 2023。
2022 年 3 月 21 日

思維鏈提示引發大型語言模型中的推理。
衛傑森、王學智、Dale Schuurmans、Maarten Bosma、Ed Chi、Quoc Le、Denny Zhou
arXiv 2022。
2022 年 1 月 28 日

STAR：自學推理機透過推理引導推理。
艾瑞克·澤利克曼、吳玉懷、諾亞·D·古德曼
NeurIPS 2022。
2022 年 3 月 28 日

文本推理的小樣本提示中解釋的不可靠性
夕夜，格雷格·杜雷特
NeurIPS 2022。
2022 年 5 月 6 日

語言模型中的基本原理增強集成
王學智、Jason Wei、Dale Schuurmans、Quoc Le、Ed Chi、Denny Zhou
arXiv 2022。
2022 年 7 月 2 日

ReAct：在語言模型中協同推理與行動
姚舜宇、趙傑弗裡、於殿、杜南、Izhak Shafran、Karthik Narasimhan、曹元
ICLR 2023。
2022 年 10 月 6 日

轉念一想，我們不要一步步思考！零樣本推理中的偏差和毒性
奧馬爾·謝赫、張宏欣、威廉·赫爾德、麥可·伯恩斯坦、楊迪怡
arXiv 2022。
2022 年 12 月 15 日

關於讓語言模型更好推理的進展
李逸飛、林澤琪、張世卓、付強、陳蓓、建築光、陳偉柱
arXiv 2022。
2022 年 6 月 6 日

問我任何問題：提示語言模型的簡單策略
Simran Arora、Avanika Narayan、Mayee F. Chen、Laurel Orr、Neel Guha、Kush Bhatia、Ines Chami、Frederic Sala、Christopher Ré
arXiv 2022。
2022 年 10 月 5 日

MathPrompter：使用大型語言模型進行數學推理
島伊瑪尼、杜亮、Harsh Shrivastava
arXiv 2023。
2023 年 3 月 4 日

基於複雜性的多步驟推理提示
付耀、彭浩、Ashish Sabharwal、Peter Clark、Tushar Khot
arXiv 2022。
2022 年 10 月 3 日

測量並縮小語言模型中的組合性差距
Ofir Press、Muru 張、Sewon Min、Ludwig Schmidt、Noah A. Smith、Mike Lewis
arXiv 2022。

針對知識密集多步驟問題的交叉檢索與思維鏈推理
Harsh Trivedi、Niranjan Balasubramanian、Tushar Khot、Ashish Sabharwal
arXiv 2023。
2022 年 12 月 20 日

及時調整、優化和設計

作為優化器的大型語言模型
楊成潤、王學智、陸一峰、劉漢曉、Quoc V. Le、Denny Zhou、陳新雲
arXiv 2023。
2023 年 9 月 7 日

InstructZero：黑盒大型語言模型的高效指令優化
陳立昌、陳久海、Tom Goldstein、黃恆、週天一
arXiv 2023。
2023 年 6 月 5 日

Promptboosting：具有十次前向傳遞的黑盒子文字分類
侯百如、喬·奧康納、雅各·安德烈亞斯、張世宇、張陽
ICML 2023。
2023 年 1 月 23 日

GrIPS：用於提示大型語言模型的無梯度、基於編輯的指令搜索
Archiki Prasad、Peter Hase、週翔、Mohit Bansal
EACL 2023。
2022 年 3 月 14 日

RLPrompt：透過強化學習優化離散文本提示
鄧明凱、王建宇、謝正平、王一涵、韓國、舒天民、宋孟、Eric P. Xing、胡志廷
EMNLP 2022。
2022 年 5 月 25 日

預訓練語言模型的黑盒提示學習
刁世哲、黃志超、徐瑞嘉、李雪春、林勇、小周、張桐
TMLR 2023。
2022 年 1 月 22 日

語言模型即服務的黑盒調優
孫天翔、邵雲帆、錢洪、黃玄靜、邱西鵬
ICML 2022。
2022 年 1 月 10 日

BBTv2：利用大型語言模型邁向無梯度的未來
孫天翔、何正福、錢紅、週雲華、黃玄晶、邱西鵬 EMNLP 2022. [論文] [Github]
2022 年 12 月 7 日

大型語言模式中的自動化思考提示鏈
張卓勝、張阿斯頓、穆里、亞歷克斯·斯莫拉
ICLR 2023。
2022 年 10 月 7 日

透過標記資料的思路自動提示增強和選擇
岑嘉順、刁世哲、張桐
arXiv 2023。
2023 年 2 月 24 日

大型語言模型是人類層級的提示工程師
周永超、Andrei Ioan Muresanu、Ziwen Han、Keiran Paster、Silviu Pitis、Harris Chan、Jimmy Ba
ICLR 2023。
2022 年 11 月 3 日

奇妙有序的提示以及在哪裡可以找到它們：克服小樣本提示順序敏感性
姚璐、馬克斯·巴托羅、阿拉斯泰爾·摩爾、塞巴斯蒂安·里德爾、龐圖斯·斯坦托普
ACL 2022。

用於情境學習的主動範例選擇
張一鳴、石峰、譚晨浩
EMNLP 2022。
2022 年 11 月 8 日

選擇性註釋使語言模型更適應少樣本學習者
蘇洪進、葛西淳吾、陳亨利、施偉佳、王天祿、辛嘉怡、張銳、Mari Ostendorf、Luke Zettlemoyer、Noah A. Smith、Tao Yu
ICLR 2023。
2022 年 9 月 5 日

學習檢索情境學習的提示
奧哈德·魯賓、喬納森·赫齊格、喬納森·貝蘭特
NAACL-HLT 2022。
2021 年 12 月 16 日

指令和 RLHF

LaMini-LM：從大規模指令中提取出的多樣化模型
吳明浩、Abdul Waheed、張馳宇、Muhammad Abdul-Mageed、Alham Fikri Aji
arXiv 2023。
2023 年 4 月 27 日

自我細化：透過自我回饋進行迭代細化
阿曼·馬達安、尼基特·坦登、普拉哈·古普塔、斯凱勒·哈利南、高魯豫、莎拉·維格瑞夫、烏裡·阿隆、努哈·德齊裡、什裡邁·帕布胡莫耶、楊一鳴、肖恩·韋爾克、Bodhisattwa Prasad Majumder、沙尚克·古普塔、阿米爾·亞茲丹巴赫什、彼得·克拉克
arXiv 2023。
2023 年 3 月 30 日

您只需要提示嗎？全面、更廣泛的教學學習觀
樓仁澤、張凱、尹文鵬
arXiv 2023。
2023 年 3 月 18 日

自我指導：使語言模型與自生成的指令保持一致
王一中、Yeganeh Kordi、Swaroop Mishra、Alisa Liu、Noah A. Smith、Daniel Khashabi、Hannaneh Hajishirzi
arXiv 2022。
2022 年 12 月 20 日

憲法人工智慧：人工智慧回饋的無害性
白雲濤等人（人類）
arXiv 2022。
2022 年 12 月 15 日

透過模型編寫的評估發現語言模型行為
伊桑·佩雷斯等。
arXiv 2022。
2022 年 12 月 19 日

情境教學學習
Seonghyeon Ye、Hyeonbin Hwang、Sohee Yang、Hyungu Yun、Yireun Kim、Minjoon Seo
arXiv 2023。
2023 年 2 月 28 日

工具和外部 API

透過少量提示進行開放域問答的網路增強語言模型
安吉利基·拉扎里杜、埃琳娜·格里博夫斯卡婭、沃伊切赫·斯托科維茨、尼古拉·格里戈列夫
arXiv 2023。
2023 年 3 月 10 日

思路提示：將計算與數值推理任務的推理分開
陳文虎、馬學光、王欣怡、William W. Cohen
arXiv 2022。
2022 年 11 月 22 日

PAL：程式輔助語言模型
高魯宇、Aman Madaan、週書彥、Uri Alon、劉鵬飛、楊一鳴、Jamie Callan、Graham Neubig
arXiv 2022。
2022 年 11 月 18 日

TALM：工具增強語言模型
亞倫·帕里西、姚照、諾亞·菲德爾
arXiv 2022。
2022 年 5 月 24 日

Toolformer：語言模型可以自學使用工具
提摩西·希克、珍·德維維迪-於、羅伯托·德西、羅伯塔·雷萊亞努、瑪麗亞·洛梅利、盧克·澤特莫耶、尼古拉·坎塞達、湯瑪斯‧夏洛姆
arXiv 2023。
2023 年 2 月 9 日

微調

一步一步蒸餾！使用較少的訓練資料和較小的模型大小超越較大的語言模型
謝正宇、李春亮、葉志寬、Hootan Nakhost、藤井康久、亞歷山大·拉特納、Ranjay Krishna、李振宇、托馬斯·菲斯特
arXiv 2023。
2023 年 5 月 3 日

FreeLM：免微調語言模型
李翔1、蔣欣、孟旭英、孫愛新、王業全
arXiv 2023。
2023 年 5 月 2 日

用於穩健語言模型微調的自動資料管理
陳久海、喬納斯·穆勒
arXiv 2024。
2024 年 3 月 19 日

穩健性

不變性

不變語言建模 Maxime Peyrard、Sarvjeet Singh Ghotra、Martin Josifoski、Vidhan Agarwal、Barun Patra、Dean Carignan、Emre Kiciman、Robert West
EMNLP 2022。
2021 年 10 月 16 日

透過順序不敏感的表示正則化實現穩健的個人化對話生成
陳良、王宏儒、鄧陽、關偉忠、黃錦輝
ACL 2023 的調查結果。
2023 年 5 月 22 日

分佈轉移

探索用於程式碼分析的大型語言模型中的分佈變化
蜀山阿拉克里安、Rocktim Jyoti Das、毛一、向仁
arXiv 2023。
2023 年 3 月 16 日

分佈外

條件語言模型的分佈外檢測與選擇性生成
任傑、羅家明、趙耀、Kundan Krishna、Mohammad Saleh、Balaji Lakshminarayanan、Peter J. Liu
ICLR 2023。
2022 年 9 月 30 日

適應和推廣

關於預訓練語言模型的領域適應與泛化：調查
徐果、韓宇
arXiv 2022。
2022 年 11 月 6 日

對抗性的

對法學碩士的對抗性攻擊
翁莉蓮[部落格]
2023 年 10 月 25 日

PromptBench：評估大型語言模型在對抗性提示上的穩健性
朱凱傑、王金東、周家恆、王子辰、陳浩、王一東、楊林一、葉偉、龔振強、張悅、謝興
arXiv 2023。
20223 年 6 月 7 日

關於 ChatGPT 的穩健性：對抗性和非分佈視角
王金東、胡希旭、侯文鑫、陳浩、鄭潤凱、王一東、楊林一、黃浩軍、葉偉、耿秀波、焦彬新、張悅、謝興
arXiv 2023。
2023 年 2 月 22 日

自然語言處理系統的可靠性測試
Samson Tan、Shafiq Joty、Kathy Baxter、Araz Taeihagh、Gregory A. Bennett、Min-Yen Kan
ACL-IJCNLP 2021。
2021 年 5 月 6 日

歸因

屬性問答：屬性大語言模型的評估與建模
Bernd Bohnet、Vinh Q. Tran、Pat Verga、Roee Aharoni、Daniel Andor、Livio Baldini Soares、Massimiliano Ciaramita、Jacob Eisenstein、Kuzman Ganchev、Jonathan Herzig、Kai Hui、Tom Kwiatkowski、Ji Ma、Jianmo Ni、Lierni Segui舒斯特、威廉·W·科恩、麥可·柯林斯、迪潘揚·達斯、唐納德·梅茨勒、斯拉夫·彼得羅夫、凱莉·韋伯斯特
arXiv 2022。
2022 年 12 月 15 日