此儲存庫包含論文《大型語言模型的指令調優:調查》中引用的資源。
如果您發現此儲存庫有幫助,請引用以下內容:
@article{zhang2023instruction,
title={Instruction Tuning for Large Language Models: A Survey},
author={Zhang, Shengyu and Dong, Linfeng and Li, Xiaoya and Zhang, Sen and Sun, Xiaofei and Wang, Shuhe and Li, Jiwei and Hu, Runyi and Zhang, Tianwei and Wu, Fei and others},
journal={arXiv preprint arXiv:2308.10792},
year={2023}
}
敬請關注!更多相關作品將會持續更新!
指令調優(IT)是指以監督方式在由(instruction, output)
對組成的資料集上進一步訓練大型語言模型(LLM)的過程,它彌合了LLM 的下一個單字預測目標與使用者之間的差距' 讓法學碩士遵守人類指示的目標。指令調優的一般流程如下:
在本文中,我們對文獻進行了系統性回顧,包括IT的一般方法、IT資料集的建構、IT模型的訓練以及在不同模式、領域和應用中的應用,並分析了影響IT的面向。結果(例如,指令輸出的生成、指令資料集的大小等)。我們也回顧了 IT 的潛在陷阱以及對其的批評,同時指出了現有策略的當前缺陷,並提出了一些進行有成效的研究的途徑。論文的類型如下:
類型 | 資料集名稱 | 紙 | 專案 | 指令數量 | # 郎 | 建造 | 開源 |
---|---|---|---|---|---|---|---|
人造的 | 統一品質保證 [1] | 紙 | 專案 | 750K | 恩 | 人造的 | 是的 |
統一SKG [2] | 紙 | 專案 | 0.8M | 恩 | 人造的 | 是的 | |
自然指令 [3] | 紙 | 專案 | 193K | 恩 | 人造的 | 是的 | |
超自然指示 [4] | 紙 | 專案 | 5M | 55 郎 | 人造的 | 是的 | |
P3 [5] | 紙 | 專案 | 12M | 恩 | 人造的 | 是的 | |
xP3 [6] | 紙 | 專案 | 81M | 46 郎 | 人造的 | 是的 | |
水果餡餅 2021 [7] | 紙 | 專案 | 4.4M | 恩 | 人造的 | 是的 | |
COIG [8] | 紙 | 專案 | - | - | - | 是的 | |
指導GPT [9] | 紙 | - | 13K | 多 | 人造的 | 不 | |
多莉 [10] | 紙 | 專案 | 15K | 恩 | 人造的 | 是的 | |
利馬 [11] | 紙 | 專案 | 1K | 恩 | 人造的 | 是的 | |
聊天GPT [12] | 紙 | - | - | 多 | 人造的 | 不 | |
打開助手 [13] | 紙 | 專案 | 161,443 | 多 | 人造的 | 是的 | |
合成數據(蒸餾) | 監察辦 [14] | - | 專案 | 43M | 恩 | ChatGPT(無技術報告) | 是的 |
不自然的指令 [3] | 紙 | 專案 | 24萬 | 恩 | 指示 GPT 生成 | 是的 | |
狂野指導 [15] | - | 專案 | 104K | - | ChatGPT 產生的 | 是的 | |
Evol-Instruct / WizardLM [16] | 紙 | 專案 | 52K | 恩 | ChatGPT 產生的 | 是的 | |
羊駝毛 [17] | - | 專案 | 52K | 恩 | 指示 GPT 生成 | 是的 | |
邏輯科特 [18] | 紙 | 專案 | - | 恩 | GPT-4 生成 | 是的 | |
GPT-4-法學碩士 [19] | 紙 | 專案 | 52K | 恩與中 | GPT-4 生成 | 是的 | |
駱駝毛 [20] | - | 專案 | 70K | 恩 | 真實用戶-ChatGPT 對話 | 不 | |
白澤 v1 [21] | 紙 | 專案 | 111.5K | 恩 | ChatGPT 產生的 | 是的 | |
超聊 [22] | 紙 | 專案 | 675K | 恩與中 | GPT 3/4-生成 | 是的 | |
原駝 [23] | - | 專案 | 534,530 | 多 | GPT(未知版本)-生成 | 是的 | |
虎鯨 [24] | 紙 | 專案 | 1.5M | 恩 | GPT 3.5/4-生成 | 是的 | |
分享GPT | - | 專案 | 90K | 多 | 真實用戶-ChatGPT 對話 | 是的 | |
野聊 | - | 專案 | 15萬 | 多 | 真實用戶-ChatGPT 對話 | 是的 | |
嚮導編碼器 [25] | 紙 | - | - | 程式碼 | LLaMa 2 生成 | 不 | |
魔法編碼器 [26] | 紙 | 專案 | 75K/110K | 程式碼 | GPT-3.5-生成 | 是的 | |
波編碼器 [27] | 紙 | - | - | 程式碼 | GPT 4 生成 | 不 | |
Φ1 [28] | 紙 | 專案 | 6B代幣 | 代碼問與答 | GPT-3.5-生成 | 是的 | |
Φ1.5 [29] | 紙 | - | - | 代碼問與答 | GPT-3.5-生成 | 不 | |
花蜜 [30] | 紙 | 專案 | ~183K | 恩 | GPT 4 生成 | 是的 | |
綜合數據(自我改善) | 自學 [31] | 紙 | 專案 | 52K | 恩 | 指示 GPT 生成 | 是的 |
指令反向翻譯 [32] | 紙 | - | 502K | 恩 | LLaMa 生成 | 不 | |
旋轉 [33] | 紙 | 專案 | 49.8K | 恩 | Zephyr 生成 | 是的 |
型號名稱 | # 參數 | 紙 | 專案 | 基本型號 | 指令集 | ||
---|---|---|---|---|---|---|---|
自建 | 姓名 | 尺寸 | |||||
指導GPT [9] | 176B | 紙 | - | GPT-3 [36] | 是的 | - | - |
布魯姆茲 [34] | 176B | 紙 | 專案 | 綻放 [37] | 不 | xP3 | - |
法蘭-T5 [35] | 11B | 紙 | 專案 | T5 [38] | 不 | 2021年弗蘭 | - |
羊駝毛 [17] | 7B | - | 專案 | 美洲駝 [39] | 是的 | - | 52K |
駱馬毛 [20] | 13B | - | 專案 | 美洲駝 [39] | 是的 | - | 70K |
GPT-4-法學碩士 [19] | 7B | 紙 | 專案 | 美洲駝 [39] | 是的 | - | 52K |
克勞德 [40] | - | 紙 | - | - | 是的 | - | - |
巫師LM [16] | 7B | 紙 | 專案 | 美洲駝 [39] | 是的 | 進化指導 | 70K |
聊天GLM2 [41] | 6B | 紙 | 專案 | 通用LM[41] | 是的 | - | 1.1 代幣 |
利馬 [11] | 65B | 紙 | 專案 | 美洲駝 [39] | 是的 | 1K | |
OPT-IML [42] | 175B | 紙 | 專案 | 選擇[43] | 不 | - | - |
多莉2.0 [44] | 12B | - | 專案 | 皮提亞 [45] | 不 | - | 15K |
獵鷹指導 [46] | 40B | 紙 | 專案 | 獵鷹 [46] | 不 | - | - |
原駝 [23] | 7B | - | 專案 | 美洲駝 [39] | 是的 | - | 586K |
牛頭怪 [47] | 15B | - | 專案 | Starcoder Plus [48] | 不 | - | - |
努斯赫爾墨斯 [49] | 13B | - | 專案 | 美洲駝 [39] | 不 | - | 30萬+ |
圖魯 [50] | 6.7B | 紙 | 專案 | 選擇[43] | 不 | 混合 | - |
玉蘭花-聊天 [51] | 13B | - | 專案 | 美洲駝 [39] | 是的 | - | 25萬 |
莫斯 [52] | 16B | - | 專案 | - | 是的 | - | - |
艾洛波羅斯 [53] | 13B | - | 專案 | 美洲駝 [39] | 是的 | - | - |
超LM [22] | 13B | 紙 | 專案 | 美洲駝 [39] | 是的 | - | - |
資料集名稱 | 紙 | 專案 | 方式 | # 任務 | |
---|---|---|---|---|---|
模態對 | # 實例 | ||||
多指令 [54] | 紙 | 專案 | 圖文 | 每個任務 5K 到 5M | 62 |
PMC-VQA [55] | 紙 | 專案 | 圖文 | 227K | 9 |
拉姆 [56] | 紙 | 專案 | 圖文 | 186K | 9 |
點雲-文本 | 10K | 3 | |||
願景-弗蘭 [57] | 紙 | 專案 | 多對 | ~1M | 200+ |
阿拉瓦 [58] | 紙 | 專案 | 圖文 | 1.4M | 2 |
分享GPT4V [59] | 紙 | 專案 | 圖文 | 1.2M | 2 |
型號名稱 | # 參數 | 紙 | 專案 | 模態 | 基本型號 | 火車組 | ||
---|---|---|---|---|---|---|---|---|
型號名稱 | # 參數 | 自建 | 尺寸 | |||||
指導Pix2Pix [60] | 983M | 紙 | 專案 | 圖文 | 穩定擴散 [62] | 983M | 是的 | 45萬 |
拉瓦 [61] | 13B | 紙 | 專案 | 圖文 | 剪輯 [63] | 400M | 是的 | 158K |
美洲駝 [39] | 7B | |||||||
美洲駝 [39] | 7B | |||||||
影片-LLaMA [64] | - | 紙 | 專案 | 圖文視訊音訊 | BLIP-2 [65] | - | 不 | - |
影像綁定 [66] | - | |||||||
駱駝毛[20] | 7B/13B | |||||||
指導BLIP [67] | 12B | 紙 | 專案 | 圖文影片 | BLIP-2 [65] | - | 不 | - |
水獺 [68] | - | 紙 | 專案 | 圖文影片 | 開放火烈鳥 [69] | 9B | 是的 | 2.8M |
多模式-GPT [70] | - | 紙 | 專案 | 圖文影片 | 開放火烈鳥 [69] | 9B | 不 | - |
領域 | 型號名稱 | # 參數 | 紙 | 專案 | 基本型號 | 列車尺寸 |
---|---|---|---|---|---|---|
醫療的 | 放射學-GPT [71] | 7B | 紙 | 專案 | 羊駝毛[17] | 122K |
聊天醫生 [72] | 7B | 紙 | 專案 | 美洲駝 [39] | 122K | |
ChatGLM-醫學 [73] | 6B | - | 專案 | 聊天GLM [41] | - | |
寫作 | 書寫-羊駝 [74] | 7B | 紙 | - | 美洲駝 [39] | - |
編輯[75] | 11B | 紙 | 專案 | 法蘭-T5 [7] | 82K | |
合作詩人 [76] | 11B | 紙 | 專案 | T5[38] | - | |
程式碼生成 | 嚮導編碼器 [25] | 15B | 紙 | 專案 | 星編碼器 [48] | 78K |
情緒分析 | IT-MTL [77] | 220M | 紙 | 專案 | T5[38] | - |
算術 | 山羊 [78] | 7B | 紙 | 專案 | 美洲駝 [39] | 1.0M |
資訊擷取 | 指導UIE [79] | 11B | 紙 | 專案 | 法蘭-T5 [7] | 1.0M |
姓名 | 紙 | 專案 |
---|---|---|
洛拉 [80] | 紙 | 專案 |
提示 [81] | 紙 | 專案 |
QLoRA [82] | 紙 | 專案 |
樂魔 [83] | 紙 | 專案 |
Delta 調整 [84] | 紙 | 專案 |
封閉式評估 | 紙 | 專案 |
---|---|---|
大規模多任務語言理解(MMLU)[85] | 紙 | 專案 |
數學 [86] | 紙 | 專案 |
GSM8K [87] | 紙 | 專案 |
大板凳硬 (BBH) [88] | 紙 | 專案 |
人類評估 [89] | 紙 | 專案 |
IFEval [90] | 紙 | 專案 |
基於 GPT 的評估 | 紙 | 專案 |
---|---|---|
羊駝毛評估 [91] | - | 專案 |
長度控制的羊駝毛Eval [92] | 紙 | 專案 |
MT 長椅 [93] | 紙 | 專案 |
狂野長凳 [94] | 紙 | 專案 |
[1] Khashabi、Daniel、Sewon Min、Tushar Khot、Ashish Sabharwal、Oyvind Tafjord、Peter Clark 和 Hannaneh Hajishirzi。 Unifiedqa:使用單一 qa 系統跨越格式邊界。 arXiv 預印本 arXiv:2005.00700 (2020)。紙
[2] 謝天謝地寶、陳亨利吳、石鵬、鍾瑞琪、Torsten Scholak、Michihiro Yasunaga、吳建生、鍾明、尹鵬程、Sida I. Wang、Victor Zhu、Bailin Wang、Chengzu Li、Connor Boyle、倪安松、姚子宇、Dragomir R. Radev、熊才明、孔令鵬、張銳、Noah A. Smith、Luke Zettlemoyer 和陶宇。 Unifiedskg:使用文本到文本語言模型來統一和多任務結構化知識基礎。自然語言處理經驗方法會議,2022 年。
[3] Mishra、Swaroop 和 Khashabi、Daniel 和 Baral、Chitta 和 Hajishirzi、Hannaneh。非自然指令:(幾乎)無需人類勞動即可調整語言模型。 arXiv 預印本 arXiv:2212.09689, 2022. 論文
[3] 或 Honovich、Thomas Scialom、Omer Levy 和 Timo Schick。非自然指令:(幾乎)無需人類勞動即可調整語言模型。 arXiv 預印本 arXiv:2212.09689, 2022. 論文
[4] 王一中、Swaroop Mishra、Pegah Alipoormolabashi、Yeganeh Kordi、Amirreza Mirzaei、Anjana Arunkumar、Arjun Ashok、Arut Selvan Dhanasekaran、Atharva Naik、David Stap 等。超自然指令:透過 1600 多個任務的聲明性指令進行概括。在 EMNLP,2022 年。
[5] Victor Sanh、Albert Webson、Colin Raffel、Stephen H Bach、Lintang Sutawika、Zaid Alyafeai、Antoine Chaffin、Arnaud Stiegler、Teven Le Scao、Arun Raja 等人。多工提示訓練可實現零樣本任務泛化。 arXiv 預印本 arXiv:2110.08207, 2021. 論文
[6] Niklas Muennighoff、Thomas Wang、Lintang Sutawika、Adam Roberts、Stella Biderman、Teven Le Scao、M Saiful Bari、Sheng Shen、Zheng-Xin Yong、Hailey Schoelkopf 等。透過多任務微調進行跨語言泛化。 arXiv 預印本 arXiv:2211.01786, 2022. 論文
[7] Shayne Longpre、Le Hou、Tu Vu、Albert Webson、Hyung Won Chung、Yi Tay、Denny Zhou、Quoc V Le、Barret Zoph、Jason Wei 等。 flan 集合:設計有效指令調整的資料和方法。 arXiv 預印本 arXiv:2301.13688, 2023. 論文
[8] 張戈,施業民,劉瑞波,袁瑞斌,李一智,董思維,於舒,李兆群,王澤坤,林成華,黃文芬,付傑。中文開放教學通才:初步發布。 ArXiv,abs/2304.07987,2023。
[9] 歐陽龍,吳杰弗裡,徐江,迪奧戈·阿爾梅達,卡羅爾·溫賴特,帕梅拉·米甚金,張衝,桑迪尼·阿加瓦爾,卡塔琳娜·斯拉馬,亞歷克斯·雷,等。訓練語言模型遵循人類回饋的指令。神經資訊處理系統的進展,35:27730–27744,2022 年。
[10] Mike Conover, Matt Hayes, Ankit Mathur, 孟祥瑞, 謝建偉, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia, 等. Free dolly:推出世界上第一個真正開放的、經過指令調整的法學碩士,2023 年。
[11] 週春婷、劉鵬飛、徐普欣、Srini Iyer、孫焦、毛宇寧、馬學哲、Avia Efrat、於平、於麗、Susan 張、Gargi Ghosh、Mike Lewis、Luke Zettlemoyer 和 Omer Levy。利馬:對於一致性來說,少即是多。 ArXiv,abs/2305.11206,2023。
[12] 開放人工智慧。介紹 chatgpt 。部落格文章 openai.com/blog/chatgpt,2022 年。
[13] Andreas Köpf、Yannic Kilcher、Dimitri von Rütte、Sotiris Anagnostidis、Zhi-Rui Tam、Keith Stevens、Abdullah Barhoum、Nguyen Minh Duc、Oliver Stanley、Richard Nagyfi 等。開放式助理對話-使大語言模型對齊民主化。 arXiv 預印本 arXiv:2304.07327, 2023. 論文
[14] 萊昂.ai。 Oig:開放指令通才資料集,2023 年。
[15]薛福兆,Kabir Jain,Mahir Hitesh Shah,鄭臧偉,尤陽。野外指令:基於使用者的指令資料集。 github.com/XueFuzhao/InstructionWild,2023
。
[16] 徐燦,孫慶豐,鄭凱,耿秀波,趙璞,馮家佔,陶重陽,蔣大新。 Wizardlm:使大型語言模型能夠遵循複雜的指令,2023 年。
[17] Rohan Taori、Ishaan Gulrajani、張天一、Yann Dubois、Xuechen Li、Carlos Guestrin、Percy Liang 與 Tatsunori B Hashimoto。 Alpaca:一種強大的、可複製的指令遵循模型。史丹佛大學基礎模型研究中心。 https://crfm.stanford.edu/2023/03/13/alpaca.html
。
[18] 劉漢萌,滕志陽,崔樂陽,張超麗,週其吉,張悅。 Logicot:使用 gpt-4 進行邏輯思想鏈指令調整資料收集。 ArXiv,abs/2305.12147,2023。
[19] 彭寶林,李春元,何鵬程,Michel Galley,高劍峰。使用 gpt-4 進行指令調整。 arXiv 預印本 arXiv:2304.03277, 2023. 論文
[20] 蔣偉林,李卓涵,林子,盛英,吳張浩,張浩,鄭聯民,莊思源,莊永浩,Joseph E Gonzalez,等。 Vicuna:一款開源聊天機器人,其 90% 的 chatgpt 品質給 gpt-4 留下了深刻的印象。請參閱https://vicuna.lmsys.org
(2023 年 4 月 14 日瀏覽),2023 年。
[21] 徐燦文、郭大亞、段楠、朱利安‧麥考利。 Baize:一種對自聊天資料進行參數高效調優的開源聊天模型。紙
[22] 丁寧,陳玉林,徐博凱,秦宇佳,鄭志,胡勝定,劉志遠,孫茂松,週博文。透過擴展高品質的教學對話來增強聊天語言模型。 arXiv 預印本 arXiv:2305.14233, 2023. 論文
[23] 張約瑟夫. guanaco:自然語言自適應上下文感知全語言輸出的生成通用助手,2021 年。
[24] Subhabrata Mukherjee、Arindam Mitra、Ganesh Jawahar、Sahaj Agarwal、Hamid Palangi 和 Ahmed Awadallah。 2023. Orca:從 gpt-4 的複雜解釋痕跡中進行漸進學習。 arXiv 預印本 arXiv:2306.02707。紙
[25] 羅紫陽,徐燦,趙璞,孫慶豐,耿秀波,胡文祥,陶重陽,馬靜,林慶偉,蔣大新。 2023. Wizardcoder:使用 evol-instruct 為大型語言模型提供支援。紙
[26] 魏宇翔,王哲,劉家偉,丁一峰,張令明。 2023b。 Magicoder:原始碼就是您所需要的。 arXiv 預印本 arXiv:2312.02120。紙
[27] 於兆建,張鑫,商寧,黃陽宇,徐燦,趙藝樹傑,胡文祥,尹秋峰。 2023. Wavecoder:廣泛且通用的增強型指令調整,具有精細的資料產生功能。 arXiv 預印本 arXiv:2312.14187。紙
[28] Suriya Gunasekar、張一、Jyoti Aneja、Caio César Teodoro Mendes、Allie Del Giorno、Sivakanth Gopi、Mojan Javaheripi、Piero Kauffmann、Gustavo de Rosa、Olli Saarikivi 等。 2023年。 arXiv 預印本 arXiv:2306.11644。紙
[29] 李遠志、Sébastien Bubeck、Ronen Eldan、Allie Del Giorno、Suriya Gunasekar 和 Yin Tat Lee。 2023 小時。教科書就是你所需要的ii:phi-1.5技術報告。 arXiv 預印本 arXiv:2309.05463。紙
[30]朱邦華,艾文‧弗里克,吳天浩,朱翰林,焦建濤。 2023a。 Starling-7b:使用 rlaif 提高 llm 的幫助性和無害性。紙
[31]王一中、Yeganeh Kordi、Swaroop Mishra、Alisa Liu、Noah A Smith、Daniel Khashabi 和 Hannaneh Hajishirzi。自指令:將語言模型與自生成的指令對齊。 arXiv 預印本 arXiv:2212.10560, 2022. 論文
[32] 李賢,於平,週春亭,蒂莫·希克,盧克·澤特莫耶,奧馬爾·利維,傑森·韋斯頓,邁克·劉易斯。 2023克。與指令反向翻譯的自對準。 arXiv 預印本 arXiv:2308.06259。紙
[33] 陳子祥,鄧一和,袁慧卓,季凱旋,穀泉泉。 2024年, Self-play微調將弱語言模型轉換為強語言模型。 arXiv 預印本 arXiv:2401.01335。紙
[34] Niklas Muennighoff、Thomas Wang、Lintang Sutawika、Adam Roberts、Stella Biderman、Teven Le Scao、M Saiful Bari、Sheng Shen、Zheng-Xin Yong、Hailey Schoelkopf 等。 2022.透過多任務微調進行跨語言泛化。 arXiv 預印本 arXiv:2211.01786。紙
[35] Hyung Won Chung、Le Hou、S. Longpre、Barret Zoph、Yi Tay、William Fedus、Eric Li、Xuezhi Wang、Mostafa Dehghani、Siddhartha Brahma、Albert Webson、Shishan Shane Gu、Zhuyun Dai、Mirac , Aakanksha Chowdhery, Dasha Valter, Sharan Narang, Gaurav Mishra, Adams Wei Yu, Vincent Zhao, Yanping Huang, Andrew M. Dai, Hongkun Yu, Slav Petrov, Ed Huai Hsin Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou 、Quoc V. Le 和Jason Wei。擴展指令微調語言模型。 ArXiv,abs/2210.11416,2022。
[36] Tom B. Brown、Benjamin Mann、Nick Ryder、Melanie Subbiah、Jared Kaplan、Prafulla Dhariwal、Arvind Neelakantan、Pranav Shyam、Girish Sastry、Amanda Askel、Sandhini Agarwal、Ariel Herbert-Voss、Gretchen Krueger、TJ Henighan、Rewon Child、Aditya Ramesh、Daniel M. Ziegler、Jeff Wu、Clemens Winter、Christopher Hesse、Mark Chen、Eric Sigler、Mateusz Litwin、Scott Gray、Benjamin Chess、Jack Clark、Christopher Berner、Sam McCandlish、Alec Radford、Ilya Sutskever 和達裡奧·阿莫代.語言模型是小樣本學習者。 ArXiv,abs/2005.14165,2020。
[37] Scao、Teven Le、Angela Fan、Christopher Akiki、Ellie Pavlick、Suzana Ilić、Daniel Hesslow、Roman Castagné 等人。 Bloom:176b 參數的開放取用多語言語言模式。 arXiv 預印本 arXiv:2211.05100 (2022)。紙
[38] Colin Raffel、Noam M. Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li 和 Peter J. Liu。使用統一的文字到文字轉換器來探索遷移學習的限制。 ArXiv,abs/1910.10683,2019。
[39] 雨果·圖夫龍、蒂博·拉夫里爾、戈蒂埃·伊扎卡爾、澤維爾·馬丁內特、瑪麗-安妮·拉肖、蒂莫西·拉克魯瓦、巴蒂斯特·羅齊埃、納曼·戈亞爾、埃里克·漢布羅、費薩爾·阿扎爾、奧埃利安·羅德里格斯、阿曼德·朱蘭、愛德華·格雷夫和紀堯姆·蘭普爾。 Llama:開放高效率的基礎語言模式。 ArXiv,abs/2302.13971,2023。
[40] 白雲濤、Saurav Kadavath、Sandipan Kundu、Amanda Askell、Jackson Kernion、Andy Jones、Anna Chen、Anna Goldie、Azalia Mirhoseini、Cameron McKinnon 等。憲法人工智慧:人工智慧回饋的無害性。 arXiv 預印本 arXiv:2212.08073, 2022. 論文
[41] 杜正曉,錢玉傑,劉曉,丁明,邱傑中,楊誌林,唐傑。 Glm:具有自回歸空白填充的通用語言模型預訓練。計算語言學會第 60 屆年會論文集(第一卷:長論文),第 320-335 頁,2022 年。
[42] Srinivas Iyer、Xiaojuan Lin、Ramakanth Pasunuru、Todor Mihaylov、Daniel Simig、Ping Yu、Kurt Shuster、Tianlu Wang、Qing Liu、Punit Singh Koura、Xian Li、Brian O'Horo、Gabriel Pereyra、Jeff Wang、Christopher Dewan 、阿斯利·切尼克爾馬茲、盧克·澤特爾莫耶和維塞林·斯托亞諾夫。 Opt-iml:透過泛化的視角擴展語言模型指令元學習。 ArXiv,abs/2212.12017,2022。
[43] Susan 張、Stephen Roller、Naman Goyal、Mikel Artetxe、Moya Chen、Shuohui Chen、Christopher Dewan、Mona T. Diab、Xian Li、Xi Victoria Lin、Todor Mihaylov、Myle Ott、Sam Shleifer、Kurt Shuster、Daniel Simig 、Punit Singh Koura、Anjali Sridhar、Tianlu Wang 和Luke Zettlemoyer。 2022a。 Opt:開啟預先訓練的 Transformer 語言模式。 ArXiv,abs/2205.01068。紙
[44] Mike Conover,Matt Hayes,Ankit Mathur,孟祥瑞,謝建偉,萬軍,Sam Shah,Ali Ghodsi,Patrick Wendell,Matei Zaharia,等。 Free dolly:推出世界上第一個真正開放的、經過指示調整的法學碩士,2023 年。
[45] Stella Rose Biderman、Hailey Schoelkopf、Quentin G. Anthony、Herbie Bradley、Kyle O'Brien、Eric Hallahan、Mohammad Aflah Khan、Shivanshu Purohit、USVSN Sai Prashanth、Edward Raff、Aviya Skowron、Lintang Sutawika 和 Oskar van der爾。 Pythia:用於跨訓練和擴展分析大型語言模型的套件。 ArXiv,abs/2304.01373,2023。
[46] Ebtesam Almazrouei、Hamza Alobeidli、Abdulaziz Alshamsi、Alessandro Cappelli、Ruxandra Cojocaru、Merouane Debah、Etienne Goffinet、Daniel Heslow、Julien Launay、Quentin Malartic、Baddine Noffinet、Daniel Heslow、朱莉Falcon-40B:具有最先進性能的開放大型語言模型。 2023.紙
[47] OpenAccess 人工智慧集體。軟體:huggingface.co/openaccess-ai-collective/minotaur-15b,2023。
[48] Raymond Li,Loubna Ben Allal,Yangtian Zi,Niklas Muennighoff,Denis Kocetkov,Chenghao Mou,Marc Marone,Christopher Akiki,Jia Li,Jenny Chim,等。 Starcoder:願源頭與你同在! arXiv 預印本 arXiv:2305.06161, 2023. 論文
[49]諾斯研究。軟體:huggingface.co/NousResearch/Nous-Hermes-13b,2023。
[50] 王一中、Hamish Ivison、Pradeep Dasigi、Jack Hessel、Tushar Khot、Khyathi Raghavi Chandu、David Wadden、Kelsey MacMillan、Noah A. Smith、Iz Beltagy 和 Hanna Hajishirzi。駱駝能走多遠?探索開放資源上指令調整的狀態。 ArXiv,abs/2306.04751,2023。
[51] 玉蘭花聊天隊. Yulan-chat:開源雙語聊天機器人。 github.com/RUC-GSAI/YuLan-Chat,2023。
[52] 孫天祥,邱錫鵬。莫斯.部落格文章 txsun1997.github.io/blogs/moss.html,2023 年。
[53] 喬恩‧德賓。艾洛波羅斯。軟體:github.com/jondurbin/airoboros,2023。
[54]徐志陽,沈穎,黃立夫。多指令:透過指令調整改進多模式零樣本學習。 ArXiv,abs/2212.10773,2022。
[55] 張曉曼,吳超一,趙自恆,林偉雄,張雅,王豔峰,謝偉迪。 Pmc-vqa:醫學視覺問答的視覺指示調整。 ArXiv,abs/2305.10415。 2023.紙
[56] 殷振飛,王炯,曹建建,施哲倫,劉定寧,李木凱,盧勝,白雷,黃小水,王志勇,歐陽萬裡,邵靜。 Lamm:語言輔助多模式指令調優資料集、框架和基準。 ArXiv,abs/2306.06687,2023。
[57] 徐志陽,馮超,邵儒林,Trevor Ashby,沈穎,金迪,程宇,王起凡,黃立夫。 2024. Vision-flan:在視覺指令調整中擴展人工標記的任務。 arXiv 預印本 arXiv:2402.11690。紙
[58] 陳貴明、陳樹年、張瑞飛、陳俊英、吳向波、張志毅、陳志宏、李建全、萬向、王本友。 2024a。 Allava:利用 gpt4v 合成的資料來建構精簡版視覺語言模型。 arXiv 預印本 arXiv:2402.11684。紙
[59] 陳林,李繼松,董曉義,張潘,何從輝,王嘉琪,趙峰,林大華。 2023a。 Sharegpt4v:透過更好的標題來改進大型多模態模型。 arXiv 預印本 arXiv:2311.12793。紙
[60] 提姆·布魯克斯、亞歷山大·霍林斯基和阿列克謝·A·埃弗羅斯。 Instructpix2pix:學習遵循圖像編輯說明。 ArXiv,abs/2211.09800,2022。
[61] 劉浩天,李春元,吳慶陽,李勇傑。視覺指令調整。 ArXiv,abs/2304.08485,2023。
[62] 羅賓·隆巴赫、安德烈亞斯·布拉特曼、多米尼克·洛倫茨、帕特里克·埃瑟和比約恩·奧默。使用潛在擴散模型進行高解析度影像合成。 IEEE/CVF 電腦視覺與模式辨識會議論文集,第 10684–10695 頁,2022 年。
[63] 亞歷克雷德福、金鐘旭、克里斯哈拉西、阿迪亞拉梅什、加布里埃爾吳、桑迪尼阿加瓦爾、吉里什薩斯特里、阿曼達·阿斯克爾、帕梅拉·米甚金、傑克·克拉克、格雷琴·克魯格和伊利亞·蘇茨克弗。從自然語言督導中學習可遷移的視覺模型。國際機器學習會議,2021 年。
[64] 張航,李欣,冰立東。 Video- llama:一種用於視訊理解的指令調整視聽語言模型。 arXiv 預印本 arXiv:2306.02858, 2023. 論文
[65] 李俊楠,李東旭,西爾維奧·薩瓦雷斯,史蒂文·霍伊。 BLIP-2:使用凍結影像編碼器和大型語言模型引導語言影像預訓練。 ICML,2023 年。
[66] Rohit Girdhar、Alaaeldin El-Nouby、Zhuang Liu、Mannat Singh、Kalyan Vasudev Alwala、Armand Joulin 和 Ishan Misra。 Imagebind:一個嵌入空間將它們全部綁定。 CVPR,2023 年。
[67] 戴文亮、李俊楠、李東旭、孟發忠、趙俊奇、王偉勝、李博陽、馮帕斯卡爾和史蒂文·霍伊。 Instructblip:透過指令調整實作通用視覺語言模型。 ArXiv,abs/2305.06500,2023。
[68] 李博,張元涵,陳良宇,王景浩,楊景康,劉紫薇。 Otter:具有上下文指令調整的多模態模型。 ArXiv,abs/2305.03726,2023。
[69]Anas Awadalla、Irena Gau、Joshua Gardner、Jack Hessel、Yusuf Hanafy、朱萬榮、Kalyani Marathe、Yonatan Bitton、Samir Gadre、Jenia Jitsev 等。火烈鳥公開賽,2023 年。
[70] 龔濤,呂承啟,張世龍,王玉東,鄭苗,趙千夢科,劉奎坤,張文偉,羅平,陳凱。 Multimodal-gpt:與人類對話的視覺和語言模型。 ArXiv,abs/2305.04790,2023。
[71] 劉崢、鍾敖曉、李一偉、楊龍濤、鞠超、吳子豪、馬沖、彭舒、陳成、Sekeun Kim、戴海星、趙林、朱大江、劉軍、劉偉、沈定剛、李翔、李全正、劉天明。 Radiology-gpt:放射學的大型語言模型。 2023.紙
[72] 李雲翔,李子涵,張凱,丹瑞龍,張友。 Chatdoctor:使用醫學領域知識在 llama 模型上進行微調的醫療聊天模型。 ArXiv,abs/2303.14070,2023。
[73]森東趙兵秦廷劉浩春王,劉馳.查特格姆醫學。 github.com/SCIR-HI/Med-ChatGLM,2023 。
[74] 張悅,崔樂陽,蔡鄧,黃新庭,方濤,畢偉。 2023d。針對特定場景的 llama 多任務指令調整:寫作輔助的初步研究。 ArXiv,abs/2305.13225。紙
[75] Vipul Raheja、Dhruv Kumar、Ryan Koo 和 Dongyeop Kang。 2023. Coedit:透過特定於任務的指令調整進行文字編輯。 ArXiv,abs/2305.09857。紙
[76]Tuhin Chakrabarty,Vishakh Padmakumar,何恆興。 2022.幫助我寫一首詩歌指令調音,作為協作詩歌寫作的工具。 ArXiv,abs/2210.13669。紙
[77] Siddharth Varia、Shuai Wang、Kishaloy Halder、Robert Vacareanu、Miguel Ballesteros、Yassine Benajiba、Neha Ann John、Rishita Anubhai、Smaranda Muresan 和 Dan Roth。 2022.基於少數方面的情緒分析的指令調整。 ArXiv,abs/2210.06629。紙
[78] 劉鐵東,Bryan Kian Hsiang。山羊:經過微調的 llama 在算術任務上優於 gpt-4 。 arXiv 預印本 arXiv:2305.14201, 2023. 論文
[79] 王曉,週偉,祖燦,夏寒,陳天澤,張遠,鄭銳,葉俊傑,張琪,陶貴,康繼華,楊建,李思源,杜春賽。 Instructuie:用於統一資訊擷取的多任務指令調整。 ArXiv,abs/2304.08085,2023。
[80] Edward J Hu、Yelong Shen、Phillip Wallis、Zeyuan Allen-Zhu、Yuanzhi Li、Shean Wang、Lu Wang 和 Weizhu Chen。 2021. Lora:大語言模式的低秩適應。 arXiv 預印本 arXiv:2106.09685。紙
[81] Hamish Ivison、Akshita Bhagia、王一中、Hannaneh Hajishirzi 和 Matthew E. Peters。 2022 。 ArXiv,abs/2212.10315。紙
[82] 蒂姆·德特默斯、阿蒂多羅·帕尼奧尼、阿里·霍爾茨曼和盧克·澤特爾莫耶。 2023.Qlora :量化 LLMS 的高效微調。 arXiv 預印本 arXiv:2305.14314。紙
[83] 呂凱,楊雨清,劉騰曉,高齊傑,郭啟鵬,邱西鵬。 2023.資源有限的大型語言模型全參數微調。紙
[84] 陳偉澤,易靜,趙偉林,王小智,劉志遠,鄭海濤,陳劍飛,劉勇,唐傑,李娟子,孫茂松。 2023b。大規模預訓練語言模型的參數高效微調。自然機器智能,5:220–235。紙
[85] 亨德里克斯、丹和伯恩斯、科林和巴沙特、史蒂文和鄒、安迪和馬澤卡、曼塔斯和宋、道恩和斯坦哈特、雅各布。 2020a.測量大規模多任務語言理解。 arXiv:2009.03300。紙
[86] Hendrycks、Dan 和 Burns、Collin 和 Kadavath、Saurav 和 Arora、Akul 和 Basart、Steven 和 Tang、Eric 和 Song、Dawn 和 Steinhardt、Jacob。 2021.使用數學資料集衡量數學問題的解決能力。 arXiv 預印本 arXiv:2103.03874。紙
[87] Karl Cobbe、Vineet Kosaraju、Mohammad Bavarian、Mark Chen、Heewoo Jun、Lukasz Kaiser、Matthias Plappert、Jerry Tworek、Jacob Hilton、Reiichiro Nakano、Christopher Hesse 和 John Schulman。 2021.培訓驗證者解決數學應用問題。紙
[88] Suzgun、Mirac 和 Scales、Nathan 和 Sch{"a}rli、Nathanael 和 Gehrmann、Sebastian 和 Tay、Yi 和 Chung、Hyung Won 和 Chowdhery、Aakanksha 和 Le、Quoc V 和 Chi、Ed H 和 Zhou、Denny等2022a 。
[89] Chen、Mark 和 Tworek、Jerry 和 Jun、Heewoo 和 Yuan、Qiming 和 Pinto、Henrique Ponde De Oliveira 和 Kaplan、Jared 和 Edwards、Harri 和 Burda、Yuri 和 Joseph、Nicholas 和 Brockman、Greg 等。 2021a。評估在程式碼上訓練的大型語言模型。 arXiv 預印本 arXiv:2107.03374 論文
[90] 周杰弗裡和盧,天健和米甚拉,斯瓦魯普和布拉馬,悉達多和巴蘇,蘇喬伊和欒,易和周,丹尼和侯樂。 2023b。大型語言模型的指令追蹤評估。 arXiv 預印本 arXiv:2311.07911 論文
[91] 李學晨、張天一、Yann Dubois、Rohan Taori、Ishaan Gulrajani、Carlos Guestrin、Percy Liang、Tatsunori B. Hashimoto。 2023 小時。 AlpacaEval:指令跟隨模型的自動評估器。 GitHub 儲存庫 GitHub
[92] Dubois、Yann 和 Galambosi、Bal{'a}zs 和 Liang、Percy 和Hashimoto 、Tatsunori B. 2024。 arXiv 預印本 arXiv:2404.04475 論文
[93] 鄭連民與蔣、衛林與盛、應與莊、思源與吳、張浩與莊、永浩與林、訾與李、卓涵與李、大成與邢、Eric等。 2023.使用 mt-bench 和 chatbot arena 來評判 llm-as-a-judge 。神經資訊處理系統論文進展
[94]林,比爾·雨辰和鄧,雲田和昌杜,凱蒂和布拉曼,費茲和拉維錢德爾,阿比拉沙和皮亞特金,瓦倫蒂娜和德齊裡,努哈和布拉斯,羅南·勒和崔,葉金。 2024. WILDBENCH:透過真實使用者的挑戰性任務對法學碩士進行基準測試。 arXiv 預印本 arXiv:2406.04770 論文
[95] 孔博年,彭南雲。 2023.模型真的學會遵循指令嗎?指令調整的實證研究。前十字韌帶。紙
[96] 週春亭、劉鵬飛、徐普欣、斯里尼·艾耶、孫焦、毛宇寧、馬學哲、阿維亞·埃弗拉特、於平、餘L.、蘇珊·張、加吉·戈什、麥克劉易斯、盧克澤特莫耶和奧馬爾利維。 2023a。 LIMA:對於一致性來說,少即是多。 NeurIPS 2023。
[97] Lin、Bill Yuchen 和 Ravichander、Abhilasha 和 Lu、Ximing 和 Dziri、Nouha 和 Sclar、Melanie 和 Chandu、Khyathi 和 Bhagavatula、Chandra 和 Choi、Yejin。 2023a。基礎 llms 的解鎖咒語:透過上下文學習重新思考對齊。 ICLR 2024。
如果您有任何問題或建議,請隨時建立問題或發送電子郵件至[email protected]
。