该存储库包含论文《大型语言模型的指令调优:调查》中引用的资源。
如果您发现此存储库有帮助,请引用以下内容:
@article{zhang2023instruction,
title={Instruction Tuning for Large Language Models: A Survey},
author={Zhang, Shengyu and Dong, Linfeng and Li, Xiaoya and Zhang, Sen and Sun, Xiaofei and Wang, Shuhe and Li, Jiwei and Hu, Runyi and Zhang, Tianwei and Wu, Fei and others},
journal={arXiv preprint arXiv:2308.10792},
year={2023}
}
敬请关注!更多相关作品将会持续更新!
指令调优(IT)是指以监督方式在由(instruction, output)
对组成的数据集上进一步训练大型语言模型(LLM)的过程,它弥合了 LLM 的下一个单词预测目标与用户之间的差距' 让法学硕士遵守人类指示的目标。指令调优的一般流程如下所示:
在本文中,我们对文献进行了系统回顾,包括IT的一般方法、IT数据集的构建、IT模型的训练以及在不同模式、领域和应用中的应用,并分析了影响IT的方面。 IT 的结果(例如,指令输出的生成、指令数据集的大小等)。我们还回顾了 IT 的潜在陷阱以及对其的批评,同时指出了现有策略的当前缺陷,并提出了一些进行富有成效的研究的途径。论文的类型如下:
类型 | 数据集名称 | 纸 | 项目 | 指令数量 | # 郎 | 建造 | 开源 |
---|---|---|---|---|---|---|---|
人造的 | 统一质量保证 [1] | 纸 | 项目 | 75万 | 恩 | 人造的 | 是的 |
统一SKG [2] | 纸 | 项目 | 0.8M | 恩 | 人造的 | 是的 | |
自然指令 [3] | 纸 | 项目 | 193K | 恩 | 人造的 | 是的 | |
超自然指示 [4] | 纸 | 项目 | 5M | 55 郎 | 人造的 | 是的 | |
P3 [5] | 纸 | 项目 | 12M | 恩 | 人造的 | 是的 | |
xP3 [6] | 纸 | 项目 | 81M | 46 郎 | 人造的 | 是的 | |
果馅饼 2021 [7] | 纸 | 项目 | 4.4M | 恩 | 人造的 | 是的 | |
COIG [8] | 纸 | 项目 | - | - | - | 是的 | |
指导GPT [9] | 纸 | - | 13K | 多 | 人造的 | 不 | |
多莉 [10] | 纸 | 项目 | 15K | 恩 | 人造的 | 是的 | |
利马 [11] | 纸 | 项目 | 1K | 恩 | 人造的 | 是的 | |
聊天GPT [12] | 纸 | - | - | 多 | 人造的 | 不 | |
打开助手 [13] | 纸 | 项目 | 161,443 | 多 | 人造的 | 是的 | |
合成数据(蒸馏) | 监察办 [14] | - | 项目 | 43M | 恩 | ChatGPT(无技术报告) | 是的 |
不自然的指令 [3] | 纸 | 项目 | 24万 | 恩 | 指示 GPT 生成 | 是的 | |
指导狂野 [15] | - | 项目 | 104K | - | ChatGPT 生成的 | 是的 | |
Evol-Instruct / WizardLM [16] | 纸 | 项目 | 52K | 恩 | ChatGPT 生成的 | 是的 | |
羊驼毛 [17] | - | 项目 | 52K | 恩 | 指示 GPT 生成 | 是的 | |
逻辑科特 [18] | 纸 | 项目 | - | 恩 | GPT-4 生成 | 是的 | |
GPT-4-法学硕士 [19] | 纸 | 项目 | 52K | 恩与中 | GPT-4 生成 | 是的 | |
骆驼毛 [20] | - | 项目 | 70K | 恩 | 真实用户-ChatGPT 对话 | 不 | |
白泽 v1 [21] | 纸 | 项目 | 111.5K | 恩 | ChatGPT 生成的 | 是的 | |
超聊 [22] | 纸 | 项目 | 675K | 恩与中 | GPT 3/4-生成 | 是的 | |
原驼 [23] | - | 项目 | 534,530 | 多 | GPT(未知版本)-生成 | 是的 | |
虎鲸 [24] | 纸 | 项目 | 1.5M | 恩 | GPT 3.5/4-生成 | 是的 | |
分享GPT | - | 项目 | 90K | 多 | 真实用户-ChatGPT 对话 | 是的 | |
野聊 | - | 项目 | 15万 | 多 | 真实用户-ChatGPT 对话 | 是的 | |
向导编码器 [25] | 纸 | - | - | 代码 | LLaMa 2 生成 | 不 | |
魔法编码器 [26] | 纸 | 项目 | 75K/110K | 代码 | GPT-3.5-生成 | 是的 | |
波编码器 [27] | 纸 | - | - | 代码 | GPT 4 生成 | 不 | |
Φ1 [28] | 纸 | 项目 | 6B代币 | 代码问与答 | GPT-3.5-生成 | 是的 | |
Φ1.5 [29] | 纸 | - | - | 代码问与答 | GPT-3.5-生成 | 不 | |
花蜜 [30] | 纸 | 项目 | ~183K | 恩 | GPT 4 生成 | 是的 | |
综合数据(自我完善) | 自学 [31] | 纸 | 项目 | 52K | 恩 | 指示 GPT 生成 | 是的 |
指令反向翻译 [32] | 纸 | - | 502K | 恩 | LLaMa 生成 | 不 | |
旋转 [33] | 纸 | 项目 | 49.8K | 恩 | Zephyr 生成 | 是的 |
型号名称 | # 参数 | 纸 | 项目 | 基础型号 | 指令集 | ||
---|---|---|---|---|---|---|---|
自建 | 姓名 | 尺寸 | |||||
指导GPT [9] | 176B | 纸 | - | GPT-3 [36] | 是的 | - | - |
布卢姆兹 [34] | 176B | 纸 | 项目 | 绽放 [37] | 不 | xP3 | - |
法兰-T5 [35] | 11B | 纸 | 项目 | T5 [38] | 不 | 2021年弗兰 | - |
羊驼毛 [17] | 7B | - | 项目 | 美洲驼 [39] | 是的 | - | 52K |
骆驼毛 [20] | 13B | - | 项目 | 美洲驼 [39] | 是的 | - | 70K |
GPT-4-法学硕士 [19] | 7B | 纸 | 项目 | 美洲驼 [39] | 是的 | - | 52K |
克劳德 [40] | - | 纸 | - | - | 是的 | - | - |
巫师LM [16] | 7B | 纸 | 项目 | 美洲驼 [39] | 是的 | 进化指导 | 70K |
聊天GLM2 [41] | 6B | 纸 | 项目 | 通用LM[41] | 是的 | - | 1.1 代币 |
利马 [11] | 65B | 纸 | 项目 | 美洲驼 [39] | 是的 | 1K | |
OPT-IML [42] | 175B | 纸 | 项目 | 选择[43] | 不 | - | - |
多莉2.0 [44] | 12B | - | 项目 | 皮提亚 [45] | 不 | - | 15K |
猎鹰指导 [46] | 40B | 纸 | 项目 | 猎鹰 [46] | 不 | - | - |
原驼 [23] | 7B | - | 项目 | 美洲驼 [39] | 是的 | - | 586K |
牛头怪 [47] | 15B | - | 项目 | Starcoder Plus [48] | 不 | - | - |
努斯赫尔墨斯 [49] | 13B | - | 项目 | 美洲驼 [39] | 不 | - | 30万+ |
图鲁 [50] | 6.7B | 纸 | 项目 | 选择[43] | 不 | 混合 | - |
玉兰-聊天 [51] | 13B | - | 项目 | 美洲驼 [39] | 是的 | - | 25万 |
莫斯 [52] | 16B | - | 项目 | - | 是的 | - | - |
艾洛波罗斯 [53] | 13B | - | 项目 | 美洲驼 [39] | 是的 | - | - |
超LM [22] | 13B | 纸 | 项目 | 美洲驼 [39] | 是的 | - | - |
数据集名称 | 纸 | 项目 | 方式 | # 任务 | |
---|---|---|---|---|---|
模态对 | # 实例 | ||||
多指令 [54] | 纸 | 项目 | 图文 | 每个任务 5K 到 5M | 62 |
PMC-VQA [55] | 纸 | 项目 | 图文 | 227K | 9 |
拉姆 [56] | 纸 | 项目 | 图文 | 186K | 9 |
点云-文本 | 10K | 3 | |||
愿景-弗兰 [57] | 纸 | 项目 | 多对 | ~1M | 200+ |
阿拉瓦 [58] | 纸 | 项目 | 图文 | 1.4M | 2 |
分享GPT4V [59] | 纸 | 项目 | 图文 | 1.2M | 2 |
型号名称 | # 参数 | 纸 | 项目 | 模态 | 基础型号 | 火车组 | ||
---|---|---|---|---|---|---|---|---|
型号名称 | # 参数 | 自建 | 尺寸 | |||||
指导Pix2Pix [60] | 983M | 纸 | 项目 | 图文 | 稳定扩散 [62] | 983M | 是的 | 45万 |
拉瓦 [61] | 13B | 纸 | 项目 | 图文 | 剪辑 [63] | 400M | 是的 | 158K |
美洲驼 [39] | 7B | |||||||
美洲驼 [39] | 7B | |||||||
视频-LLaMA [64] | - | 纸 | 项目 | 图文视频音频 | BLIP-2 [65] | - | 不 | - |
图像绑定 [66] | - | |||||||
骆驼毛[20] | 7B/13B | |||||||
指导BLIP [67] | 12B | 纸 | 项目 | 图文视频 | BLIP-2 [65] | - | 不 | - |
水獭 [68] | - | 纸 | 项目 | 图文视频 | 开放火烈鸟 [69] | 9B | 是的 | 2.8M |
多模式-GPT [70] | - | 纸 | 项目 | 图文视频 | 开放火烈鸟 [69] | 9B | 不 | - |
领域 | 型号名称 | # 参数 | 纸 | 项目 | 基础型号 | 列车尺寸 |
---|---|---|---|---|---|---|
医疗的 | 放射学-GPT [71] | 7B | 纸 | 项目 | 羊驼毛[17] | 122K |
聊天医生 [72] | 7B | 纸 | 项目 | 美洲驼 [39] | 122K | |
ChatGLM-医学 [73] | 6B | - | 项目 | 聊天GLM [41] | - | |
写作 | 书写-羊驼 [74] | 7B | 纸 | - | 美洲驼 [39] | - |
编辑[75] | 11B | 纸 | 项目 | 法兰-T5 [7] | 82K | |
合作诗人 [76] | 11B | 纸 | 项目 | T5[38] | - | |
代码生成 | 向导编码器 [25] | 15B | 纸 | 项目 | 星编码器 [48] | 78K |
情绪分析 | IT-MTL [77] | 220M | 纸 | 项目 | T5[38] | - |
算术 | 山羊 [78] | 7B | 纸 | 项目 | 美洲驼 [39] | 1.0M |
信息提取 | 指导UIE [79] | 11B | 纸 | 项目 | 法兰-T5 [7] | 1.0M |
姓名 | 纸 | 项目 |
---|---|---|
洛拉 [80] | 纸 | 项目 |
提示 [81] | 纸 | 项目 |
QLoRA [82] | 纸 | 项目 |
乐魔 [83] | 纸 | 项目 |
Delta 调整 [84] | 纸 | 项目 |
封闭式评估 | 纸 | 项目 |
---|---|---|
大规模多任务语言理解(MMLU)[85] | 纸 | 项目 |
数学 [86] | 纸 | 项目 |
GSM8K [87] | 纸 | 项目 |
大板凳硬 (BBH) [88] | 纸 | 项目 |
人类评估 [89] | 纸 | 项目 |
IFEval [90] | 纸 | 项目 |
基于 GPT 的评估 | 纸 | 项目 |
---|---|---|
羊驼毛评估 [91] | - | 项目 |
长度控制的羊驼毛Eval [92] | 纸 | 项目 |
MT 长凳 [93] | 纸 | 项目 |
狂野长凳 [94] | 纸 | 项目 |
[1] Khashabi、Daniel、Sewon Min、Tushar Khot、Ashish Sabharwal、Oyvind Tafjord、Peter Clark 和 Hannaneh Hajishirzi。 Unifiedqa:使用单个 qa 系统跨越格式边界。 arXiv 预印本 arXiv:2005.00700 (2020)。纸
[2] 谢天宝、陈亨利吴、石鹏、钟瑞琪、Torsten Scholak、Michihiro Yasunaga、吴建生、钟明、尹鹏城、Sida I. Wang、Victor Zhu、Bailin Wang、Chengzu Li、Connor Boyle、倪安松、姚子宇、Dragomir R. Radev、熊才明、孔令鹏、张锐、Noah A. Smith、Luke泽特莫耶和陶宇。 Unifiedskg:使用文本到文本语言模型来统一和多任务结构化知识基础。自然语言处理经验方法会议,2022 年。论文
[3] Mishra、Swaroop 和 Khashabi、Daniel 和 Baral、Chitta 和 Hajishirzi、Hannaneh。非自然指令:(几乎)无需人类劳动即可调整语言模型。 arXiv 预印本 arXiv:2212.09689, 2022. 论文
[3] 或 Honovich、Thomas Scialom、Omer Levy 和 Timo Schick。非自然指令:(几乎)无需人类劳动即可调整语言模型。 arXiv 预印本 arXiv:2212.09689, 2022. 论文
[4] 王一中、Swaroop Mishra、Pegah Alipoormolabashi、Yeganeh Kordi、Amirreza Mirzaei、Anjana Arunkumar、Arjun Ashok、Arut Selvan Dhanasekaran、Atharva Naik、David Stap 等。超自然指令:通过 1600 多个任务的声明性指令进行概括。在 EMNLP,2022 年。论文
[5] Victor Sanh、Albert Webson、Colin Raffel、Stephen H Bach、Lintang Sutawika、Zaid Alyafeai、Antoine Chaffin、Arnaud Stiegler、Teven Le Scao、Arun Raja 等。多任务提示训练可实现零样本任务泛化。 arXiv 预印本 arXiv:2110.08207, 2021. 论文
[6] Niklas Muennighoff、Thomas Wang、Lintang Sutawika、Adam Roberts、Stella Biderman、Teven Le Scao、M Saiful Bari、Sheng Shen、Zheng-Xin Yong、Hailey Schoelkopf 等。通过多任务微调进行跨语言泛化。 arXiv 预印本 arXiv:2211.01786, 2022. 论文
[7] Shayne Longpre、Le Hou、Tu Vu、Albert Webson、Hyung Won Chung、Yi Tay、Denny Zhou、Quoc V Le、Barret Zoph、Jason Wei 等。 flan 集合:设计有效指令调整的数据和方法。 arXiv 预印本 arXiv:2301.13688, 2023. 论文
[8] 张戈,施业民,刘瑞波,袁瑞斌,李一智,董思维,于舒,李兆群,王泽坤,林成华,黄文芬,付杰。中文开放教学通才:初步发布。 ArXiv,abs/2304.07987,2023。论文
[9] 欧阳龙,吴杰弗里,徐江,迪奥戈·阿尔梅达,卡罗尔·温赖特,帕梅拉·米什金,张冲,桑迪尼·阿加瓦尔,卡塔琳娜·斯拉马,亚历克斯·雷,等。训练语言模型遵循人类反馈的指令。神经信息处理系统的进展,35:27730–27744,2022 年。论文
[10] Mike Conover, Matt Hayes, Ankit Mathur, 孟祥瑞, 谢建伟, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia, 等. Free dolly:推出世界上第一个真正开放的、经过指令调整的法学硕士,2023 年。论文
[11] 周春婷、刘鹏飞、徐普欣、Srini Iyer、孙焦、毛宇宁、马学哲、Avia Efrat、于平、于丽、Susan 张、Gargi Ghosh、Mike Lewis、Luke Zettlemoyer 和 Omer Levy。利马:对于一致性来说,少即是多。 ArXiv,abs/2305.11206,2023。论文
[12] 开放人工智能。介绍 chatgpt 。博客文章 openai.com/blog/chatgpt,2022 年。论文
[13] Andreas Köpf、Yannic Kilcher、Dimitri von Rütte、Sotiris Anagnostidis、Zhi-Rui Tam、Keith Stevens、Abdullah Barhoum、Nguyen Minh Duc、Oliver Stanley、Richard Nagyfi 等。开放助理对话——使大语言模型对齐民主化。 arXiv 预印本 arXiv:2304.07327, 2023. 论文
[14] 莱昂.ai。 Oig:开放指令通才数据集,2023 年。
[15]薛福兆,Kabir Jain,Mahir Hitesh Shah,郑臧伟,尤阳。野外指令:基于用户的指令数据集。 github.com/XueFuzhao/InstructionWild,2023
。
[16] 徐灿,孙庆峰,郑凯,耿秀波,赵璞,冯家占,陶重阳,蒋大新。 Wizardlm:使大型语言模型能够遵循复杂的指令,2023 年。论文
[17] Rohan Taori、Ishaan Gulrajani、Tianyi 张、Yann Dubois、Xuechen Li、Carlos Guestrin、Percy Liang 和 Tatsunori B Hashimoto。 Alpaca:一种强大的、可复制的指令遵循模型。斯坦福大学基础模型研究中心。 https://crfm.stanford.edu/2023/03/13/alpaca.html
。
[18] 刘汉萌,滕志阳,崔乐阳,张超丽,周其吉,张悦。 Logicot:使用 gpt-4 进行逻辑思想链指令调整数据收集。 ArXiv,abs/2305.12147,2023。论文
[19] 彭宝林,李春元,何鹏程,Michel Galley,高剑峰。使用 gpt-4 进行指令调整。 arXiv 预印本 arXiv:2304.03277, 2023. 论文
[20] 蒋伟林,李卓涵,林子,盛英,吴张浩,张浩,郑连民,庄思源,庄永浩,Joseph E Gonzalez,等。 Vicuna:一款开源聊天机器人,其 90% 的 chatgpt 质量给 gpt-4 留下了深刻的印象。请参阅https://vicuna.lmsys.org
(2023 年 4 月 14 日访问),2023 年。
[21] 徐灿文、郭大亚、段楠、朱利安·麦考利。 Baize:一种对自聊天数据进行参数高效调优的开源聊天模型。纸
[22] 丁宁,陈玉林,徐博凯,秦宇佳,郑志,胡胜定,刘志远,孙茂松,周博文。通过扩展高质量的教学对话来增强聊天语言模型。 arXiv 预印本 arXiv:2305.14233, 2023. 论文
[23] 张约瑟夫. guanaco:自然语言自适应上下文感知全语言输出的生成通用助手,2021 年。
[24] Subhabrata Mukherjee、Arindam Mitra、Ganesh Jawahar、Sahaj Agarwal、Hamid Palangi 和 Ahmed Awadallah。 2023. Orca:从 gpt-4 的复杂解释痕迹中进行渐进学习。 arXiv 预印本 arXiv:2306.02707。纸
[25] 罗紫阳,徐灿,赵璞,孙庆丰,耿秀波,胡文祥,陶重阳,马静,林庆伟,蒋大新。 2023. Wizardcoder:使用 evol-instruct 为大型语言模型提供支持。纸
[26] 魏宇翔,王哲,刘家伟,丁一峰,张令明。 2023b。 Magicoder:源代码就是您所需要的。 arXiv 预印本 arXiv:2312.02120。纸
[27] 于兆建,张鑫,商宁,黄阳宇,徐灿,赵艺树杰,胡文祥,尹秋峰。 2023. Wavecoder:广泛且通用的增强指令调整与精细数据生成。 arXiv 预印本 arXiv:2312.14187。纸
[28] Suriya Gunasekar、张一、Jyoti Aneja、Caio César Teodoro Mendes、Allie Del Giorno、Sivakanth Gopi、Mojan Javaheripi、Piero Kauffmann、Gustavo de Rosa、Olli Saarikivi 等。 2023年。教科书就是你所需要的。 arXiv 预印本 arXiv:2306.11644。纸
[29] 李远志、Sébastien Bubeck、Ronen Eldan、Allie Del Giorno、Suriya Gunasekar 和 Yin Tat Lee。 2023 小时。教科书就是你所需要的ii:phi-1.5技术报告。 arXiv 预印本 arXiv:2309.05463。纸
[30]朱邦华,埃文·弗里克,吴天浩,朱翰林,焦建涛。 2023a。 Starling-7b:使用 rlaif 提高 llm 的帮助性和无害性。纸
[31]王一中、Yeganeh Kordi、Swaroop Mishra、Alisa Liu、Noah A Smith、Daniel Khashabi 和 Hannaneh Hajishirzi。自指令:将语言模型与自生成的指令对齐。 arXiv 预印本 arXiv:2212.10560, 2022. 论文
[32] 李贤,于平,周春亭,蒂莫·希克,卢克·泽特莫耶,奥马尔·利维,杰森·韦斯顿,迈克·刘易斯。 2023克。与指令反向翻译的自对准。 arXiv 预印本 arXiv:2308.06259。纸
[33] 陈子祥,邓一和,袁慧卓,季凯旋,谷泉泉。 2024年, Self-play微调将弱语言模型转换为强语言模型。 arXiv 预印本 arXiv:2401.01335。纸
[34] Niklas Muennighoff、Thomas Wang、Lintang Sutawika、Adam Roberts、Stella Biderman、Teven Le Scao、M Saiful Bari、Sheng Shen、Zheng-Xin Yong、Hailey Schoelkopf 等。 2022.通过多任务微调进行跨语言泛化。 arXiv 预印本 arXiv:2211.01786。纸
[35] Hyung Won Chung、Le Hou、S. Longpre、Barret Zoph、Yi Tay、William Fedus、Eric Li、Xuezhi Wang、Mostafa Dehghani、Siddhartha Brahma、Albert Webson、Shiyang Shane Gu、Zhuyun Dai、Mirac Suzgun、Xinyun Chen 、 Aakanksha Chowdhery、Dasha Valter、Sharan Narang、Gaurav Mishra、Adams Wei Yu、Vincent Zhao、Yanping黄、Andrew M. Dai、Hongkun Yu、Slav Petrov、Ed Huai Hsin Chi、Jeff Dean、Jacob Devlin、Adam Roberts、Denny Zhou、Quoc V. Le 和 Jason Wei。扩展指令微调语言模型。 ArXiv,abs/2210.11416,2022。论文
[36] Tom B. Brown、Benjamin Mann、Nick Ryder、Melanie Subbiah、Jared Kaplan、Prafulla Dhariwal、Arvind Neelakantan、Pranav Shyam、Girish Sastry、Amanda Askel、Sandhini Agarwal、Ariel Herbert-Voss、Gretchen Krueger、TJ Henighan、Rewon Child、Aditya Ramesh、Daniel M. Ziegler、Jeff吴、Clemens Winter、Christopher Hesse、Mark Chen、Eric Sigler、Mateusz Litwin、Scott Gray、Benjamin Chess、Jack Clark、Christopher Berner、Sam McCandlish、Alec Radford、Ilya Sutskever 和 Dario Amodei。语言模型是小样本学习者。 ArXiv,abs/2005.14165,2020。论文
[37] Scao、Teven Le、Angela Fan、Christopher Akiki、Ellie Pavlick、Suzana Ilić、Daniel Hesslow、Roman Castagné 等人。 Bloom:176b 参数的开放获取多语言语言模型。 arXiv 预印本 arXiv:2211.05100 (2022)。纸
[38] Colin Raffel、Noam M. Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li 和 Peter J. Liu。使用统一的文本到文本转换器探索迁移学习的局限性。 ArXiv,abs/1910.10683,2019。论文
[39] 雨果·图夫龙、蒂博·拉夫里尔、戈蒂埃·伊扎卡尔、泽维尔·马丁内特、玛丽-安妮·拉肖、蒂莫西·拉克鲁瓦、巴蒂斯特·罗齐埃、纳曼·戈亚尔、埃里克·汉布罗、费萨尔·阿扎尔、奥埃利安·罗德里格斯、阿曼德·朱兰、爱德华·格雷夫和纪尧姆·兰普尔。 Llama:开放高效的基础语言模型。 ArXiv,abs/2302.13971,2023。论文
[40] 白云涛、Saurav Kadavath、Sandipan Kundu、Amanda Askell、Jackson Kernion、Andy Jones、Anna Chen、Anna Goldie、Azalia Mirhoseini、Cameron McKinnon 等。宪法人工智能:人工智能反馈的无害性。 arXiv 预印本 arXiv:2212.08073, 2022. 论文
[41] 杜正晓,钱玉杰,刘晓,丁明,邱杰忠,杨志林,唐杰。 Glm:具有自回归空白填充的通用语言模型预训练。计算语言学协会第 60 届年会论文集(第一卷:长论文),第 320-335 页,2022 年。论文
[42] Srinivas Iyer、Xiaojuan Lin、Ramakanth Pasunuru、Todor Mihaylov、Daniel Simig、Ping Yu、Kurt Shuster、Tianlu Wang、Qing Liu、Punit Singh Koura、Xian Li、Brian O'Horo、Gabriel Pereyra、Jeff Wang、Christopher Dewan 、阿斯利·塞利基尔马兹、卢克·泽特尔莫耶和维塞林·斯托亚诺夫。 Opt-iml:通过泛化的视角扩展语言模型指令元学习。 ArXiv,abs/2212.12017,2022。论文
[43] Susan 张、Stephen Roller、Naman Goyal、Mikel Artetxe、Moya Chen、Shuohui Chen、Christopher Dewan、Mona T. Diab、Xian Li、Xi Victoria Lin、Todor Mihaylov、Myle Ott、Sam Shleifer、Kurt Shuster、Daniel Simig 、Punit Singh Koura、Anjali Sridhar、Tianlu Wang 和 Luke Zettlemoyer。 2022a。 Opt:打开预先训练的 Transformer 语言模型。 ArXiv,abs/2205.01068。纸
[44] Mike Conover,Matt Hayes,Ankit Mathur,孟祥瑞,谢建伟,万军,Sam Shah,Ali Ghodsi,Patrick Wendell,Matei Zaharia,等。 Free dolly:推出世界上第一个真正开放的、经过指令调整的法学硕士,2023 年。
[45] Stella Rose Biderman、Hailey Schoelkopf、Quentin G. Anthony、Herbie Bradley、Kyle O'Brien、Eric Hallahan、Mohammad Aflah Khan、Shivanshu Purohit、USVSN Sai Prashanth、Edward Raff、Aviya Skowron、Lintang Sutawika 和 Oskar van der沃尔。 Pythia:用于跨训练和扩展分析大型语言模型的套件。 ArXiv,abs/2304.01373,2023。论文
[46] Ebtesam Almazrouei、Hamza Alobeidli、Abdulaziz Alshamsi、Alessandro Cappelli、Ruxandra Cojocaru、Merouane Debah、Etienne Goffinet、Daniel Heslow、Julien Launay、Quentin Malartic、Badreddine Noune、Baptiste Pannier 和 Guilherme Penedo。 Falcon-40B:具有最先进性能的开放大型语言模型。 2023.纸
[47] OpenAccess 人工智能集体。软件:huggingface.co/openaccess-ai-collective/minotaur-15b,2023。
[48] Raymond Li,Loubna Ben Allal,Yangtian Zi,Niklas Muennighoff,Denis Kocetkov,Chenghao Mou,Marc Marone,Christopher Akiki,Jia Li,Jenny Chim,等。 Starcoder:愿源头与你同在! arXiv 预印本 arXiv:2305.06161, 2023. 论文
[49]诺斯研究。软件:huggingface.co/NousResearch/Nous-Hermes-13b,2023。
[50] 王一中、Hamish Ivison、Pradeep Dasigi、Jack Hessel、Tushar Khot、Khyathi Raghavi Chandu、David Wadden、Kelsey MacMillan、Noah A. Smith、Iz Beltagy 和 Hanna Hajishirzi。骆驼能走多远?探索开放资源上指令调整的状态。 ArXiv,abs/2306.04751,2023。论文
[51] 玉兰聊天队. Yulan-chat:开源双语聊天机器人。 github.com/RUC-GSAI/YuLan-Chat,2023。
[52] 孙天祥,邱锡鹏。莫斯.博客文章 txsun1997.github.io/blogs/moss.html,2023 年。
[53] 乔恩·德宾。艾洛波罗斯。软件:github.com/jondurbin/airoboros,2023。
[54]徐志阳,沉颖,黄立夫。多指令:通过指令调整改进多模式零样本学习。 ArXiv,abs/2212.10773,2022。论文
[55] 张晓曼,吴超一,赵自恒,林伟雄,张雅,王艳峰,谢伟迪。 Pmc-vqa:医学视觉问答的视觉指令调整。 ArXiv,abs/2305.10415。 2023.纸
[56] 殷振飞,王炯,曹建建,施哲伦,刘定宁,李木凯,卢胜,白雷,黄小水,王志勇,欧阳万里,邵静。 Lamm:语言辅助多模式指令调优数据集、框架和基准。 ArXiv,abs/2306.06687,2023。论文
[57] 徐志阳,冯超,邵儒林,Trevor Ashby,沉颖,金迪,程宇,王起凡,黄立夫。 2024. Vision-flan:在视觉指令调整中扩展人工标记的任务。 arXiv 预印本 arXiv:2402.11690。纸
[58] 陈贵明、陈书年、张瑞飞、陈俊英、吴翔波、张志毅、陈志宏、李建全、万向、王本友。 2024a。 Allava:利用 gpt4v 合成的数据来构建精简版视觉语言模型。 arXiv 预印本 arXiv:2402.11684。纸
[59] 陈林,李继松,董晓义,张潘,何从辉,王嘉琪,赵峰,林大华。 2023a。 Sharegpt4v:通过更好的标题改进大型多模态模型。 arXiv 预印本 arXiv:2311.12793。纸
[60] 蒂姆·布鲁克斯、亚历山大·霍林斯基和阿列克谢·A·埃弗罗斯。 Instructpix2pix:学习遵循图像编辑说明。 ArXiv,abs/2211.09800,2022。论文
[61] 刘浩天,李春元,吴庆阳,李勇杰。视觉指令调整。 ArXiv,abs/2304.08485,2023。论文
[62] 罗宾·隆巴赫、安德烈亚斯·布拉特曼、多米尼克·洛伦茨、帕特里克·埃瑟和比约恩·奥默。使用潜在扩散模型进行高分辨率图像合成。 IEEE/CVF 计算机视觉和模式识别会议论文集,第 10684–10695 页,2022 年。论文
[63] 亚历克·雷德福、金钟旭、克里斯·哈拉西、阿迪亚·拉梅什、加布里埃尔·吴、桑迪尼·阿加瓦尔、吉里什·萨斯特里、阿曼达·阿斯克尔、帕梅拉·米什金、杰克·克拉克、格雷琴·克鲁格和伊利亚·苏茨克弗。从自然语言监督中学习可迁移的视觉模型。国际机器学习会议,2021 年。论文
[64] 张航,李欣,冰立东。 Video- llama:一种用于视频理解的指令调整视听语言模型。 arXiv 预印本 arXiv:2306.02858, 2023. 论文
[65]李俊楠,李东旭,Silvio Savarese,Steven Hoi。 BLIP-2:使用冻结图像编码器和大型语言模型引导语言图像预训练。 ICML,2023 年。论文
[66] Rohit Girdhar、Alaaeldin El-Nouby、Zhuang Liu、Mannat Singh、Kalyan Vasudev Alwala、Armand Joulin 和 Ishan Misra。 Imagebind:一个嵌入空间将它们全部绑定。 CVPR,2023 年。论文
[67] 戴文亮、李俊楠、李东旭、孟发忠、赵俊奇、王伟胜、李博阳、冯帕斯卡尔和史蒂文·霍伊。 Instructblip:通过指令调整实现通用视觉语言模型。 ArXiv,abs/2305.06500,2023。论文
[68] 李博,张元涵,陈良宇,王景浩,杨景康,刘紫薇。 Otter:具有上下文指令调整的多模态模型。 ArXiv,abs/2305.03726,2023。论文
[69]Anas Awadalla、Irena Gau、Joshua Gardner、Jack Hessel、Yusuf Hanafy、朱万荣、Kalyani Marathe、Yonatan Bitton、Samir Gadre、Jenia Jitsev 等。火烈鸟公开赛,2023 年。
[70] 龚涛,吕承启,张世龙,王玉栋,郑苗,赵千梦科,刘奎坤,张文伟,罗平,陈凯。 Multimodal-gpt:与人类对话的视觉和语言模型。 ArXiv,abs/2305.04790,2023。论文
[71] 刘峥、钟敖晓、李一伟、杨龙涛、鞠超、吴子豪、马冲、彭舒、陈成、Sekeun Kim、戴海星、赵林、朱大江、刘军、刘伟、沉定刚、李翔、李全正、刘天明。 Radiology-gpt:放射学的大型语言模型。 2023.纸
[72] 李云翔,李子涵,张凯,丹瑞龙,张友。 Chatdoctor:使用医学领域知识在 llama 模型上进行微调的医疗聊天模型。 ArXiv,abs/2303.14070,2023。论文
[73]森东赵兵秦廷刘浩春王,刘驰.查特格姆医学。 github.com/SCIR-HI/Med-ChatGLM,2023 。
[74] 张悦,崔乐阳,蔡邓,黄新庭,方涛,毕伟。 2023d。针对特定场景的 llama 多任务指令调整:写作辅助的初步研究。 ArXiv,abs/2305.13225。纸
[75] Vipul Raheja、Dhruv Kumar、Ryan Koo 和 Dongyeop Kang。 2023. Coedit:通过特定于任务的指令调整进行文本编辑。 ArXiv,abs/2305.09857。纸
[76]Tuhin Chakrabarty,Vishakh Padmakumar,何恒兴。 2022.帮助我写一篇诗歌指导调音作为协作诗歌写作的工具。 ArXiv,abs/2210.13669。纸
[77] Siddharth Varia、Shuai Wang、Kishaloy Halder、Robert Vacareanu、Miguel Ballesteros、Yassine Benajiba、Neha Ann John、Rishita Anubhai、Smaranda Muresan 和 Dan Roth。 2022.基于少数方面的情感分析的指令调整。 ArXiv,abs/2210.06629。纸
[78] 刘铁东,Bryan Kian Hsiang。山羊:经过微调的 llama 在算术任务上优于 gpt-4 。 arXiv 预印本 arXiv:2305.14201, 2023. 论文
[79] 王晓,周伟,祖灿,夏寒,陈天泽,张元,郑锐,叶俊杰,张琪,陶贵,康吉华,杨建,李思源,杜春赛。 Instructuie:用于统一信息提取的多任务指令调整。 ArXiv,abs/2304.08085,2023。论文
[80] Edward J Hu、Yelong Shen、Phillip Wallis、Zeyuan Allen-Zhu、Yuanzhi Li、Shean Wang、Lu Wang 和 Weizhu Chen。 2021. Lora:大语言模型的低秩适应。 arXiv 预印本 arXiv:2106.09685。纸
[81] Hamish Ivison、Akshita Bhagia、王一中、Hannaneh Hajishirzi 和 Matthew E. Peters。 2022.提示:超网络指令调整以实现高效的零样本泛化。 ArXiv,abs/2212.10315。纸
[82] 蒂姆·德特默斯、阿蒂多罗·帕尼奥尼、阿里·霍尔茨曼和卢克·泽特尔莫耶。 2023.Qlora :量化 LLMS 的高效微调。 arXiv 预印本 arXiv:2305.14314。纸
[83] 吕凯,杨雨清,刘腾晓,高齐杰,郭启鹏,邱西鹏。 2023.资源有限的大型语言模型全参数微调。纸
[84] 陈伟泽,易静,赵伟林,王小智,刘志远,郑海涛,陈剑飞,刘勇,唐杰,李娟子,孙茂松。 2023b。大规模预训练语言模型的参数高效微调。自然机器智能,5:220–235。纸
[85] 亨德里克斯、丹和伯恩斯、科林和巴沙特、史蒂文和邹、安迪和马泽卡、曼塔斯和宋、道恩和斯坦哈特、雅各布。 2020a.测量大规模多任务语言理解。 arXiv:2009.03300。纸
[86] Hendrycks、Dan 和 Burns、Collin 和 Kadavath、Saurav 和 Arora、Akul 和 Basart、Steven 和 Tang、Eric 和 Song、Dawn 和 Steinhardt、Jacob。 2021.使用数学数据集衡量数学问题的解决能力。 arXiv 预印本 arXiv:2103.03874。纸
[87] Karl Cobbe、Vineet Kosaraju、Mohammad Bavarian、Mark Chen、Heewoo Jun、Lukasz Kaiser、Matthias Plapert、Jerry Tworek、Jacob Hilton、Reiichiro Nakano、Christopher Hesse 和 John Schulman。 2021.培训验证者解决数学应用题。纸
[88] Suzgun、Mirac 和 Scales、Nathan 和 Sch{"a}rli、Nathanael 和 Gehrmann、Sebastian 和 Tay、Yi 和 Chung、Hyung Won 和 Chowdhery、Aakanksha 和 Le、Quoc V 和 Chi、Ed H 和 Zhou、Denny 2022a具有挑战性的大工作台任务以及 arXiv 预印本是否可以解决这些问题。 arXiv:2210.09261 论文
[89] Chen、Mark 和 Tworek、Jerry 和 Jun、Heewoo 和 Yuan、Qiming 和 Pinto、Henrique Ponde De Oliveira 和 Kaplan、Jared 和 Edwards、Harri 和 Burda、Yuri 和 Joseph、Nicholas 和 Brockman、Greg 等。 2021a。评估在代码上训练的大型语言模型。 arXiv 预印本 arXiv:2107.03374 论文
[90] 周杰弗里和卢,天健和米什拉,斯瓦鲁普和布拉马,悉达多和巴苏,苏乔伊和栾,易和周,丹尼和侯乐。 2023b。大型语言模型的指令跟踪评估。 arXiv 预印本 arXiv:2311.07911 论文
[91] 李学晨、张天一、Yann Dubois、Rohan Taori、Ishaan Gulrajani、Carlos Guestrin、Percy Liang、Tatsunori B. Hashimoto。 2023 小时。 AlpacaEval:指令跟随模型的自动评估器。 GitHub 存储库 GitHub
[92] Dubois、Yann 和 Galambosi、Bal{'a}zs 和 Liang、Percy 和 Hashimoto、Tatsunori B. 2024。长度控制的 AlpacaEval:消除自动求值器偏差的简单方法。 arXiv 预印本 arXiv:2404.04475 论文
[93] 郑连民与蒋、卫林与盛、应与庄、思源与吴、张浩与庄、永浩与林、訾与李、卓涵与李、大成与邢、Eric等。 2023.使用 mt-bench 和 chatbot arena 来评判 llm-as-a-judge 。神经信息处理系统论文进展
[94] Lin,Bill Yuchen 和 Deng,Yuntian 和 Chandu,Khyathi 和 Brahman,Faeze 和 Ravichander,Abhilasha 和 Pyatkin,Valentina 和 Dziri,Nouha 和 Bras,Ronan Le 和 Choi,Yejin。 2024. WILDBENCH:通过真实用户的挑战性任务对法学硕士进行基准测试。 arXiv 预印本 arXiv:2406.04770 论文
[95] 孔博年,彭南云。 2023.模型真的学会遵循指令吗?指令调整的实证研究。前交叉韧带。纸
[96] 周春亭、刘鹏飞、徐普欣、斯里尼·艾耶、孙焦、毛宇宁、马学哲、阿维亚·埃弗拉特、于平、余L.、苏珊·张、加吉·戈什、迈克·刘易斯、卢克·泽特莫耶和奥马尔·利维。 2023a。 LIMA:对于一致性来说,少即是多。 NeurIPS 2023。论文
[97] Lin、Bill Yuchen 和 Ravichander、Abhilasha 和 Lu、Ximing 和 Dziri、Nouha 和 Sclar、Melanie 和 Chandu、Khyathi 和 Bhagavatula、Chandra 和 Choi、Yejin。 2023a。基础 llms 的解锁咒语:通过上下文学习重新思考对齐。 ICLR 2024。论文
如果您有任何问题或建议,请随时创建问题或发送电子邮件至[email protected]
。