Dieses Repository enthält Ressourcen, auf die im Dokument „Instruction Tuning for Large Language Models: A Survey“ verwiesen wird.
Wenn Sie dieses Repository hilfreich finden, geben Sie bitte Folgendes an:
@article{zhang2023instruction,
title={Instruction Tuning for Large Language Models: A Survey},
author={Zhang, Shengyu and Dong, Linfeng and Li, Xiaoya and Zhang, Sen and Sun, Xiaofei and Wang, Shuhe and Li, Jiwei and Hu, Runyi and Zhang, Tianwei and Wu, Fei and others},
journal={arXiv preprint arXiv:2308.10792},
year={2023}
}
Bleiben Sie dran! Weitere verwandte Arbeiten werden aktualisiert!
Unter Instruction Tuning (IT) versteht man den Prozess des weiteren Trainings großer Sprachmodelle (LLMs) anhand eines Datensatzes, der aus (instruction, output)
Paaren besteht, auf überwachte Weise, wodurch die Lücke zwischen dem Ziel der Vorhersage des nächsten Wortes von LLMs und den Benutzern geschlossen wird Das Ziel besteht darin, dass sich LLMs an menschliche Anweisungen halten. Die allgemeine Pipeline der Befehlsoptimierung ist im Folgenden dargestellt:
In der Arbeit führen wir einen systematischen Überblick über die Literatur durch, einschließlich der allgemeinen Methodik der IT, der Konstruktion von IT-Datensätzen, dem Training von IT-Modellen und Anwendungen für verschiedene Modalitäten, Domänen und Anwendungen, zusammen mit der Analyse von Aspekten, die das beeinflussen Ergebnis der IT (z. B. Generierung von Befehlsausgaben, Größe des Befehlsdatensatzes usw.). Wir untersuchen auch die potenziellen Fallstricke der IT sowie Kritik daran, weisen auf aktuelle Mängel bestehender Strategien hin und schlagen einige Wege für eine fruchtbare Forschung vor. Die Typologie der Arbeit ist wie folgt:
Typ | Datensatzname | Papier | Projekt | Anzahl der Anweisungen | # von Lang | Konstruktion | Open Source |
---|---|---|---|---|---|---|---|
Von Menschenhand geschaffen | UnifiedQA [1] | Papier | Projekt | 750.000 | En | von Menschenhand geschaffen | Ja |
UnifiedSKG [2] | Papier | Projekt | 0,8 Mio | En | von Menschenhand geschaffen | Ja | |
Natürliche Anweisungen [3] | Papier | Projekt | 193K | En | von Menschenhand geschaffen | Ja | |
Übernatürliche Anweisungen [4] | Papier | Projekt | 5M | 55 Lang | von Menschenhand geschaffen | Ja | |
P3 [5] | Papier | Projekt | 12M | En | von Menschenhand geschaffen | Ja | |
xP3 [6] | Papier | Projekt | 81M | 46 Lang | von Menschenhand geschaffen | Ja | |
Flan 2021 [7] | Papier | Projekt | 4,4 Millionen | En | von Menschenhand geschaffen | Ja | |
COIG [8] | Papier | Projekt | - | - | - | Ja | |
InstructGPT [9] | Papier | - | 13K | Multi | von Menschenhand geschaffen | NEIN | |
Transportwagen [10] | Papier | Projekt | 15K | En | von Menschenhand geschaffen | Ja | |
LIMA [11] | Papier | Projekt | 1K | En | von Menschenhand geschaffen | Ja | |
ChatGPT [12] | Papier | - | - | Multi | von Menschenhand geschaffen | NEIN | |
OpenAssistant [13] | Papier | Projekt | 161.443 | Multi | von Menschenhand geschaffen | Ja | |
Synthetische Daten (Destillation) | OIG [14] | - | Projekt | 43M | En | ChatGPT (Keine Technikberichte) | Ja |
Unnatürliche Anweisungen [3] | Papier | Projekt | 240K | En | InstructGPT-generiert | Ja | |
InstructWild [15] | - | Projekt | 104K | - | ChatGPT-generiert | Ja | |
Evol-Instruct / WizardLM [16] | Papier | Projekt | 52K | En | ChatGPT-generiert | Ja | |
Alpaka [17] | - | Projekt | 52K | En | InstructGPT-generiert | Ja | |
LogiCoT [18] | Papier | Projekt | - | En | GPT-4-generiert | Ja | |
GPT-4-LLM [19] | Papier | Projekt | 52K | En&Zh | GPT-4-generiert | Ja | |
Vicuña [20] | - | Projekt | 70.000 | En | Echte Benutzer-ChatGPT-Gespräche | NEIN | |
Baize v1 [21] | Papier | Projekt | 111,5K | En | ChatGPT-generiert | Ja | |
UltraChat [22] | Papier | Projekt | 675K | En&Zh | GPT 3/4-generiert | Ja | |
Guanako [23] | - | Projekt | 534.530 | Multi | GPT (unbekannte Version) – generiert | Ja | |
Orca [24] | Papier | Projekt | 1,5 Mio | En | GPT 3.5/4-generiert | Ja | |
TeilenGPT | - | Projekt | 90.000 | Multi | Echte Benutzer-ChatGPT-Gespräche | Ja | |
WildChat | - | Projekt | 150.000 | Multi | Echte Benutzer-ChatGPT-Gespräche | Ja | |
WizardCoder [25] | Papier | - | - | Code | LLaMa 2-Generiert | NEIN | |
Magicoder [26] | Papier | Projekt | 75K/110K | Code | GPT-3.5-generiert | Ja | |
WaveCoder [27] | Papier | - | - | Code | GPT 4-generiert | NEIN | |
Phi-1 [28] | Papier | Projekt | 6B-Token | Code Q und A | GPT-3.5-generiert | Ja | |
Phi-1,5 [29] | Papier | - | - | Code Q und A | GPT-3.5-generiert | NEIN | |
Nektar [30] | Papier | Projekt | ~183K | En | GPT 4-generiert | Ja | |
Synthetische Daten (Selbstverbesserung) | Selbstunterricht [31] | Papier | Projekt | 52K | En | InstructGPT-generiert | Ja |
Anweisung Rückübersetzung [32] | Papier | - | 502K | En | LLaMa-generiert | NEIN | |
SPIN [33] | Papier | Projekt | 49,8K | En | Zephyr-generiert | Ja |
Modellname | # Parameter | Papier | Projekt | Basismodell | Anleitungszug-Set | ||
---|---|---|---|---|---|---|---|
Selbstbau | Name | Größe | |||||
InstructGPT [9] | 176B | Papier | - | GPT-3 [36] | Ja | - | - |
BLOOMZ [34] | 176B | Papier | Projekt | BLÜTE [37] | NEIN | xP3 | - |
FLAN-T5 [35] | 11B | Papier | Projekt | T5 [38] | NEIN | FLAN 2021 | - |
Alpaka [17] | 7B | - | Projekt | LLaMA [39] | Ja | - | 52K |
Vicuña [20] | 13B | - | Projekt | LLaMA [39] | Ja | - | 70.000 |
GPT-4-LLM [19] | 7B | Papier | Projekt | LLaMA [39] | Ja | - | 52K |
Claude [40] | - | Papier | - | - | Ja | - | - |
WizardLM [16] | 7B | Papier | Projekt | LLaMA [39] | Ja | Evol-Instruct | 70.000 |
ChatGLM2 [41] | 6B | Papier | Projekt | GLM[41] | Ja | - | 1.1 Token |
LIMA [11] | 65B | Papier | Projekt | LLaMA [39] | Ja | 1K | |
OPT-IML [42] | 175B | Papier | Projekt | OPT [43] | NEIN | - | - |
Dolly 2.0 [44] | 12B | - | Projekt | Pythia [45] | NEIN | - | 15K |
Falcon-Instruct [46] | 40B | Papier | Projekt | Falke [46] | NEIN | - | - |
Guanako [23] | 7B | - | Projekt | LLaMA [39] | Ja | - | 586K |
Minotaurus [47] | 15B | - | Projekt | Starcoder Plus [48] | NEIN | - | - |
Nous-Hermes [49] | 13B | - | Projekt | LLaMA [39] | NEIN | - | 300K+ |
TÜLU [50] | 6,7B | Papier | Projekt | OPT [43] | NEIN | Gemischt | - |
YuLan-Chat [51] | 13B | - | Projekt | LLaMA [39] | Ja | - | 250.000 |
MOOS [52] | 16B | - | Projekt | - | Ja | - | - |
Airoboros [53] | 13B | - | Projekt | LLaMA [39] | Ja | - | - |
UltraLM [22] | 13B | Papier | Projekt | LLaMA [39] | Ja | - | - |
Datensatzname | Papier | Projekt | Modalitäten | # Aufgaben | |
---|---|---|---|---|---|
Modalitätspaar | # Instanz | ||||
MEHRFACHANLEITUNG [54] | Papier | Projekt | Bild-Text | 5K bis 5M pro Aufgabe | 62 |
PMC-VQA [55] | Papier | Projekt | Bild-Text | 227K | 9 |
LAMM [56] | Papier | Projekt | Bild-Text | 186K | 9 |
Punktwolken-Text | 10K | 3 | |||
Vision-Flan [57] | Papier | Projekt | Mehrere Paare | ~1M | 200+ |
ALLAVA [58] | Papier | Projekt | Bild-Text | 1,4 Mio | 2 |
TeilenGPT4V [59] | Papier | Projekt | Bild-Text | 1,2 Mio | 2 |
Modellname | # Parameter | Papier | Projekt | Modalität | Basismodell | Zugset | ||
---|---|---|---|---|---|---|---|---|
Modellname | # Parameter | Selbstbau | Größe | |||||
InstructPix2Pix [60] | 983M | Papier | Projekt | Bild-Text | Stabile Diffusion [62] | 983M | Ja | 450.000 |
LLaVA [61] | 13B | Papier | Projekt | Bild-Text | CLIP [63] | 400M | Ja | 158K |
LLaMA [39] | 7B | |||||||
LLaMA [39] | 7B | |||||||
Video-LLaMA [64] | - | Papier | Projekt | Bild-Text-Video-Audio | BLIP-2 [65] | - | NEIN | - |
ImageBind [66] | - | |||||||
Vicuña[20] | 7B/13B | |||||||
InstructBLIP [67] | 12B | Papier | Projekt | Bild-Text-Video | BLIP-2 [65] | - | NEIN | - |
Otter [68] | - | Papier | Projekt | Bild-Text-Video | OpenFlamingo [69] | 9B | Ja | 2,8 Millionen |
MultiModal-GPT [70] | - | Papier | Projekt | Bild-Text-Video | OpenFlamingo [69] | 9B | NEIN | - |
Domain | Modellname | # Parameter | Papier | Projekt | Basismodell | Zuggröße |
---|---|---|---|---|---|---|
Medizinisch | Radiologie-GPT [71] | 7B | Papier | Projekt | Alpaka[17] | 122K |
ChatDoctor [72] | 7B | Papier | Projekt | LLaMA [39] | 122K | |
ChatGLM-Med [73] | 6B | - | Projekt | ChatGLM [41] | - | |
Schreiben | Schreib-Alpaka [74] | 7B | Papier | - | LLaMA [39] | - |
CoEdIT [75] | 11B | Papier | Projekt | FLAN-T5 [7] | 82K | |
CoPoet [76] | 11B | Papier | Projekt | T5[38] | - | |
Codegenerierung | WizardCoder [25] | 15B | Papier | Projekt | StarCoder [48] | 78K |
Stimmungsanalyse | IT-MTL [77] | 220M | Papier | Projekt | T5[38] | - |
Arithmetik | Ziege [78] | 7B | Papier | Projekt | LLaMA [39] | 1,0 Mio |
Informationsextraktion | InstructUIE [79] | 11B | Papier | Projekt | FLAN-T5 [7] | 1,0 Mio |
Name | Papier | Projekt |
---|---|---|
LoRA [80] | Papier | Projekt |
HINWEIS [81] | Papier | Projekt |
QLoRA [82] | Papier | Projekt |
LOMO [83] | Papier | Projekt |
Delta-Tuning [84] | Papier | Projekt |
Geschlossene Auswertungen | Papier | Projekt |
---|---|---|
Massives Multitask-Sprachverständnis (MMLU) [85] | Papier | Projekt |
MATHEMATIK [86] | Papier | Projekt |
GSM8K [87] | Papier | Projekt |
BIG-Bench Hard (BBH) [88] | Papier | Projekt |
HumanEval [89] | Papier | Projekt |
IFEval [90] | Papier | Projekt |
GPT-basierte Auswertungen | Papier | Projekt |
---|---|---|
AlpakaEval [91] | - | Projekt |
Längenkontrolliertes AlpakaEval [92] | Papier | Projekt |
MT-Bank [93] | Papier | Projekt |
WildBench [94] | Papier | Projekt |
[1] Khashabi, Daniel, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark und Hannaneh Hajishirzi. Unifiedqa: Formatgrenzen mit einem einzigen QA-System überschreiten . arXiv-Vorabdruck arXiv:2005.00700 (2020). Papier
[2] Tianbao Xie, Chen Henry Wu, Peng Shi, Ruiqi Zhong, Torsten Scholak, Michihiro Yasunaga, Chien-Sheng Wu, Ming Zhong, Pengcheng Yin, Sida I. Wang, Victor Zhong, Bailin Wang, Chengzu Li, Connor Boyle, Ansong Ni, Ziyu Yao, Dragomir R. Radev, Caiming Xiong, Lingpeng Kong, Rui Zhang, Noah A. Smith, Luke Zettlemoyer und Tao Yu. Unifiedskg: Vereinheitlichung und Multitasking strukturierter Wissensvermittlung mit Text-zu-Text-Sprachmodellen . In Konferenz über empirische Methoden in der Verarbeitung natürlicher Sprache, 2022. Papier
[3] Mishra, Swaroop und Khashabi, Daniel und Baral, Chitta und Hajishirzi, Hannaneh. Unnatürliche Anweisungen: Sprachmodelle mit (fast) keiner menschlichen Arbeit optimieren . arXiv-Vorabdruck arXiv:2212.09689, 2022. Papier
[3] Oder Honovich, Thomas Scialom, Omer Levy und Timo Schick. Unnatürliche Anweisungen: Sprachmodelle mit (fast) keiner menschlichen Arbeit optimieren . arXiv-Vorabdruck arXiv:2212.09689, 2022. Papier
[4] Yizhong Wang, Swaroop Mishra, Pegah Alipoormolabashi, Yeganeh Kordi, Amirreza Mirzaei, Anjana Arunkumar, Arjun Ashok, Arut Selvan Dhanasekaran, Atharva Naik, David Stap, et al. Übernatürliche Anweisungen: Verallgemeinerung durch deklarative Anweisungen für über 1600 Aufgaben . In EMNLP, 2022. Papier
[5] Victor Sanh, Albert Webson, Colin Raffel, Stephen H. Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, et al. Multitasking-gestütztes Training ermöglicht die Verallgemeinerung von Zero-Shot-Aufgaben . arXiv-Vorabdruck arXiv:2110.08207, 2021. Papier
[6] Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, Teven Le Scao, M Saiful Bari, Sheng Shen, Zheng-Xin Yong, Hailey Schoelkopf, et al. Sprachenübergreifende Generalisierung durch Multitasking-Feinabstimmung . arXiv-Vorabdruck arXiv:2211.01786, 2022. Papier
[7] Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung Won Chung, Yi Tay, Denny Zhou, Quoc V Le, Barret Zoph, Jason Wei, et al. Die Flan-Sammlung: Entwerfen von Daten und Methoden für eine effektive Instruktionsoptimierung . arXiv-Vorabdruck arXiv:2301.13688, 2023. Papier
[8] Ge Zhang, Yemin Shi, Ruibo Liu, Ruibin Yuan, Yizhi Li, Siwei Dong, Yu Shu, Zhaoqun Li, Zekun Wang, Chenghua Lin, Wen-Fen Huang und Jie Fu. Chinesischer Open-Instruction-Generalist: Eine vorläufige Veröffentlichung . ArXiv, abs/2304.07987, 2023. Papier
[9] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Sprachmodelle trainieren, um Anweisungen mit menschlichem Feedback zu befolgen . Fortschritte in neuronalen Informationsverarbeitungssystemen, 35:27730–27744, 2022. Artikel
[10] Mike Conover, Matt Hayes, Ankit Mathur, Xiangrui Meng, Jianwei Xie, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia, et al. Kostenloser Dolly: Vorstellung des weltweit ersten wirklich offenen, auf Anleitungen abgestimmten Films , 2023. Papier
[11] Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, L. Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer und Omer Levy. Lima: Weniger ist mehr für die Ausrichtung . ArXiv, abs/2305.11206, 2023. Papier
[12] OpenAI. Wir stellen vor: chatgpt . Blogbeitrag openai.com/blog/chatgpt, 2022. Papier
[13] Andreas Köpf, Yannic Kilcher, Dimitri von Rütte, Sotiris Anagnostidis, Zhi-Rui Tam, Keith Stevens, Abdullah Barhoum, Nguyen Minh Duc, Oliver Stanley, Richárd Nagyfi, et al. Openassistant-Gespräche – Demokratisierung der Ausrichtung großer Sprachmodelle . arXiv-Vorabdruck arXiv:2304.07327, 2023. Papier
[14] LAION.ai. Oig: der Open Instruction Generalist-Datensatz , 2023.
[15] Fuzhao Xue, Kabir Jain, Mahir Hitesh Shah, Zangwei Zheng und Yang You. Anleitung in freier Wildbahn: Ein benutzerbasierter Anleitungsdatensatz . github.com/XueFuzhao/InstructionWild,2023
.
[16] Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao und Daxin Jiang. Wizardlm: Befähigung großer Sprachmodelle, komplexen Anweisungen zu folgen , 2023. Papier
[17] Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang und Tatsunori B Hashimoto. Alpaka: Ein starkes, reproduzierbares Modell zur Befolgung von Anweisungen . Stanford Center for Research on Foundation Models. https://crfm.stanford.edu/2023/03/13/alpaca.html
, 3(6):7, 2023.
[18] Hanmeng Liu, Zhiyang Teng, Leyang Cui, Chaoli Zhang, Qiji Zhou und Yue Zhang. Logicot: Logische Gedankenketten-Anweisungsoptimierungsdatenerfassung mit gpt-4 . ArXiv, abs/2305.12147, 2023. Papier
[19] Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley und Jianfeng Gao. Anleitung Tuning mit gpt-4 . arXiv-Vorabdruck arXiv:2304.03277, 2023. Papier
[20] Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E. Gonzalez, et al. Vicuna: Ein Open-Source-Chatbot, der GPT-4 mit 90 % Chatgpt-Qualität beeindruckt . Siehe https://vicuna.lmsys.org
(abgerufen am 14. April 2023), 2023.
[21] Canwen Xu und Daya Guo sowie Nan Duan und Julian McAuley. Baize: Ein Open-Source-Chat-Modell mit Parameter-effizienter Optimierung von Selbst-Chat-Daten . Papier
[22] Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun und Bowen Zhou. Verbesserung von Chat-Sprachmodellen durch Skalierung hochwertiger Lehrgespräche . arXiv-Vorabdruck arXiv:2305.14233, 2023. Papier
[23] JosephusCheung. Guanaco: Generativer universeller Assistent für adaptive, kontextbewusste, omnilinguale Ausgaben in natürlicher Sprache , 2021.
[24] Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal, Hamid Palangi und Ahmed Awadallah. 2023. Orca: Progressives Lernen aus komplexen Erklärungsspuren von gpt-4. arXiv-Vorabdruck arXiv:2306.02707. Papier
[25] Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin und Daxin Jiang. 2023. Wizardcoder: Ermöglicht das Codieren großer Sprachmodelle mit evol-instruct. Papier
[26] Yuxiang Wei, Zhe Wang, Jiawei Liu, Yifeng Ding und Lingming Zhang. 2023b. Magicoder: Der Quellcode ist alles, was Sie brauchen. arXiv-Vorabdruck arXiv:2312.02120. Papier
[27] Zhaojian Yu, Xin Zhang, Ning Shang, Yangyu Huang, Can Xu, Yishujie Zhao, Wenxiang Hu und Qiufeng Yin. 2023. Wavecoder: Weit verbreitete und vielseitige verbesserte Befehlsoptimierung mit verfeinerter Datengenerierung. arXiv-Vorabdruck arXiv:2312.14187. Papier
[28] Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, et al. 2023. Lehrbücher sind alles, was Sie brauchen. arXiv-Vorabdruck arXiv:2306.11644. Papier
[29] Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar und Yin Tat Lee. 2023h. Lehrbücher sind alles, was Sie brauchen. II: Technischer Bericht zu Phi-1.5. arXiv-Vorabdruck arXiv:2309.05463. Papier
[30] Banghua Zhu, Evan Frick, Tianhao Wu, Hanlin Zhu und Jiantao Jiao. 2023a. Starling-7b: Verbesserung der Hilfsbereitschaft und Unbedenklichkeit von LLM mit Rlaif. Papier
[31] Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi und Hannaneh Hajishirzi. Selbstanweisung: Sprachmodell mit selbst generierten Anweisungen ausrichten . arXiv-Vorabdruck arXiv:2212.10560, 2022. Papier
[32] Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Luke Zettlemoyer, Omer Levy, Jason Weston und Mike Lewis. 2023g. Selbstausrichtung mit Befehlsrückübersetzung. arXiv-Vorabdruck arXiv:2308.06259. Papier
[33] Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji und Quanquan Gu. 2024. Durch die Feinabstimmung des Selbstspiels werden schwache Sprachmodelle in starke Sprachmodelle umgewandelt. arXiv-Vorabdruck arXiv:2401.01335. Papier
[34] Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, Teven Le Scao, M Saiful Bari, Sheng Shen, Zheng-Xin Yong, Hailey Schoelkopf, et al. 2022. Sprachübergreifende Verallgemeinerung durch Multitasking-Feinabstimmung. arXiv-Vorabdruck arXiv:2211.01786. Papier
[35] Hyung Won Chung, Le Hou, S. Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen , Aakanksha Chowdhery, Dasha Valter, Sharan Narang, Gaurav Mishra, Adams Wei Yu, Vincent Zhao, Yanping Huang, Andrew M. Dai, Hongkun Yu, Slav Petrov, Ed Huai hsin Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le und Jason Wei. Skalierung von anweisungsfein abgestimmten Sprachmodellen . ArXiv, abs/2210.11416, 2022. Papier
[36] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, TJ Henighan, Rewon Kind, Aditya Ramesh, Daniel M. Ziegler, Jeff Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever und Dario Amodei. Sprachmodelle sind Wenig-Schuss-Lernende . ArXiv, abs/2005.14165, 2020. Papier
[37] Scao, Teven Le, Angela Fan, Christopher Akiki, Ellie Pavlick, Suzana Ilić, Daniel Hesslow, Roman Castagné et al. Bloom: Ein mehrsprachiges Open-Access-Sprachmodell mit 176b Parametern . arXiv-Vorabdruck arXiv:2211.05100 (2022). Papier
[38] Colin Raffel, Noam M. Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li und Peter J. Liu. Erkundung der Grenzen des Transferlernens mit einem einheitlichen Text-zu-Text-Transformer . ArXiv, abs/1910.10683, 2019. Papier
[39] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aur'elien Rodriguez, Armand Joulin, Edouard Grave und Guillaume Lample. Lama: Offene und effiziente Grundsprachmodelle . ArXiv, abs/2302.13971, 2023. Papier
[40] Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, et al. Verfassungsmäßige KI: Harmlosigkeit durch KI-Feedback . arXiv-Vorabdruck arXiv:2212.08073, 2022. Papier
[41] Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang und Jie Tang. Glm: Allgemeines Sprachmodell-Vortraining mit autoregressiver Leerstellenauffüllung . In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Band 1: Long Papers), Seiten 320–335, 2022. Artikel
[42] Srinivas Iyer, Xiaojuan Lin, Ramakanth Pasunuru, Todor Mihaylov, Daniel Simig, Ping Yu, Kurt Shuster, Tianlu Wang, Qing Liu, Punit Singh Koura, Xian Li, Brian O'Horo, Gabriel Pereyra, Jeff Wang, Christopher Dewan , Asli Celikyilmaz, Luke Zettlemoyer und Veselin Stoyanov. Opt-iml: Skalierung des Metalernens von Sprachmodellanweisungen durch die Linse der Generalisierung . ArXiv, abs/2212.12017, 2022. Papier
[43] Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona T. Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig , Punit Singh Koura, Anjali Sridhar, Tianlu Wang und Luke Zettlemoyer. 2022a. Opt: Öffnen Sie vorab trainierte Transformer-Sprachmodelle. ArXiv, abs/2205.01068. Papier
[44] Mike Conover, Matt Hayes, Ankit Mathur, Xiangrui Meng, Jianwei Xie, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia, et al. Kostenloser Dolly: Vorstellung des weltweit ersten wirklich offenen, auf Anleitung abgestimmten Films , 2023.
[45] Stella Rose Biderman, Hailey Schoelkopf, Quentin G. Anthony, Herbie Bradley, Kyle O'Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, USVSN Sai Prashanth, Edward Raff, Aviya Skowron, Lintang Sutawika und Oskar van der Wal. Pythia: Eine Suite zur Analyse großer Sprachmodelle über Training und Skalierung hinweg . ArXiv, abs/2304.01373, 2023. Papier
[46] Ebtesam Almazrouei, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, Merouane Debbah, Etienne Goffinet, Daniel Heslow, Julien Launay, Quentin Malartic, Badreddine Noune, Baptiste Pannier und Guilherme Penedo. Falcon-40B: ein offenes großes Sprachmodell mit modernster Leistung . 2023. Papier
[47] OpenAccess AI Collective . Software: Huggingface.co/openaccess-ai-collective/minotaur- 15b, 2023.
[48] Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov, Chenghao Mou, Marc Marone, Christopher Akiki, Jia Li, Jenny Chim, et al. Starcoder: Möge die Quelle mit dir sein ! arXiv-Vorabdruck arXiv:2305.06161, 2023. Papier
[49] NousResearch . Software: Huggingface.co/NousResearch/Nous-Hermes-13b, 2023.
[50] Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy und Hanna Hajishirzi. Wie weit können Kamele gehen? Untersuchung des Stands der Unterrichtsoptimierung auf offenen Ressourcen . ArXiv, abs/2306.04751, 2023. Papier
[51] YuLan-Chat-Team. Yulan-Chat: Ein zweisprachiger Open-Source-Chatbot . github.com/RUC-GSAI/YuLan-Chat, 2023.
[52] Sun Tianxiang und Qiu Xipeng. Moos . Blogbeitrag txsun1997.github.io/blogs/moss.html, 2023.
[53] Jon Durbin. Airoboros . Software: github.com/jondurbin/airoboros, 2023.
[54] Zhiyang Xu, Ying Shen und Lifu Huang. Multiinstruct: Verbesserung des multimodalen Zero-Shot-Lernens durch Instruktionsoptimierung . ArXiv, abs/2212.10773, 2022. Papier
[55] Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao, Weixiong Lin, Ya Zhang, Yanfeng Wang und Weidi Xie. Pmc-vqa: Optimierung visueller Anweisungen für die Beantwortung medizinischer visueller Fragen . ArXiv, abs/2305.10415. 2023. Papier
[56] Zhenfei Yin, Jiong Wang, Jianjian Cao, Zhelun Shi, Dingning Liu, Mukai Li, Lu Sheng, Lei Bai, Xiaoshui Huang, Zhiyong Wang, Wanli Ouyang und Jing Shao. Lamm: Sprachunterstützter multimodaler Befehl – Optimierungsdatensatz, Framework und Benchmark . ArXiv, abs/2306.06687, 2023. Papier
[57] Zhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang und Lifu Huang. 2024. Vision-flan: Skalierung von menschlich beschrifteten Aufgaben bei der Optimierung visueller Anweisungen. arXiv-Vorabdruck arXiv:2402.11690. Papier
[58] Guiming Hardy Chen, Shunian Chen, Ruifei Zhang, Junying Chen, Xiangbo Wu, Zhiyi Zhang, Zhihong Chen, Jianquan Li, Xiang Wan und Benyou Wang. 2024a. Allava: Nutzung von gpt4v-synthetisierten Daten für ein leichtes Vision-Sprachmodell. arXiv-Vorabdruck arXiv:2402.11684. Papier
[59] Lin Chen, Jisong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao und Dahua Lin. 2023a. Sharegpt4v: Verbesserung großer multimodaler Modelle mit besseren Beschriftungen. arXiv-Vorabdruck arXiv:2311.12793. Papier
[60] Tim Brooks, Aleksander Holynski und Alexei A. Efros. Instructpix2pix: Lernen, Bildbearbeitungsanweisungen zu befolgen . ArXiv, abs/2211.09800, 2022. Papier
[61] Haotian Liu, Chunyuan Li, Qingyang Wu und Yong Jae Lee. Visuelle Anleitung zur Abstimmung . ArXiv, abs/2304.08485, 2023. Papier
[62] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser und Björn Ommer. Hochauflösende Bildsynthese mit latenten Diffusionsmodellen . In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seiten 10684–10695, 2022. Artikel
[63] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger und Ilya Sutskever. Erlernen übertragbarer visueller Modelle aus der Supervision natürlicher Sprache . In International Conference on Machine Learning, 2021. Papier
[64] Hang Zhang, Xin Li und Lidong Bing. Video-Lama: Ein auf Anweisungen abgestimmtes audiovisuelles Sprachmodell für das Videoverständnis . arXiv-Vorabdruck arXiv:2306.02858, 2023. Papier
[65] Junnan Li, Dongxu Li, Silvio Savarese und Steven Hoi. BLIP-2: Bootstrapping-Sprachbild-Vortraining mit Encodern für eingefrorene Bilder und großen Sprachmodellen . In ICML, 2023. Papier
[66] Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin und Ishan Misra. Imagebind: Ein Einbettungsbereich, um sie alle zu binden . In CVPR, 2023. Papier
[67] Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung und Steven Hoi. Instructblip: Auf dem Weg zu universellen Vision-Sprachmodellen mit Instruktionsoptimierung . ArXiv, abs/2305.06500, 2023. Papier
[68] Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Jingkang Yang und Ziwei Liu. Otter: Ein multimodales Modell mit kontextbezogener Befehlsoptimierung . ArXiv, abs/2305.03726, 2023. Papier
[69] Anas Awadalla, Irena Gao, Joshua Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Jenia Jitsev, et al. Openflamingo , 2023.
[70] Tao Gong, Chengqi Lyu, Shilong Zhang, Yudong Wang, Miao Zheng, Qianmengke Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo und Kai Chen. Multimodal-gpt: Ein Visions- und Sprachmodell für den Dialog mit Menschen . ArXiv, abs/2305.04790, 2023. Papier
[71] Zheng Liu, Aoxiao Zhong, Yiwei Li, Longtao Yang, Chao Ju, Zihao Wu, Chong Ma, Peng Shu, Cheng Chen, Sekeun Kim, Haixing Dai, Lin Zhao, Dajiang Zhu, Jun Liu, Wei Liu, Dinggang Shen , Xiang Li, Quanzheng Li und Tianming Liu. Radiology-gpt: Ein großes Sprachmodell für die Radiologie . 2023. Papier
[72] Yunxiang Li, Zihan Li, Kai Zhang, Ruilong Dan und You Zhang. Chatdoctor: Ein medizinisches Chat-Modell, das auf dem Lama-Modell unter Verwendung von medizinischem Fachwissen verfeinert wurde . ArXiv, abs/2303.14070, 2023. Papier
[73] Sendong Zhao Bing Qin Ting Liu Haochun Wang, Chi Liu. Chatglm-med. github.com/SCIR-HI/Med-ChatGLM , 2023.
[74] Yue Zhang, Leyang Cui, Deng Cai, Xinting Huang, Tao Fang und Wei Bi. 2023d. Multitasking-Anweisungsabstimmung von Lama für bestimmte Szenarien: Eine vorläufige Studie zur Schreibunterstützung. ArXiv, abs/2305.13225. Papier
[75] Vipul Raheja, Dhruv Kumar, Ryan Koo und Dongyeop Kang. 2023. Coedit: Textbearbeitung durch aufgabenspezifische Anweisungsabstimmung. ArXiv, abs/2305.09857. Papier
[76] Tuhin Chakrabarty, Vishakh Padmakumar und Hengxing He. 2022. Helfen Sie mir, ein Gedicht zu schreiben – eine Anleitung, die als Vehikel für das gemeinsame Schreiben von Gedichten dient. ArXiv, abs/2210.13669. Papier
[77] Siddharth Varia, Shuai Wang, Kishaloy Halder, Robert Vacareanu, Miguel Ballesteros, Yassine Benajiba, Neha Ann John, Rishita Anubhai, Smaranda Muresan und Dan Roth. 2022. Befehlsoptimierung für die aspektbasierte Stimmungsanalyse mit wenigen Schüssen. ArXiv, abs/2210.06629. Papier
[78] Tiedong Liu und Bryan Kian Hsiang. Ziege: Fein abgestimmtes Lama übertrifft gpt-4 bei Rechenaufgaben . arXiv-Vorabdruck arXiv:2305.14201, 2023. Papier
[79] Xiao Wang, Wei Zhou, Can Zu, Han Xia, Tianze Chen, Yuan Zhang, Rui Zheng, Junjie Ye, Qi Zhang, Tao Gui, Jihua Kang, J. Yang, Siyuan Li und Chunsai Du. Anleitung: Multitasking-Anweisungsoptimierung für eine einheitliche Informationsextraktion . ArXiv, abs/2304.08085, 2023. Papier
[80] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang und Weizhu Chen. 2021. Lora: Low-Rank-Adaption großer Sprachmodelle . arXiv-Vorabdruck arXiv:2106.09685. Papier
[81] Hamish Ivison, Akshita Bhagia, Yizhong Wang, Hannaneh Hajishirzi und Matthew E. Peters. 2022. Hinweis: Optimierung der Hypernetzwerk-Anweisungen für eine effiziente Zero-Shot-Generalisierung . ArXiv, abs/2212.10315. Papier
[82] Tim Dettmers, Artidoro Pagnoni, Ari Holtzman und Luke Zettlemoyer. 2023. Qlora: Effiziente Feinabstimmung quantisierter Filme . arXiv-Vorabdruck arXiv:2305.14314. Papier
[83] Kai Lv, Yuqing Yang, Tengxiao Liu, Qi jie Gao, Qipeng Guo und Xipeng Qiu. 2023. Vollständige Parameter-Feinabstimmung für große Sprachmodelle mit begrenzten Ressourcen . Papier
[84] Weize Chen, Jing Yi, Weilin Zhao, Xiaozhi Wang, Zhiyuan Liu, Haitao Zheng, Jianfei Chen, Y. Liu, Jie Tang, Juanzi Li und Maosong Sun. 2023b. Parametereffiziente Feinabstimmung umfangreicher vorab trainierter Sprachmodelle . Nature Machine Intelligence, 5:220–235. Papier
[85] Hendrycks, Dan und Burns, Collin und Basart, Steven und Zou, Andy und Mazeika, Mantas und Song, Dawn und Steinhardt, Jacob. 2020a. Messung des massiven Multitasking-Sprachverständnisses . arXiv:2009.03300. Papier
[86] Hendrycks, Dan und Burns, Collin und Kadavath, Saurav und Arora, Akul und Basart, Steven und Tang, Eric und Song, Dawn und Steinhardt, Jacob. 2021. Messung mathematischer Problemlösungen mit dem Mathematikdatensatz . arXiv-Vorabdruck arXiv:2103.03874. Papier
[87] Karl Cobbe und Vineet Kosaraju und Mohammad Bavarian und Mark Chen und Heewoo Jun und Lukasz Kaiser und Matthias Plappert und Jerry Tworek und Jacob Hilton und Reiichiro Nakano und Christopher Hesse und John Schulman. 2021. Schulung von Verifizierern zur Lösung mathematischer Wortprobleme . Papier
[88] Suzgun, Mirac und Scales, Nathan und Sch{"a}rli, Nathanael und Gehrmann, Sebastian und Tay, Yi und Chung, Hyung Won und Chowdhery, Aakanksha und Le, Quoc V und Chi, Ed H und Zhou, Denny und andere. Anspruchsvolle Big-Bank-Aufgaben und ob Chain-of-Think sie lösen kann arXiv:2210.09261 Papier
[89] Chen, Mark und Tworek, Jerry und Jun, Heewoo und Yuan, Qiming und Pinto, Henrique Ponde De Oliveira und Kaplan, Jared und Edwards, Harri und Burda, Yuri und Joseph, Nicholas und Brockman, Greg und andere. 2021a. Evaluierung großer Sprachmodelle, die auf Code trainiert wurden . arXiv-Vorabdruck arXiv:2107.03374 Papier
[90] Zhou, Jeffrey und Lu, Tianjian und Mishra, Swaroop und Brahma, Siddhartha und Basu, Sujoy und Luan, Yi und Zhou, Denny und Hou, Le. 2023b. Befehlsfolgende Auswertung für große Sprachmodelle . arXiv-Vorabdruck arXiv:2311.07911 Papier
[91] Xuechen Li und Tianyi Zhang und Yann Dubois und Rohan Taori und Ishaan Gulrajani und Carlos Guestrin und Percy Liang und Tatsunori B. Hashimoto. 2023h. AlpacaEval: Ein automatischer Bewerter von Modellen zur Befolgung von Anweisungen . GitHub-Repository GitHub
[92] Dubois, Yann und Galambosi, Bal{'a}zs und Liang, Percy und Hashimoto, Tatsunori B. 2024. Längenkontrollierte AlpacaEval: A Simple Way to Debias Automatic Evaluators . arXiv-Vorabdruck arXiv:2404.04475 Papier
[93] Zheng, Lianmin und Chiang, Wei-Lin und Sheng, Ying und Zhuang, Siyuan und Wu, Zhanghao und Zhuang, Yonghao und Lin, Zi und Li, Zhuohan und Li, Dacheng und Xing, Eric und andere. 2023. LLM-as-a-Judge mit mt-bench und chatbot arena beurteilen . Fortschritte in neuronalen Informationsverarbeitungssystemen. Papier
[94] Lin, Bill Yuchen und Deng, Yuntian und Chandu, Khyathi und Brahman, Faeze und Ravichander, Abhilasha und Pyatkin, Valentina und Dziri, Nouha und Bras, Ronan Le und Choi, Yejin. 2024. WILDBENCH: Benchmarking von LLMs mit herausfordernden Aufgaben von echten Benutzern in freier Wildbahn . arXiv-Vorabdruck arXiv:2406.04770 Papier
[95] Po-Nien Kung und Nanyun Peng. 2023. Lernen Models wirklich, Anweisungen zu befolgen? Eine empirische Studie zur Instruktionsoptimierung . ACL. Papier
[96] Chunting Zhou und Pengfei Liu und Puxin Xu und Srini Iyer und Jiao Sun und Yuning Mao und Xuezhe Ma und Avia Efrat und Ping Yu und L. Yu und Susan Zhang und Gargi Ghosh und Mike Lewis und Luke Zettlemoyer und Omer Levy. 2023a. LIMA: Weniger ist mehr für die Ausrichtung . NeurIPS 2023. Papier
[97] Lin, Bill Yuchen und Ravichander, Abhilasha und Lu, Ximing und Dziri, Nouha und Sclar, Melanie und Chandu, Khyathi und Bhagavatula, Chandra und Choi, Yejin. 2023a. Der Entriegelungszauber auf Basisfilmen: Neudenken der Ausrichtung durch kontextbezogenes Lernen . ICLR 2024. Papier
Wenn Sie Fragen oder Anregungen haben, können Sie gerne ein Problem erstellen oder eine E-Mail an [email protected]
senden.