Download Instruction Tuning Survey - Download des Quellcodes Instruction Tuning Survey

Instruction Tuning Survey

Anderer Quellcode

1.0.0

Herunterladen

Befehlsoptimierung für große Sprachmodelle: Eine Umfrage

Dieses Repository enthält Ressourcen, auf die im Dokument „Instruction Tuning for Large Language Models: A Survey“ verwiesen wird.

Wenn Sie dieses Repository hilfreich finden, geben Sie bitte Folgendes an:

@article{zhang2023instruction,
  title={Instruction Tuning for Large Language Models: A Survey},
  author={Zhang, Shengyu and Dong, Linfeng and Li, Xiaoya and Zhang, Sen and Sun, Xiaofei and Wang, Shuhe and Li, Jiwei and Hu, Runyi and Zhang, Tianwei and Wu, Fei and others},
  journal={arXiv preprint arXiv:2308.10792},
  year={2023}
}

? Nachricht

Bleiben Sie dran! Weitere verwandte Arbeiten werden aktualisiert!

[16. Okt. 2024] Wir aktualisieren Arbeiten (Papiere und Projekte) im Zusammenhang mit Evaluierungsbenchmarks und oberflächlicher Ausrichtung.
[12. März 2024] Wir aktualisieren Arbeiten (Papiere und Projekte) im Zusammenhang mit großen multimodalen Modellen.
[11. März 2024] Wir aktualisieren Arbeiten (Papiere und Projekte) im Zusammenhang mit der Generierung synthetischer Daten und der Bild-Text-Generierung.
[07. September 2023] Das Repository wird erstellt.
[21. August 2023] Wir veröffentlichen die erste Version des Papiers.

Inhaltsverzeichnis

Befehlsoptimierung für große Sprachmodelle: Eine Umfrage
- ? Nachricht
- Inhaltsverzeichnis
- Überblick
- Anweisungs-Tuning
  - Datensätze
  - Modelle
- Multimodalitäts-Anweisungsoptimierung
  - Datensätze
  - Modelle
- Domänenspezifische Befehlsoptimierung
- Effiziente Tuning-Techniken
- Bewertungen
- Referenzen
  - Befehlsoptimierung (Datensätze)
  - Anleitung Tuning (Modelle)
  - Multimodalitäts-Anweisungsoptimierung (Datensätze)
  - Multimodalitäts-Anweisungsoptimierung (Modelle)
  - Domänenspezifische Befehlsoptimierung
  - Effiziente Tuning-Techniken
  - Bewertungen
  - Oberflächliche Ausrichtung
- Kontakt

Überblick

Unter Instruction Tuning (IT) versteht man den Prozess des weiteren Trainings großer Sprachmodelle (LLMs) anhand eines Datensatzes, der aus (instruction, output) Paaren besteht, auf überwachte Weise, wodurch die Lücke zwischen dem Ziel der Vorhersage des nächsten Wortes von LLMs und den Benutzern geschlossen wird Das Ziel besteht darin, dass sich LLMs an menschliche Anweisungen halten. Die allgemeine Pipeline der Befehlsoptimierung ist im Folgenden dargestellt: Projekt

In der Arbeit führen wir einen systematischen Überblick über die Literatur durch, einschließlich der allgemeinen Methodik der IT, der Konstruktion von IT-Datensätzen, dem Training von IT-Modellen und Anwendungen für verschiedene Modalitäten, Domänen und Anwendungen, zusammen mit der Analyse von Aspekten, die das beeinflussen Ergebnis der IT (z. B. Generierung von Befehlsausgaben, Größe des Befehlsdatensatzes usw.). Wir untersuchen auch die potenziellen Fallstricke der IT sowie Kritik daran, weisen auf aktuelle Mängel bestehender Strategien hin und schlagen einige Wege für eine fruchtbare Forschung vor. Die Typologie der Arbeit ist wie folgt:

Anweisungs-Tuning

Datensätze

Typ	Datensatzname	Papier	Projekt	Anzahl der Anweisungen	# von Lang	Konstruktion	Open Source
Von Menschenhand geschaffen	UnifiedQA [1]	Papier	Projekt	750.000	En	von Menschenhand geschaffen	Ja
	UnifiedSKG [2]	Papier	Projekt	0,8 Mio	En	von Menschenhand geschaffen	Ja
	Natürliche Anweisungen [3]	Papier	Projekt	193K	En	von Menschenhand geschaffen	Ja
	Übernatürliche Anweisungen [4]	Papier	Projekt	5M	55 Lang	von Menschenhand geschaffen	Ja
	P3 [5]	Papier	Projekt	12M	En	von Menschenhand geschaffen	Ja
	xP3 [6]	Papier	Projekt	81M	46 Lang	von Menschenhand geschaffen	Ja
	Flan 2021 [7]	Papier	Projekt	4,4 Millionen	En	von Menschenhand geschaffen	Ja
	COIG [8]	Papier	Projekt	-	-	-	Ja
	InstructGPT [9]	Papier	-	13K	Multi	von Menschenhand geschaffen	NEIN
	Transportwagen [10]	Papier	Projekt	15K	En	von Menschenhand geschaffen	Ja
	LIMA [11]	Papier	Projekt	1K	En	von Menschenhand geschaffen	Ja
	ChatGPT [12]	Papier	-	-	Multi	von Menschenhand geschaffen	NEIN
	OpenAssistant [13]	Papier	Projekt	161.443	Multi	von Menschenhand geschaffen	Ja
Synthetische Daten (Destillation)	OIG [14]	-	Projekt	43M	En	ChatGPT (Keine Technikberichte)	Ja
	Unnatürliche Anweisungen [3]	Papier	Projekt	240K	En	InstructGPT-generiert	Ja
	InstructWild [15]	-	Projekt	104K	-	ChatGPT-generiert	Ja
	Evol-Instruct / WizardLM [16]	Papier	Projekt	52K	En	ChatGPT-generiert	Ja
	Alpaka [17]	-	Projekt	52K	En	InstructGPT-generiert	Ja
	LogiCoT [18]	Papier	Projekt	-	En	GPT-4-generiert	Ja
	GPT-4-LLM [19]	Papier	Projekt	52K	En&Zh	GPT-4-generiert	Ja
	Vicuña [20]	-	Projekt	70.000	En	Echte Benutzer-ChatGPT-Gespräche	NEIN
	Baize v1 [21]	Papier	Projekt	111,5K	En	ChatGPT-generiert	Ja
	UltraChat [22]	Papier	Projekt	675K	En&Zh	GPT 3/4-generiert	Ja
	Guanako [23]	-	Projekt	534.530	Multi	GPT (unbekannte Version) – generiert	Ja
	Orca [24]	Papier	Projekt	1,5 Mio	En	GPT 3.5/4-generiert	Ja
	TeilenGPT	-	Projekt	90.000	Multi	Echte Benutzer-ChatGPT-Gespräche	Ja
	WildChat	-	Projekt	150.000	Multi	Echte Benutzer-ChatGPT-Gespräche	Ja
	WizardCoder [25]	Papier	-	-	Code	LLaMa 2-Generiert	NEIN
	Magicoder [26]	Papier	Projekt	75K/110K	Code	GPT-3.5-generiert	Ja
	WaveCoder [27]	Papier	-	-	Code	GPT 4-generiert	NEIN
	Phi-1 [28]	Papier	Projekt	6B-Token	Code Q und A	GPT-3.5-generiert	Ja
	Phi-1,5 [29]	Papier	-	-	Code Q und A	GPT-3.5-generiert	NEIN
	Nektar [30]	Papier	Projekt	~183K	En	GPT 4-generiert	Ja
Synthetische Daten (Selbstverbesserung)	Selbstunterricht [31]	Papier	Projekt	52K	En	InstructGPT-generiert	Ja
	Anweisung Rückübersetzung [32]	Papier	-	502K	En	LLaMa-generiert	NEIN
	SPIN [33]	Papier	Projekt	49,8K	En	Zephyr-generiert	Ja

Modelle

Modellname	# Parameter	Papier	Projekt	Basismodell	Anleitungszug-Set
					Selbstbau	Name	Größe
InstructGPT [9]	176B	Papier	-	GPT-3 [36]	Ja	-	-
BLOOMZ [34]	176B	Papier	Projekt	BLÜTE [37]	NEIN	xP3	-
FLAN-T5 [35]	11B	Papier	Projekt	T5 [38]	NEIN	FLAN 2021	-
Alpaka [17]	7B	-	Projekt	LLaMA [39]	Ja	-	52K
Vicuña [20]	13B	-	Projekt	LLaMA [39]	Ja	-	70.000
GPT-4-LLM [19]	7B	Papier	Projekt	LLaMA [39]	Ja	-	52K
Claude [40]	-	Papier	-	-	Ja	-	-
WizardLM [16]	7B	Papier	Projekt	LLaMA [39]	Ja	Evol-Instruct	70.000
ChatGLM2 [41]	6B	Papier	Projekt	GLM[41]	Ja	-	1.1 Token
LIMA [11]	65B	Papier	Projekt	LLaMA [39]	Ja	1K
OPT-IML [42]	175B	Papier	Projekt	OPT [43]	NEIN	-	-
Dolly 2.0 [44]	12B	-	Projekt	Pythia [45]	NEIN	-	15K
Falcon-Instruct [46]	40B	Papier	Projekt	Falke [46]	NEIN	-	-
Guanako [23]	7B	-	Projekt	LLaMA [39]	Ja	-	586K
Minotaurus [47]	15B	-	Projekt	Starcoder Plus [48]	NEIN	-	-
Nous-Hermes [49]	13B	-	Projekt	LLaMA [39]	NEIN	-	300K+
TÜLU [50]	6,7B	Papier	Projekt	OPT [43]	NEIN	Gemischt	-
YuLan-Chat [51]	13B	-	Projekt	LLaMA [39]	Ja	-	250.000
MOOS [52]	16B	-	Projekt	-	Ja	-	-
Airoboros [53]	13B	-	Projekt	LLaMA [39]	Ja	-	-
UltraLM [22]	13B	Papier	Projekt	LLaMA [39]	Ja	-	-

Multimodalitäts-Anweisungsoptimierung

Datensätze

Datensatzname	Papier	Projekt	Modalitäten		# Aufgaben
			Modalitätspaar	# Instanz
MEHRFACHANLEITUNG [54]	Papier	Projekt	Bild-Text	5K bis 5M pro Aufgabe	62
PMC-VQA [55]	Papier	Projekt	Bild-Text	227K	9
LAMM [56]	Papier	Projekt	Bild-Text	186K	9
LAMM [56]	Papier	Projekt	Punktwolken-Text	10K	3
Vision-Flan [57]	Papier	Projekt	Mehrere Paare	~1M	200+
ALLAVA [58]	Papier	Projekt	Bild-Text	1,4 Mio	2
TeilenGPT4V [59]	Papier	Projekt	Bild-Text	1,2 Mio	2

Modelle

Modellname	# Parameter	Papier	Projekt	Modalität	Basismodell		Zugset
					Modellname	# Parameter	Selbstbau	Größe
InstructPix2Pix [60]	983M	Papier	Projekt	Bild-Text	Stabile Diffusion [62]	983M	Ja	450.000
LLaVA [61]	13B	Papier	Projekt	Bild-Text	CLIP [63]	400M	Ja	158K
					LLaMA [39]	7B
					LLaMA [39]	7B
Video-LLaMA [64]	-	Papier	Projekt	Bild-Text-Video-Audio	BLIP-2 [65]	-	NEIN	-
					ImageBind [66]	-
					Vicuña[20]	7B/13B
InstructBLIP [67]	12B	Papier	Projekt	Bild-Text-Video	BLIP-2 [65]	-	NEIN	-
Otter [68]	-	Papier	Projekt	Bild-Text-Video	OpenFlamingo [69]	9B	Ja	2,8 Millionen
MultiModal-GPT [70]	-	Papier	Projekt	Bild-Text-Video	OpenFlamingo [69]	9B	NEIN	-

Domänenspezifische Befehlsoptimierung

Domain	Modellname	# Parameter	Papier	Projekt	Basismodell	Zuggröße
Medizinisch	Radiologie-GPT [71]	7B	Papier	Projekt	Alpaka[17]	122K
	ChatDoctor [72]	7B	Papier	Projekt	LLaMA [39]	122K
	ChatGLM-Med [73]	6B	-	Projekt	ChatGLM [41]	-
Schreiben	Schreib-Alpaka [74]	7B	Papier	-	LLaMA [39]	-
	CoEdIT [75]	11B	Papier	Projekt	FLAN-T5 [7]	82K
	CoPoet [76]	11B	Papier	Projekt	T5[38]	-
Codegenerierung	WizardCoder [25]	15B	Papier	Projekt	StarCoder [48]	78K
Stimmungsanalyse	IT-MTL [77]	220M	Papier	Projekt	T5[38]	-
Arithmetik	Ziege [78]	7B	Papier	Projekt	LLaMA [39]	1,0 Mio
Informationsextraktion	InstructUIE [79]	11B	Papier	Projekt	FLAN-T5 [7]	1,0 Mio

Effiziente Tuning-Techniken

Name	Papier	Projekt
LoRA [80]	Papier	Projekt
HINWEIS [81]	Papier	Projekt
QLoRA [82]	Papier	Projekt
LOMO [83]	Papier	Projekt
Delta-Tuning [84]	Papier	Projekt

Bewertungen

Geschlossene Auswertungen	Papier	Projekt
Massives Multitask-Sprachverständnis (MMLU) [85]	Papier	Projekt
MATHEMATIK [86]	Papier	Projekt
GSM8K [87]	Papier	Projekt
BIG-Bench Hard (BBH) [88]	Papier	Projekt
HumanEval [89]	Papier	Projekt
IFEval [90]	Papier	Projekt

GPT-basierte Auswertungen	Papier	Projekt
AlpakaEval [91]	-	Projekt
Längenkontrolliertes AlpakaEval [92]	Papier	Projekt
MT-Bank [93]	Papier	Projekt
WildBench [94]	Papier	Projekt

Referenzen

Befehlsoptimierung (Datensätze)

[1] Khashabi, Daniel, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark und Hannaneh Hajishirzi. Unifiedqa: Formatgrenzen mit einem einzigen QA-System überschreiten . arXiv-Vorabdruck arXiv:2005.00700 (2020). Papier

[2] Tianbao Xie, Chen Henry Wu, Peng Shi, Ruiqi Zhong, Torsten Scholak, Michihiro Yasunaga, Chien-Sheng Wu, Ming Zhong, Pengcheng Yin, Sida I. Wang, Victor Zhong, Bailin Wang, Chengzu Li, Connor Boyle, Ansong Ni, Ziyu Yao, Dragomir R. Radev, Caiming Xiong, Lingpeng Kong, Rui Zhang, Noah A. Smith, Luke Zettlemoyer und Tao Yu. Unifiedskg: Vereinheitlichung und Multitasking strukturierter Wissensvermittlung mit Text-zu-Text-Sprachmodellen . In Konferenz über empirische Methoden in der Verarbeitung natürlicher Sprache, 2022. Papier

[3] Mishra, Swaroop und Khashabi, Daniel und Baral, Chitta und Hajishirzi, Hannaneh. Unnatürliche Anweisungen: Sprachmodelle mit (fast) keiner menschlichen Arbeit optimieren . arXiv-Vorabdruck arXiv:2212.09689, 2022. Papier

[3] Oder Honovich, Thomas Scialom, Omer Levy und Timo Schick. Unnatürliche Anweisungen: Sprachmodelle mit (fast) keiner menschlichen Arbeit optimieren . arXiv-Vorabdruck arXiv:2212.09689, 2022. Papier

[4] Yizhong Wang, Swaroop Mishra, Pegah Alipoormolabashi, Yeganeh Kordi, Amirreza Mirzaei, Anjana Arunkumar, Arjun Ashok, Arut Selvan Dhanasekaran, Atharva Naik, David Stap, et al. Übernatürliche Anweisungen: Verallgemeinerung durch deklarative Anweisungen für über 1600 Aufgaben . In EMNLP, 2022. Papier

[5] Victor Sanh, Albert Webson, Colin Raffel, Stephen H. Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, et al. Multitasking-gestütztes Training ermöglicht die Verallgemeinerung von Zero-Shot-Aufgaben . arXiv-Vorabdruck arXiv:2110.08207, 2021. Papier

[6] Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, Teven Le Scao, M Saiful Bari, Sheng Shen, Zheng-Xin Yong, Hailey Schoelkopf, et al. Sprachenübergreifende Generalisierung durch Multitasking-Feinabstimmung . arXiv-Vorabdruck arXiv:2211.01786, 2022. Papier

[7] Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung Won Chung, Yi Tay, Denny Zhou, Quoc V Le, Barret Zoph, Jason Wei, et al. Die Flan-Sammlung: Entwerfen von Daten und Methoden für eine effektive Instruktionsoptimierung . arXiv-Vorabdruck arXiv:2301.13688, 2023. Papier

[8] Ge Zhang, Yemin Shi, Ruibo Liu, Ruibin Yuan, Yizhi Li, Siwei Dong, Yu Shu, Zhaoqun Li, Zekun Wang, Chenghua Lin, Wen-Fen Huang und Jie Fu. Chinesischer Open-Instruction-Generalist: Eine vorläufige Veröffentlichung . ArXiv, abs/2304.07987, 2023. Papier

[9] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Sprachmodelle trainieren, um Anweisungen mit menschlichem Feedback zu befolgen . Fortschritte in neuronalen Informationsverarbeitungssystemen, 35:27730–27744, 2022. Artikel

[10] Mike Conover, Matt Hayes, Ankit Mathur, Xiangrui Meng, Jianwei Xie, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia, et al. Kostenloser Dolly: Vorstellung des weltweit ersten wirklich offenen, auf Anleitungen abgestimmten Films , 2023. Papier

[11] Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, L. Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer und Omer Levy. Lima: Weniger ist mehr für die Ausrichtung . ArXiv, abs/2305.11206, 2023. Papier

[12] OpenAI. Wir stellen vor: chatgpt . Blogbeitrag openai.com/blog/chatgpt, 2022. Papier

[13] Andreas Köpf, Yannic Kilcher, Dimitri von Rütte, Sotiris Anagnostidis, Zhi-Rui Tam, Keith Stevens, Abdullah Barhoum, Nguyen Minh Duc, Oliver Stanley, Richárd Nagyfi, et al. Openassistant-Gespräche – Demokratisierung der Ausrichtung großer Sprachmodelle . arXiv-Vorabdruck arXiv:2304.07327, 2023. Papier

[14] LAION.ai. Oig: der Open Instruction Generalist-Datensatz , 2023.

[15] Fuzhao Xue, Kabir Jain, Mahir Hitesh Shah, Zangwei Zheng und Yang You. Anleitung in freier Wildbahn: Ein benutzerbasierter Anleitungsdatensatz . github.com/XueFuzhao/InstructionWild,2023 .

[16] Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao und Daxin Jiang. Wizardlm: Befähigung großer Sprachmodelle, komplexen Anweisungen zu folgen , 2023. Papier

[17] Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang und Tatsunori B Hashimoto. Alpaka: Ein starkes, reproduzierbares Modell zur Befolgung von Anweisungen . Stanford Center for Research on Foundation Models. https://crfm.stanford.edu/2023/03/13/alpaca.html , 3(6):7, 2023.

[18] Hanmeng Liu, Zhiyang Teng, Leyang Cui, Chaoli Zhang, Qiji Zhou und Yue Zhang. Logicot: Logische Gedankenketten-Anweisungsoptimierungsdatenerfassung mit gpt-4 . ArXiv, abs/2305.12147, 2023. Papier

[19] Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley und Jianfeng Gao. Anleitung Tuning mit gpt-4 . arXiv-Vorabdruck arXiv:2304.03277, 2023. Papier

[20] Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E. Gonzalez, et al. Vicuna: Ein Open-Source-Chatbot, der GPT-4 mit 90 % Chatgpt-Qualität beeindruckt . Siehe https://vicuna.lmsys.org (abgerufen am 14. April 2023), 2023.

[21] Canwen Xu und Daya Guo sowie Nan Duan und Julian McAuley. Baize: Ein Open-Source-Chat-Modell mit Parameter-effizienter Optimierung von Selbst-Chat-Daten . Papier

[22] Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun und Bowen Zhou. Verbesserung von Chat-Sprachmodellen durch Skalierung hochwertiger Lehrgespräche . arXiv-Vorabdruck arXiv:2305.14233, 2023. Papier

[23] JosephusCheung. Guanaco: Generativer universeller Assistent für adaptive, kontextbewusste, omnilinguale Ausgaben in natürlicher Sprache , 2021.

[24] Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal, Hamid Palangi und Ahmed Awadallah. 2023. Orca: Progressives Lernen aus komplexen Erklärungsspuren von gpt-4. arXiv-Vorabdruck arXiv:2306.02707. Papier

[25] Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin und Daxin Jiang. 2023. Wizardcoder: Ermöglicht das Codieren großer Sprachmodelle mit evol-instruct. Papier

[26] Yuxiang Wei, Zhe Wang, Jiawei Liu, Yifeng Ding und Lingming Zhang. 2023b. Magicoder: Der Quellcode ist alles, was Sie brauchen. arXiv-Vorabdruck arXiv:2312.02120. Papier

[27] Zhaojian Yu, Xin Zhang, Ning Shang, Yangyu Huang, Can Xu, Yishujie Zhao, Wenxiang Hu und Qiufeng Yin. 2023. Wavecoder: Weit verbreitete und vielseitige verbesserte Befehlsoptimierung mit verfeinerter Datengenerierung. arXiv-Vorabdruck arXiv:2312.14187. Papier

[28] Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, et al. 2023. Lehrbücher sind alles, was Sie brauchen. arXiv-Vorabdruck arXiv:2306.11644. Papier

[29] Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar und Yin Tat Lee. 2023h. Lehrbücher sind alles, was Sie brauchen. II: Technischer Bericht zu Phi-1.5. arXiv-Vorabdruck arXiv:2309.05463. Papier

[30] Banghua Zhu, Evan Frick, Tianhao Wu, Hanlin Zhu und Jiantao Jiao. 2023a. Starling-7b: Verbesserung der Hilfsbereitschaft und Unbedenklichkeit von LLM mit Rlaif. Papier

[31] Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi und Hannaneh Hajishirzi. Selbstanweisung: Sprachmodell mit selbst generierten Anweisungen ausrichten . arXiv-Vorabdruck arXiv:2212.10560, 2022. Papier

[32] Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Luke Zettlemoyer, Omer Levy, Jason Weston und Mike Lewis. 2023g. Selbstausrichtung mit Befehlsrückübersetzung. arXiv-Vorabdruck arXiv:2308.06259. Papier

[33] Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji und Quanquan Gu. 2024. Durch die Feinabstimmung des Selbstspiels werden schwache Sprachmodelle in starke Sprachmodelle umgewandelt. arXiv-Vorabdruck arXiv:2401.01335. Papier

Anleitung Tuning (Modelle)

[34] Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, Teven Le Scao, M Saiful Bari, Sheng Shen, Zheng-Xin Yong, Hailey Schoelkopf, et al. 2022. Sprachübergreifende Verallgemeinerung durch Multitasking-Feinabstimmung. arXiv-Vorabdruck arXiv:2211.01786. Papier

[35] Hyung Won Chung, Le Hou, S. Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen , Aakanksha Chowdhery, Dasha Valter, Sharan Narang, Gaurav Mishra, Adams Wei Yu, Vincent Zhao, Yanping Huang, Andrew M. Dai, Hongkun Yu, Slav Petrov, Ed Huai hsin Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le und Jason Wei. Skalierung von anweisungsfein abgestimmten Sprachmodellen . ArXiv, abs/2210.11416, 2022. Papier

[36] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, TJ Henighan, Rewon Kind, Aditya Ramesh, Daniel M. Ziegler, Jeff Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever und Dario Amodei. Sprachmodelle sind Wenig-Schuss-Lernende . ArXiv, abs/2005.14165, 2020. Papier

[37] Scao, Teven Le, Angela Fan, Christopher Akiki, Ellie Pavlick, Suzana Ilić, Daniel Hesslow, Roman Castagné et al. Bloom: Ein mehrsprachiges Open-Access-Sprachmodell mit 176b Parametern . arXiv-Vorabdruck arXiv:2211.05100 (2022). Papier

[38] Colin Raffel, Noam M. Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li und Peter J. Liu. Erkundung der Grenzen des Transferlernens mit einem einheitlichen Text-zu-Text-Transformer . ArXiv, abs/1910.10683, 2019. Papier

[39] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aur'elien Rodriguez, Armand Joulin, Edouard Grave und Guillaume Lample. Lama: Offene und effiziente Grundsprachmodelle . ArXiv, abs/2302.13971, 2023. Papier

[40] Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, et al. Verfassungsmäßige KI: Harmlosigkeit durch KI-Feedback . arXiv-Vorabdruck arXiv:2212.08073, 2022. Papier

[41] Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang und Jie Tang. Glm: Allgemeines Sprachmodell-Vortraining mit autoregressiver Leerstellenauffüllung . In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Band 1: Long Papers), Seiten 320–335, 2022. Artikel

[42] Srinivas Iyer, Xiaojuan Lin, Ramakanth Pasunuru, Todor Mihaylov, Daniel Simig, Ping Yu, Kurt Shuster, Tianlu Wang, Qing Liu, Punit Singh Koura, Xian Li, Brian O'Horo, Gabriel Pereyra, Jeff Wang, Christopher Dewan , Asli Celikyilmaz, Luke Zettlemoyer und Veselin Stoyanov. Opt-iml: Skalierung des Metalernens von Sprachmodellanweisungen durch die Linse der Generalisierung . ArXiv, abs/2212.12017, 2022. Papier

[43] Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona T. Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig , Punit Singh Koura, Anjali Sridhar, Tianlu Wang und Luke Zettlemoyer. 2022a. Opt: Öffnen Sie vorab trainierte Transformer-Sprachmodelle. ArXiv, abs/2205.01068. Papier

[44] Mike Conover, Matt Hayes, Ankit Mathur, Xiangrui Meng, Jianwei Xie, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia, et al. Kostenloser Dolly: Vorstellung des weltweit ersten wirklich offenen, auf Anleitung abgestimmten Films , 2023.

[45] Stella Rose Biderman, Hailey Schoelkopf, Quentin G. Anthony, Herbie Bradley, Kyle O'Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, USVSN Sai Prashanth, Edward Raff, Aviya Skowron, Lintang Sutawika und Oskar van der Wal. Pythia: Eine Suite zur Analyse großer Sprachmodelle über Training und Skalierung hinweg . ArXiv, abs/2304.01373, 2023. Papier

[46] Ebtesam Almazrouei, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, Merouane Debbah, Etienne Goffinet, Daniel Heslow, Julien Launay, Quentin Malartic, Badreddine Noune, Baptiste Pannier und Guilherme Penedo. Falcon-40B: ein offenes großes Sprachmodell mit modernster Leistung . 2023. Papier

[47] OpenAccess AI Collective . Software: Huggingface.co/openaccess-ai-collective/minotaur- 15b, 2023.

[48] Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov, Chenghao Mou, Marc Marone, Christopher Akiki, Jia Li, Jenny Chim, et al. Starcoder: Möge die Quelle mit dir sein ! arXiv-Vorabdruck arXiv:2305.06161, 2023. Papier

[49] NousResearch . Software: Huggingface.co/NousResearch/Nous-Hermes-13b, 2023.

[50] Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy und Hanna Hajishirzi. Wie weit können Kamele gehen? Untersuchung des Stands der Unterrichtsoptimierung auf offenen Ressourcen . ArXiv, abs/2306.04751, 2023. Papier

[51] YuLan-Chat-Team. Yulan-Chat: Ein zweisprachiger Open-Source-Chatbot . github.com/RUC-GSAI/YuLan-Chat, 2023.

[52] Sun Tianxiang und Qiu Xipeng. Moos . Blogbeitrag txsun1997.github.io/blogs/moss.html, 2023.

[53] Jon Durbin. Airoboros . Software: github.com/jondurbin/airoboros, 2023.

Multimodalitäts-Anweisungsoptimierung (Datensätze)

[54] Zhiyang Xu, Ying Shen und Lifu Huang. Multiinstruct: Verbesserung des multimodalen Zero-Shot-Lernens durch Instruktionsoptimierung . ArXiv, abs/2212.10773, 2022. Papier

[55] Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao, Weixiong Lin, Ya Zhang, Yanfeng Wang und Weidi Xie. Pmc-vqa: Optimierung visueller Anweisungen für die Beantwortung medizinischer visueller Fragen . ArXiv, abs/2305.10415. 2023. Papier

[56] Zhenfei Yin, Jiong Wang, Jianjian Cao, Zhelun Shi, Dingning Liu, Mukai Li, Lu Sheng, Lei Bai, Xiaoshui Huang, Zhiyong Wang, Wanli Ouyang und Jing Shao. Lamm: Sprachunterstützter multimodaler Befehl – Optimierungsdatensatz, Framework und Benchmark . ArXiv, abs/2306.06687, 2023. Papier

[57] Zhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang und Lifu Huang. 2024. Vision-flan: Skalierung von menschlich beschrifteten Aufgaben bei der Optimierung visueller Anweisungen. arXiv-Vorabdruck arXiv:2402.11690. Papier

[58] Guiming Hardy Chen, Shunian Chen, Ruifei Zhang, Junying Chen, Xiangbo Wu, Zhiyi Zhang, Zhihong Chen, Jianquan Li, Xiang Wan und Benyou Wang. 2024a. Allava: Nutzung von gpt4v-synthetisierten Daten für ein leichtes Vision-Sprachmodell. arXiv-Vorabdruck arXiv:2402.11684. Papier

[59] Lin Chen, Jisong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao und Dahua Lin. 2023a. Sharegpt4v: Verbesserung großer multimodaler Modelle mit besseren Beschriftungen. arXiv-Vorabdruck arXiv:2311.12793. Papier

Multimodalitäts-Anweisungsoptimierung (Modelle)

[60] Tim Brooks, Aleksander Holynski und Alexei A. Efros. Instructpix2pix: Lernen, Bildbearbeitungsanweisungen zu befolgen . ArXiv, abs/2211.09800, 2022. Papier

[61] Haotian Liu, Chunyuan Li, Qingyang Wu und Yong Jae Lee. Visuelle Anleitung zur Abstimmung . ArXiv, abs/2304.08485, 2023. Papier

[62] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser und Björn Ommer. Hochauflösende Bildsynthese mit latenten Diffusionsmodellen . In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seiten 10684–10695, 2022. Artikel

[63] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger und Ilya Sutskever. Erlernen übertragbarer visueller Modelle aus der Supervision natürlicher Sprache . In International Conference on Machine Learning, 2021. Papier

[64] Hang Zhang, Xin Li und Lidong Bing. Video-Lama: Ein auf Anweisungen abgestimmtes audiovisuelles Sprachmodell für das Videoverständnis . arXiv-Vorabdruck arXiv:2306.02858, 2023. Papier

[65] Junnan Li, Dongxu Li, Silvio Savarese und Steven Hoi. BLIP-2: Bootstrapping-Sprachbild-Vortraining mit Encodern für eingefrorene Bilder und großen Sprachmodellen . In ICML, 2023. Papier

[66] Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin und Ishan Misra. Imagebind: Ein Einbettungsbereich, um sie alle zu binden . In CVPR, 2023. Papier

[67] Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung und Steven Hoi. Instructblip: Auf dem Weg zu universellen Vision-Sprachmodellen mit Instruktionsoptimierung . ArXiv, abs/2305.06500, 2023. Papier

[68] Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Jingkang Yang und Ziwei Liu. Otter: Ein multimodales Modell mit kontextbezogener Befehlsoptimierung . ArXiv, abs/2305.03726, 2023. Papier

[69] Anas Awadalla, Irena Gao, Joshua Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Jenia Jitsev, et al. Openflamingo , 2023.

[70] Tao Gong, Chengqi Lyu, Shilong Zhang, Yudong Wang, Miao Zheng, Qianmengke Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo und Kai Chen. Multimodal-gpt: Ein Visions- und Sprachmodell für den Dialog mit Menschen . ArXiv, abs/2305.04790, 2023. Papier

Domänenspezifische Befehlsoptimierung

[71] Zheng Liu, Aoxiao Zhong, Yiwei Li, Longtao Yang, Chao Ju, Zihao Wu, Chong Ma, Peng Shu, Cheng Chen, Sekeun Kim, Haixing Dai, Lin Zhao, Dajiang Zhu, Jun Liu, Wei Liu, Dinggang Shen , Xiang Li, Quanzheng Li und Tianming Liu. Radiology-gpt: Ein großes Sprachmodell für die Radiologie . 2023. Papier

[72] Yunxiang Li, Zihan Li, Kai Zhang, Ruilong Dan und You Zhang. Chatdoctor: Ein medizinisches Chat-Modell, das auf dem Lama-Modell unter Verwendung von medizinischem Fachwissen verfeinert wurde . ArXiv, abs/2303.14070, 2023. Papier

[73] Sendong Zhao Bing Qin Ting Liu Haochun Wang, Chi Liu. Chatglm-med. github.com/SCIR-HI/Med-ChatGLM , 2023.

[74] Yue Zhang, Leyang Cui, Deng Cai, Xinting Huang, Tao Fang und Wei Bi. 2023d. Multitasking-Anweisungsabstimmung von Lama für bestimmte Szenarien: Eine vorläufige Studie zur Schreibunterstützung. ArXiv, abs/2305.13225. Papier

[75] Vipul Raheja, Dhruv Kumar, Ryan Koo und Dongyeop Kang. 2023. Coedit: Textbearbeitung durch aufgabenspezifische Anweisungsabstimmung. ArXiv, abs/2305.09857. Papier

[76] Tuhin Chakrabarty, Vishakh Padmakumar und Hengxing He. 2022. Helfen Sie mir, ein Gedicht zu schreiben – eine Anleitung, die als Vehikel für das gemeinsame Schreiben von Gedichten dient. ArXiv, abs/2210.13669. Papier

[77] Siddharth Varia, Shuai Wang, Kishaloy Halder, Robert Vacareanu, Miguel Ballesteros, Yassine Benajiba, Neha Ann John, Rishita Anubhai, Smaranda Muresan und Dan Roth. 2022. Befehlsoptimierung für die aspektbasierte Stimmungsanalyse mit wenigen Schüssen. ArXiv, abs/2210.06629. Papier

[78] Tiedong Liu und Bryan Kian Hsiang. Ziege: Fein abgestimmtes Lama übertrifft gpt-4 bei Rechenaufgaben . arXiv-Vorabdruck arXiv:2305.14201, 2023. Papier

[79] Xiao Wang, Wei Zhou, Can Zu, Han Xia, Tianze Chen, Yuan Zhang, Rui Zheng, Junjie Ye, Qi Zhang, Tao Gui, Jihua Kang, J. Yang, Siyuan Li und Chunsai Du. Anleitung: Multitasking-Anweisungsoptimierung für eine einheitliche Informationsextraktion . ArXiv, abs/2304.08085, 2023. Papier

Effiziente Tuning-Techniken

[80] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang und Weizhu Chen. 2021. Lora: Low-Rank-Adaption großer Sprachmodelle . arXiv-Vorabdruck arXiv:2106.09685. Papier

[81] Hamish Ivison, Akshita Bhagia, Yizhong Wang, Hannaneh Hajishirzi und Matthew E. Peters. 2022. Hinweis: Optimierung der Hypernetzwerk-Anweisungen für eine effiziente Zero-Shot-Generalisierung . ArXiv, abs/2212.10315. Papier

[82] Tim Dettmers, Artidoro Pagnoni, Ari Holtzman und Luke Zettlemoyer. 2023. Qlora: Effiziente Feinabstimmung quantisierter Filme . arXiv-Vorabdruck arXiv:2305.14314. Papier

[83] Kai Lv, Yuqing Yang, Tengxiao Liu, Qi jie Gao, Qipeng Guo und Xipeng Qiu. 2023. Vollständige Parameter-Feinabstimmung für große Sprachmodelle mit begrenzten Ressourcen . Papier

[84] Weize Chen, Jing Yi, Weilin Zhao, Xiaozhi Wang, Zhiyuan Liu, Haitao Zheng, Jianfei Chen, Y. Liu, Jie Tang, Juanzi Li und Maosong Sun. 2023b. Parametereffiziente Feinabstimmung umfangreicher vorab trainierter Sprachmodelle . Nature Machine Intelligence, 5:220–235. Papier

Bewertungen

[85] Hendrycks, Dan und Burns, Collin und Basart, Steven und Zou, Andy und Mazeika, Mantas und Song, Dawn und Steinhardt, Jacob. 2020a. Messung des massiven Multitasking-Sprachverständnisses . arXiv:2009.03300. Papier

[86] Hendrycks, Dan und Burns, Collin und Kadavath, Saurav und Arora, Akul und Basart, Steven und Tang, Eric und Song, Dawn und Steinhardt, Jacob. 2021. Messung mathematischer Problemlösungen mit dem Mathematikdatensatz . arXiv-Vorabdruck arXiv:2103.03874. Papier

[87] Karl Cobbe und Vineet Kosaraju und Mohammad Bavarian und Mark Chen und Heewoo Jun und Lukasz Kaiser und Matthias Plappert und Jerry Tworek und Jacob Hilton und Reiichiro Nakano und Christopher Hesse und John Schulman. 2021. Schulung von Verifizierern zur Lösung mathematischer Wortprobleme . Papier

[88] Suzgun, Mirac und Scales, Nathan und Sch{"a}rli, Nathanael und Gehrmann, Sebastian und Tay, Yi und Chung, Hyung Won und Chowdhery, Aakanksha und Le, Quoc V und Chi, Ed H und Zhou, Denny und andere. Anspruchsvolle Big-Bank-Aufgaben und ob Chain-of-Think sie lösen kann arXiv:2210.09261 Papier

[89] Chen, Mark und Tworek, Jerry und Jun, Heewoo und Yuan, Qiming und Pinto, Henrique Ponde De Oliveira und Kaplan, Jared und Edwards, Harri und Burda, Yuri und Joseph, Nicholas und Brockman, Greg und andere. 2021a. Evaluierung großer Sprachmodelle, die auf Code trainiert wurden . arXiv-Vorabdruck arXiv:2107.03374 Papier

[90] Zhou, Jeffrey und Lu, Tianjian und Mishra, Swaroop und Brahma, Siddhartha und Basu, Sujoy und Luan, Yi und Zhou, Denny und Hou, Le. 2023b. Befehlsfolgende Auswertung für große Sprachmodelle . arXiv-Vorabdruck arXiv:2311.07911 Papier

[91] Xuechen Li und Tianyi Zhang und Yann Dubois und Rohan Taori und Ishaan Gulrajani und Carlos Guestrin und Percy Liang und Tatsunori B. Hashimoto. 2023h. AlpacaEval: Ein automatischer Bewerter von Modellen zur Befolgung von Anweisungen . GitHub-Repository GitHub

[92] Dubois, Yann und Galambosi, Bal{'a}zs und Liang, Percy und Hashimoto, Tatsunori B. 2024. Längenkontrollierte AlpacaEval: A Simple Way to Debias Automatic Evaluators . arXiv-Vorabdruck arXiv:2404.04475 Papier

[93] Zheng, Lianmin und Chiang, Wei-Lin und Sheng, Ying und Zhuang, Siyuan und Wu, Zhanghao und Zhuang, Yonghao und Lin, Zi und Li, Zhuohan und Li, Dacheng und Xing, Eric und andere. 2023. LLM-as-a-Judge mit mt-bench und chatbot arena beurteilen . Fortschritte in neuronalen Informationsverarbeitungssystemen. Papier

[94] Lin, Bill Yuchen und Deng, Yuntian und Chandu, Khyathi und Brahman, Faeze und Ravichander, Abhilasha und Pyatkin, Valentina und Dziri, Nouha und Bras, Ronan Le und Choi, Yejin. 2024. WILDBENCH: Benchmarking von LLMs mit herausfordernden Aufgaben von echten Benutzern in freier Wildbahn . arXiv-Vorabdruck arXiv:2406.04770 Papier

Oberflächliche Ausrichtung

[95] Po-Nien Kung und Nanyun Peng. 2023. Lernen Models wirklich, Anweisungen zu befolgen? Eine empirische Studie zur Instruktionsoptimierung . ACL. Papier

[96] Chunting Zhou und Pengfei Liu und Puxin Xu und Srini Iyer und Jiao Sun und Yuning Mao und Xuezhe Ma und Avia Efrat und Ping Yu und L. Yu und Susan Zhang und Gargi Ghosh und Mike Lewis und Luke Zettlemoyer und Omer Levy. 2023a. LIMA: Weniger ist mehr für die Ausrichtung . NeurIPS 2023. Papier

[97] Lin, Bill Yuchen und Ravichander, Abhilasha und Lu, Ximing und Dziri, Nouha und Sclar, Melanie und Chandu, Khyathi und Bhagavatula, Chandra und Choi, Yejin. 2023a. Der Entriegelungszauber auf Basisfilmen: Neudenken der Ausrichtung durch kontextbezogenes Lernen . ICLR 2024. Papier