Repositori ini berisi sumber daya yang dirujuk dalam makalah Penyetelan Instruksi untuk Model Bahasa Besar: Survei.
Jika Anda merasa repositori ini bermanfaat, harap kutip yang berikut ini:
@article{zhang2023instruction,
title={Instruction Tuning for Large Language Models: A Survey},
author={Zhang, Shengyu and Dong, Linfeng and Li, Xiaoya and Zhang, Sen and Sun, Xiaofei and Wang, Shuhe and Li, Jiwei and Hu, Runyi and Zhang, Tianwei and Wu, Fei and others},
journal={arXiv preprint arXiv:2308.10792},
year={2023}
}
Pantau terus! Pekerjaan terkait lainnya akan diperbarui!
Penyetelan instruksi (IT) mengacu pada proses pelatihan lebih lanjut model bahasa besar (LLM) pada kumpulan data yang terdiri dari pasangan (instruction, output)
dengan cara yang diawasi, yang menjembatani kesenjangan antara tujuan prediksi kata berikutnya dari LLM dan pengguna ' Tujuan agar LLM mematuhi instruksi manusia. Alur umum penyetelan instruksi ditunjukkan sebagai berikut:
Dalam makalah ini, kami melakukan tinjauan sistematis terhadap literatur, termasuk metodologi umum TI, konstruksi kumpulan data TI, pelatihan model TI, dan penerapan pada berbagai modalitas, domain, dan aplikasi, serta analisis terhadap aspek-aspek yang mempengaruhi hasil TI (misalnya, pembuatan keluaran instruksi, ukuran kumpulan data instruksi, dll). Kami juga meninjau potensi kelemahan TI serta kritik terhadapnya, serta upaya yang menunjukkan kelemahan strategi yang ada saat ini dan menyarankan beberapa jalan untuk penelitian yang bermanfaat. Tipologi makalahnya adalah sebagai berikut:
Jenis | Nama Kumpulan Data | Kertas | Proyek | # Instruksi | # dari Lang | Konstruksi | Sumber Terbuka |
---|---|---|---|---|---|---|---|
Buatan Manusia | QA Terpadu [1] | kertas | proyek | 750K | En | buatan manusia | Ya |
SKG Terpadu [2] | kertas | proyek | 0,8 juta | En | buatan manusia | Ya | |
Petunjuk Alami [3] | kertas | proyek | 193K | En | buatan manusia | Ya | |
Petunjuk Super-Alami [4] | kertas | proyek | 5M | 55 Lang | buatan manusia | Ya | |
P3 [5] | kertas | proyek | 12M | En | buatan manusia | Ya | |
xP3 [6] | kertas | proyek | 81M | 46 Lang | buatan manusia | Ya | |
Fla 2021 [7] | kertas | proyek | 4,4 juta | En | buatan manusia | Ya | |
COIG [8] | kertas | proyek | - | - | - | Ya | |
InstruksikanGPT [9] | kertas | - | 13K | Multi | buatan manusia | TIDAK | |
Boneka [10] | kertas | proyek | 15K | En | buatan manusia | Ya | |
LIMA [11] | kertas | proyek | 1K | En | buatan manusia | Ya | |
ObrolanGPT [12] | kertas | - | - | Multi | buatan manusia | TIDAK | |
Asisten Terbuka [13] | kertas | proyek | 161.443 | Multi | buatan manusia | Ya | |
Data Sintetis (Distilasi) | OIG [14] | - | proyek | 43M | En | ChatGPT (Tidak ada laporan teknik) | Ya |
Instruksi Tidak Wajar [3] | kertas | proyek | 240K | En | InstructGPT dihasilkan | Ya | |
Instruksikan Liar [15] | - | proyek | 104K | - | Obrolan yang Dihasilkan GPT | Ya | |
Instruksi Evol / WizardLM [16] | kertas | proyek | 52K | En | Obrolan yang Dihasilkan GPT | Ya | |
Alpaka [17] | - | proyek | 52K | En | InstructGPT dihasilkan | Ya | |
LogikaCoT [18] | kertas | proyek | - | En | Dihasilkan GPT-4 | Ya | |
GPT-4-LLM [19] | kertas | proyek | 52K | En&Zh | Dihasilkan GPT-4 | Ya | |
Vicuna [20] | - | proyek | 70K | En | Percakapan Nyata Pengguna-ObrolanGPT | TIDAK | |
Baize v1 [21] | kertas | proyek | 111,5K | En | Obrolan yang Dihasilkan GPT | Ya | |
Obrolan Ultra [22] | kertas | proyek | 675K | En&Zh | GPT 3/4 Dihasilkan | Ya | |
Guanaco [23] | - | proyek | 534.530 | Multi | GPT (Versi Tidak Diketahui) -Dihasilkan | Ya | |
Orca [24] | kertas | proyek | 1,5 juta | En | GPT 3.5/4 Dihasilkan | Ya | |
BagikanGPT | - | proyek | 90K | Multi | Percakapan Nyata Pengguna-ObrolanGPT | Ya | |
Obrolan Liar | - | proyek | 150K | Multi | Percakapan Nyata Pengguna-ObrolanGPT | Ya | |
Pembuat Kode Penyihir [25] | kertas | - | - | Kode | LLaMa 2-Dihasilkan | TIDAK | |
Penyihir [26] | kertas | proyek | 75K/110K | Kode | GPT-3.5 Dihasilkan | Ya | |
Kode Gelombang [27] | kertas | - | - | Kode | GPT 4-Dihasilkan | TIDAK | |
Fi-1 [28] | kertas | proyek | Token 6B | Kode Q dan A | GPT-3.5 Dihasilkan | Ya | |
Phi-1.5 [29] | kertas | - | - | Kode Q dan A | GPT-3.5 Dihasilkan | TIDAK | |
Nektar [30] | kertas | proyek | ~183K | En | GPT 4-Dihasilkan | Ya | |
Data Sintetis (Peningkatan Diri) | Instruksikan Sendiri [31] | kertas | proyek | 52K | En | InstructGPT dihasilkan | Ya |
Instruksi Terjemahan Balik [32] | kertas | - | 502K | En | Dihasilkan LLaMa | TIDAK | |
PUTAR [33] | kertas | proyek | 49.8K | En | Dihasilkan Zephyr | Ya |
Nama Model | #Param | Kertas | Proyek | Model Dasar | Set Kereta Instruksi | ||
---|---|---|---|---|---|---|---|
Membangun sendiri | Nama | Ukuran | |||||
InstruksikanGPT [9] | 176B | kertas | - | GPT-3 [36] | Ya | - | - |
BLOOMZ [34] | 176B | kertas | proyek | MEKAR [37] | TIDAK | xP3 | - |
FLAN-T5 [35] | 11B | kertas | proyek | T5 [38] | TIDAK | FLAN 2021 | - |
Alpaka [17] | 7B | - | proyek | LLaMA [39] | Ya | - | 52K |
Vicuna [20] | 13B | - | proyek | LLaMA [39] | Ya | - | 70K |
GPT-4-LLM [19] | 7B | kertas | proyek | LLaMA [39] | Ya | - | 52K |
Claude [40] | - | kertas | - | - | Ya | - | - |
PenyihirLM [16] | 7B | kertas | proyek | LLaMA [39] | Ya | Evol-Instruksikan | 70K |
ObrolanGLM2 [41] | 6B | kertas | proyek | GLM[41] | Ya | - | 1.1 Token |
LIMA [11] | 65B | kertas | proyek | LLaMA [39] | Ya | 1K | |
OPT-IML [42] | 175B | kertas | proyek | MEMILIH [43] | TIDAK | - | - |
Boneka 2.0 [44] | 12B | - | proyek | Pythia [45] | TIDAK | - | 15K |
Falcon-Instruksikan [46] | 40B | kertas | proyek | Elang [46] | TIDAK | - | - |
Guanaco [23] | 7B | - | proyek | LLaMA [39] | Ya | - | 586K |
Minotaur [47] | 15B | - | proyek | Starcoder Ditambah [48] | TIDAK | - | - |
Nous-Hermes [49] | 13B | - | proyek | LLaMA [39] | TIDAK | - | 300K+ |
TÜLU [50] | 6.7B | kertas | proyek | MEMILIH [43] | TIDAK | Campur aduk | - |
YuLan-Obrolan [51] | 13B | - | proyek | LLaMA [39] | Ya | - | 250K |
lumut [52] | 16B | - | proyek | - | Ya | - | - |
Airoboro [53] | 13B | - | proyek | LLaMA [39] | Ya | - | - |
UltraLM [22] | 13B | kertas | proyek | LLaMA [39] | Ya | - | - |
Nama Kumpulan Data | Kertas | Proyek | Modalitas | # Tugas | |
---|---|---|---|---|---|
Pasangan Modalitas | # Contoh | ||||
INSTRUKSI MUL-TI [54] | kertas | proyek | Gambar-Teks | 5K hingga 5M per tugas | 62 |
PMC-VQA [55] | kertas | proyek | Gambar-Teks | 227K | 9 |
LAMM [56] | kertas | proyek | Gambar-Teks | 186K | 9 |
Arahkan Cloud-Teks | 10K | 3 | |||
Visi-Flan [57] | kertas | proyek | Multi-Pasangan | ~1 juta | 200+ |
ALLAVA [58] | kertas | proyek | Gambar-Teks | 1,4 juta | 2 |
BagikanGPT4V [59] | kertas | proyek | Gambar-Teks | 1,2 juta | 2 |
Nama Model | #Param | Kertas | Proyek | Pengandaian | Model Dasar | Set kereta | ||
---|---|---|---|---|---|---|---|---|
Nama Model | #Param | Membangun sendiri | Ukuran | |||||
InstruksikanPix2Pix [60] | 983M | kertas | proyek | Gambar-Teks | Difusi Stabil [62] | 983M | Ya | 450K |
LLaVA [61] | 13B | kertas | proyek | Gambar-Teks | KLIP [63] | 400M | Ya | 158K |
LLaMA [39] | 7B | |||||||
LLaMA [39] | 7B | |||||||
Video-LLaMA [64] | - | kertas | proyek | Gambar-Teks-Video-Audio | BLIP-2 [65] | - | TIDAK | - |
Ikatan Gambar [66] | - | |||||||
Vicuna [20] | 7B/13B | |||||||
InstruksikanBLIP [67] | 12B | kertas | proyek | Gambar-Teks-Video | BLIP-2 [65] | - | TIDAK | - |
Berang-berang [68] | - | kertas | proyek | Gambar-Teks-Video | BukaFlamingo [69] | 9B | Ya | 2,8 juta |
MultiModal-GPT [70] | - | kertas | proyek | Gambar-Teks-Video | BukaFlamingo [69] | 9B | TIDAK | - |
Domain | Nama Model | #Param | Kertas | Proyek | Model Dasar | Ukuran Kereta Api |
---|---|---|---|---|---|---|
Medis | Radiologi-GPT [71] | 7B | kertas | proyek | Alpaka [17] | 122K |
ObrolanDokter [72] | 7B | kertas | proyek | LLaMA [39] | 122K | |
ObrolanGLM-Med [73] | 6B | - | proyek | ObrolanGLM [41] | - | |
Menulis | Menulis-Alpaca [74] | 7B | kertas | - | LLaMA [39] | - |
CoEdit [75] | 11B | kertas | proyek | FLAN-T5 [7] | 82K | |
Penyair [76] | 11B | kertas | proyek | T5[38] | - | |
Pembuatan Kode | Pembuat Kode Penyihir [25] | 15B | kertas | proyek | Pembuat Kode Bintang [48] | 78K |
Analisis Sentimen | IT-MTL [77] | 220M | kertas | proyek | T5[38] | - |
Hitung | Kambing [78] | 7B | kertas | proyek | LLaMA [39] | 1,0 juta |
Ekstraksi Informasi | InstruksikanUIE [79] | 11B | kertas | proyek | FLAN-T5 [7] | 1,0 juta |
Nama | Kertas | Proyek |
---|---|---|
LoRA [80] | kertas | proyek |
PETUNJUK [81] | kertas | proyek |
QLoRA [82] | kertas | proyek |
LOMO [83] | kertas | proyek |
Penyetelan Delta [84] | kertas | proyek |
Evaluasi Tertutup | Kertas | Proyek |
---|---|---|
Pemahaman Bahasa Multitask Besar-besaran (MMLU) [85] | kertas | proyek |
MATEMATIKA [86] | kertas | proyek |
GSM8K [87] | kertas | proyek |
Bangku BESAR Keras (BBH) [88] | kertas | proyek |
Evaluasi Manusia [89] | kertas | proyek |
IFEval [90] | kertas | proyek |
Evaluasi Berbasis GPT | Kertas | Proyek |
---|---|---|
AlpakaEval [91] | - | proyek |
AlpacaEval yang Dikendalikan Panjangnya [92] | kertas | proyek |
MT-Bench [93] | kertas | proyek |
Bangku Liar [94] | kertas | proyek |
[1] Khashabi, Daniel, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark, dan Hannaneh Hajishirzi. Unifiedqa: Melintasi batas format dengan sistem qa tunggal . arXiv pracetak arXiv:2005.00700 (2020). Kertas
[2] Tianbao Xie, Chen Henry Wu, Peng Shi, Ruiqi Zhong, Torsten Scholak, Michihiro Yasunaga, Chien-Sheng Wu, Ming Zhong, Pengcheng Yin, Sida I. Wang, Victor Zhong, Bailin Wang, Chengzu Li, Connor Boyle, Ansong Ni, Ziyu Yao, Dragomir R. Radev, Caiming Xiong, Lingpeng Kong, Rui Zhang, Noah A. Smith, Luke Zettlemoyer, dan Tao Yu. Unifiedskg: Pengetahuan terstruktur yang menyatukan dan melakukan banyak tugas dengan model bahasa teks-ke-teks . Dalam Konferensi Metode Empiris dalam Pemrosesan Bahasa Alami, 2022. Makalah
[3] Mishra, Swaroop dan Khashabi, Daniel dan Baral, Chitta dan Hajishirzi, Hannaneh. Instruksi yang tidak wajar: Menyesuaikan model bahasa dengan (hampir) tanpa tenaga manusia . arXiv pracetak arXiv:2212.09689, 2022. Kertas
[3] Atau Honovich, Thomas Scialom, Omer Levy, dan Timo Schick. Instruksi yang tidak wajar: Menyesuaikan model bahasa dengan (hampir) tanpa tenaga manusia . arXiv pracetak arXiv:2212.09689, 2022. Kertas
[4] Yizhong Wang, Swaroop Mishra, Pegah Alipoormolabashi, Yeganeh Kordi, Amirreza Mirzaei, Anjana Arunkumar, Arjun Ashok, Arut Selvan Dhanasekaran, Atharva Naik, David Stap, dkk. Instruksi supra-alami: generalisasi melalui instruksi deklaratif pada 1600+ tugas . Dalam EMNLP, 2022. Makalah
[5] Victor Sanh, Albert Webson, Colin Raffel, Stephen H Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, dkk. Pelatihan yang didorong oleh multitask memungkinkan generalisasi tugas zero-shot . arXiv pracetak arXiv:2110.08207, 2021. Kertas
[6] Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, Teven Le Scao, M Saiful Bari, Sheng Shen, Zheng-Xin Yong, Hailey Schoelkopf, dkk. Generalisasi lintas bahasa melalui penyesuaian multitask . arXiv pracetak arXiv:2211.01786, 2022. Kertas
[7] Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung Won Chung, Yi Tay, Denny Zhou, Quoc V Le, Barret Zoph, Jason Wei, dkk. Koleksi flan: Merancang data dan metode untuk penyetelan instruksi yang efektif . arXiv pracetak arXiv:2301.13688, 2023. Kertas
[8] Ge Zhang, Yemin Shi, Ruibo Liu, Ruibin Yuan, Yizhi Li, Siwei Dong, Yu Shu, Zhaoqun Li, Zekun Wang, Chenghua Lin, Wen-Fen Huang, dan Jie Fu. Generalis instruksi terbuka Tiongkok: Rilis awal . ArXiv, abs/2304.07987, 2023. Makalah
[9] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, dkk. Melatih model bahasa untuk mengikuti instruksi dengan umpan balik manusia . Kemajuan dalam Sistem Pemrosesan Informasi Neural, 35:27730–27744, 2022. Makalah
[10] Mike Conover, Matt Hayes, Ankit Mathur, Xiangrui Meng, Jianwei Xie, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia, dkk. Dolly gratis: Memperkenalkan pembelajaran yang benar-benar terbuka pertama di dunia , tahun 2023. Makalah
[11] Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, L. Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer, dan Omer Levy. Lima: Lebih sedikit lebih baik untuk penyelarasan . ArXiv, abs/2305.11206, 2023. Makalah
[12] OpenAI. Memperkenalkan obrolangpt . Entri blog openai.com/blog/chatgpt, 2022. Makalah
[13] Andreas Köpf, Yannic Kilcher, Dimitri von Rütte, Sotiris Anagnostidis, Zhi-Rui Tam, Keith Stevens, Abdullah Barhoum, Nguyen Minh Duc, Oliver Stanley, Richárd Nagyfi, dkk. Percakapan dengan asisten terbuka–mendemokratisasikan penyelarasan model bahasa besar . arXiv pracetak arXiv:2304.07327, 2023. Kertas
[14] LAION.ai. Oig: kumpulan data generalis instruksi terbuka , 2023.
[15] Fuzhao Xue, Kabir Jain, Mahir Hitesh Shah, Zangwei Zheng, dan Yang You. Instruksi di alam liar: Kumpulan data instruksi berbasis pengguna . github.com/XueFuzhao/InstructionWild,2023
.
[16] Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao, dan Daxin Jiang. Wizardlm: Memberdayakan model bahasa besar untuk mengikuti instruksi yang kompleks , 2023. Makalah
[17] Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang, dan Tatsunori B Hashimoto. Alpaca: Model mengikuti instruksi yang kuat dan dapat ditiru . Pusat Penelitian Model Fondasi Stanford. https://crfm.stanford.edu/2023/03/13/alpaca.html
, 3(6):7, 2023.
[18] Hanmeng Liu, Zhiyang Teng, Leyang Cui, Chaoli Zhang, Qiji Zhou, dan Yue Zhang. Logicot: Pengumpulan data penyetelan instruksi rantai pemikiran logis dengan gpt-4 . ArXiv, abs/2305.12147, 2023. Makalah
[19] Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, dan Jianfeng Gao. Penyetelan instruksi dengan gpt-4 . arXiv pracetak arXiv:2304.03277, 2023. Kertas
[20] Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E Gonzalez, dkk. Vicuna: Chatbot sumber terbuka yang mengesankan dengan gpt-4 dengan kualitas chatgpt 90% . Lihat https://vicuna.lmsys.org
(diakses 14 April 2023), 2023.
[21] Canwen Xu dan Daya Guo dan Nan Duan dan Julian McAuley. Baize: Model Obrolan Sumber Terbuka dengan Penyetelan Parameter Efisien pada Data Obrolan Mandiri . Kertas
[22] Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun, dan Bowen Zhou. Meningkatkan model bahasa obrolan dengan menskalakan percakapan instruksional berkualitas tinggi . arXiv pracetak arXiv:2305.14233, 2023. Kertas
[23] Josephus Cheung. Guanaco: Asisten universal generatif untuk keluaran omnilingual sadar konteks adaptif bahasa alami , 2021.
[24] Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal, Hamid Palangi, dan Ahmed Awadallah. 2023. Orca: Pembelajaran progresif dari jejak penjelasan kompleks gpt-4. arXiv pracetak arXiv:2306.02707. Kertas
[25] Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, dan Daxin Jiang. 2023. Wizardcoder: Memberdayakan model bahasa kode besar dengan evol-instruct. Kertas
[26] Yuxiang Wei, Zhe Wang, Jiawei Liu, Yifeng Ding, dan Lingming Zhang. 2023b. Magicoder: Hanya kode sumber yang Anda perlukan. arXiv pracetak arXiv:2312.02120. Kertas
[27] Zhaojian Yu, Xin Zhang, Ning Shang, Yangyu Huang, Can Xu, Yishujie Zhao, Wenxiang Hu, dan Qiufeng Yin. 2023. Wavecoder: Penyetelan instruksi yang diperluas dan serbaguna dengan pembuatan data yang lebih baik. arXiv pracetak arXiv:2312.14187. Kertas
[28] Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, dkk. 2023. Hanya buku teks yang Anda butuhkan. arXiv pracetak arXiv:2306.11644. Kertas
[29] Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar, dan Yin Tat Lee. 2023 jam. Hanya buku teks yang Anda perlukan ii: laporan teknis phi-1.5. arXiv pracetak arXiv:2309.05463. Kertas
[30] Banghua Zhu, Evan Frick, Tianhao Wu, Hanlin Zhu, dan Jiantao Jiao. 2023a. Starling-7b: Meningkatkan kegunaan & ketidakberbahayaan llm dengan rlaif. Kertas
[31] Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A Smith, Daniel Khashabi, dan Hannaneh Hajishirzi. Instruksi mandiri: Menyelaraskan model bahasa dengan instruksi yang dibuat sendiri . arXiv pracetak arXiv:2212.10560, 2022. Kertas
[32] Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Luke Zettlemoyer, Omer Levy, Jason Weston, dan Mike Lewis. 2023g. Penyelarasan diri dengan terjemahan kembali instruksi. arXiv pracetak arXiv:2308.06259. Kertas
[33] Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji, dan Quanquan Gu. 2024. Penyempurnaan permainan mandiri mengubah model bahasa yang lemah menjadi model bahasa yang kuat. arXiv pracetak arXiv:2401.01335. Kertas
[34] Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, Teven Le Scao, M Saiful Bari, Sheng Shen, Zheng-Xin Yong, Hailey Schoelkopf, dkk. 2022. Generalisasi lintas bahasa melalui penyesuaian multitask. arXiv pracetak arXiv:2211.01786. Kertas
[35] Hyung Won Chung, Le Hou, S. Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen , Aakanksha Chowdhery, Dasha Valter, Sharan Narang, Gaurav Mishra, Adams Wei Yu, Vincent Zhao, Yanping Huang, Andrew M. Dai, Hongkun Yu, Slav Petrov, Ed Huai hsin Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le, dan Jason Wei. Menskalakan model bahasa yang disempurnakan dengan instruksi . ArXiv, abs/2210.11416, 2022. Makalah
[36] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, TJ Henighan, Rewon Anak, Aditya Ramesh, Daniel M. Ziegler, Jeff Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, dan Dario Amodei. Model bahasa adalah pembelajar yang hanya sekali belajar . ArXiv, abs/2005.14165, 2020. Makalah
[37] Scao, Teven Le, Angela Fan, Christopher Akiki, Ellie Pavlick, Suzana Ilić, Daniel Hesslow, Roman Castagné dkk. Bloom: Model bahasa multibahasa akses terbuka dengan parameter 176b . arXiv pracetak arXiv:2211.05100 (2022). Kertas
[38] Colin Raffel, Noam M. Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, dan Peter J. Liu. Menjelajahi batasan pembelajaran transfer dengan transformator teks-ke-teks terpadu . ArXiv, abs/1910.10683, 2019. Makalah
[39] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aur'elien Rodriguez, Armand Joulin, Edouard Grave, dan Guillaume Lample. Llama: Model bahasa dasar yang terbuka dan efisien . ArXiv, abs/2302.13971, 2023. Makalah
[40] Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, dkk. Ai konstitusional: Tidak ada salahnya dari umpan balik ai . arXiv pracetak arXiv:2212.08073, 2022. Kertas
[41] Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, dan Jie Tang. Glm: Pra-pelatihan model bahasa umum dengan pengisian kosong autoregresif . Dalam Prosiding Pertemuan Tahunan ke-60 Asosiasi Linguistik Komputasi (Volume 1: Makalah Panjang), halaman 320–335, 2022. Makalah
[42] Srinivas Iyer, Xiaojuan Lin, Ramakanth Pasunuru, Todor Mihaylov, Daniel Simig, Ping Yu, Kurt Shuster, Tianlu Wang, Qing Liu, Punit Singh Koura, Xian Li, Brian O'Horo, Gabriel Pereyra, Jeff Wang, Christopher Dewan , Asli Celikyilmaz, Luke Zettlemoyer, dan Veselin Stoyanov. Opt-iml: Menskalakan pembelajaran meta instruksi model bahasa melalui lensa generalisasi . ArXiv, abs/2212.12017, 2022. Makalah
[43] Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona T. Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig , Punit Singh Koura, Anjali Sridhar, Tianlu Wang, dan Luke Zettlemoyer. 2022a. Pilihan: Buka model bahasa transformator terlatih. ArXiv, abs/2205.01068. Kertas
[44] Mike Conover, Matt Hayes, Ankit Mathur, Xiangrui Meng, Jianwei Xie, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia, dkk. Dolly gratis: Memperkenalkan film instruksi terbuka pertama di dunia , 2023.
[45] Stella Rose Biderman, Hailey Schoelkopf, Quentin G. Anthony, Herbie Bradley, Kyle O'Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, USVSN Sai Prashanth, Edward Raff, Aviya Skowron, Lintang Sutawika, dan Oskar van der Wal. Pythia: Rangkaian untuk menganalisis model bahasa besar di seluruh pelatihan dan penskalaan . ArXiv, abs/2304.01373, 2023. Makalah
[46] Ebtesam Almazrouei, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, Merouane Debbah, Etienne Goffinet, Daniel Heslow, Julien Launay, Quentin Malartic, Badreddine Noune, Baptiste Pannier, dan Guilherme Penedo. Falcon-40B: model bahasa terbuka besar dengan performa canggih . 2023. Makalah
[47] Kolektif AI OpenAccess . perangkat lunak: Huggingface.co/openaccess-ai-collective/minotaur-15b, 2023.
[48] Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov, Chenghao Mou, Marc Marone, Christopher Akiki, Jia Li, Jenny Chim, dkk. Starcoder: semoga sumbernya ada pada Anda ! arXiv pracetak arXiv:2305.06161, 2023. Kertas
[49] Penelitian Kita . perangkat lunak: Huggingface.co/NousResearch/Nous-Hermes-13b, 2023.
[50] Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy, dan Hanna Hajishirzi. Seberapa jauh unta bisa melaju? menjelajahi keadaan penyetelan instruksi pada sumber daya terbuka . ArXiv, abs/2306.04751, 2023. Makalah
[51] Tim Obrolan YuLan. Yulan-chat: Chatbot bilingual sumber terbuka . github.com/RUC-GSAI/YuLan-Chat, 2023.
[52] Sun Tianxiang dan Qiu Xipeng. lumut . Entri blog txsun1997.github.io/blogs/moss.html, 2023.
[53] Jon Durbin. Airoboro . perangkat lunak: github.com/jondurbin/airoboros, 2023.
[54] Zhiyang Xu, Ying Shen, dan Lifu Huang. Multiinstruct: Meningkatkan pembelajaran zero-shot multi-modal melalui penyetelan instruksi . ArXiv, abs/2212.10773, 2022. Makalah
[55] Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao, Weixiong Lin, Ya Zhang, Yanfeng Wang, dan Weidi Xie. Pmc-vqa: Penyetelan instruksi visual untuk menjawab pertanyaan visual medis . ArXiv, abs/2305.10415. 2023. Makalah
[56] Zhenfei Yin, Jiong Wang, Jianjian Cao, Zhelun Shi, Dingning Liu, Mukai Li, Lu Sheng, Lei Bai, Xiaoshui Huang, Zhiyong Wang, Wanli Ouyang, dan Jing Shao. Lamm: Kumpulan data, kerangka kerja, dan tolok ukur penyetelan instruksi multimodal berbantuan bahasa . ArXiv, abs/2306.06687, 2023. Makalah
[57] Zhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang, dan Lifu Huang. 2024. Vision-flan: Menskalakan tugas yang diberi label manusia dalam penyetelan instruksi visual. arXiv pracetak arXiv:2402.11690. Kertas
[58] Guiming Hardy Chen, Shunian Chen, Ruifei Zhang, Junying Chen, Xiangbo Wu, Zhiyi Zhang, Zhihong Chen, Jianquan Li, Xiang Wan, dan Benyou Wang. 2024a. Allava: Memanfaatkan data yang disintesis gpt4v untuk model bahasa vision ringan. arXiv pracetak arXiv:2402.11684. Kertas
[59] Lin Chen, Jisong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao, dan Dahua Lin. 2023a. Sharegpt4v: Meningkatkan model multimodal besar dengan teks yang lebih baik. arXiv pracetak arXiv:2311.12793. Kertas
[60] Tim Brooks, Aleksander Holynski, dan Alexei A. Efros. Instructpix2pix: Belajar mengikuti instruksi pengeditan gambar . ArXiv, abs/2211.09800, 2022. Makalah
[61] Haotian Liu, Chunyuan Li, Qingyang Wu, dan Yong Jae Lee. Penyetelan instruksi visual . ArXiv, abs/2304.08485, 2023. Makalah
[62] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, dan Björn Ommer. Sintesis gambar resolusi tinggi dengan model difusi laten . Dalam Prosiding konferensi IEEE/CVF tentang visi komputer dan pengenalan pola, halaman 10684–10695, 2022. Makalah
[63] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, dan Ilya Sutskever. Mempelajari model visual yang dapat ditransfer dari pengawasan bahasa alami . Dalam Konferensi Internasional tentang Pembelajaran Mesin, 2021. Makalah
[64] Hang Zhang, Xin Li, dan Lidong Bing. Video-llama: Model bahasa audio-visual yang disesuaikan dengan instruksi untuk pemahaman video . arXiv pracetak arXiv:2306.02858, 2023. Kertas
[65] Junnan Li, Dongxu Li, Silvio Savarese, dan Steven Hoi. BLIP-2: bootstrapping pra-pelatihan bahasa-gambar dengan pembuat enkode gambar beku dan model bahasa besar . Dalam ICML, 2023. Makalah
[66] Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, dan Ishan Misra. Imagebind: Satu ruang penyematan untuk mengikat semuanya . Dalam CVPR, 2023. Makalah
[67] Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, dan Steven Hoi. Instructblip: Menuju model bahasa visi tujuan umum dengan penyetelan instruksi . ArXiv, abs/2305.06500, 2023. Makalah
[68] Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Jingkang Yang, dan Ziwei Liu. Otter: Model multi-modal dengan penyetelan instruksi dalam konteks . ArXiv, abs/2305.03726, 2023. Makalah
[69] Anas Awadalla, Irena Gao, Joshua Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Jenia Jitsev, dkk. Openflamingo , 2023.
[70] Tao Gong, Chengqi Lyu, Shilong Zhang, Yudong Wang, Miao Zheng, Qianmengke Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, dan Kai Chen. Multimodal-gpt: Sebuah visi dan model bahasa untuk dialog dengan manusia . ArXiv, abs/2305.04790, 2023. Makalah
[71] Zheng Liu, Aoxiao Zhong, Yiwei Li, Longtao Yang, Chao Ju, Zihao Wu, Chong Ma, Peng Shu, Cheng Chen, Sekeun Kim, Haixing Dai, Lin Zhao, Dajiang Zhu, Jun Liu, Wei Liu, Dinggang Shen , Xiang Li, Quanzheng Li, dan Tianming Liu. Radiology-gpt: Model bahasa besar untuk radiologi . 2023. Makalah
[72] Yunxiang Li, Zihan Li, Kai Zhang, Ruilong Dan, dan You Zhang. Chatdoctor: Model obrolan medis yang disempurnakan pada model llama menggunakan pengetahuan domain medis . ArXiv, abs/2303.14070, 2023. Makalah
[73] Sendong Zhao Bing Qin Ting Liu Haochun Wang, Chi Liu. Chatglm-med. github.com/SCIR- HI/Med-ChatGLM , 2023.
[74] yue Zhang, Leyang Cui, Deng Cai, Xinting Huang, Tao Fang, dan Wei Bi. 2023d. Penyetelan instruksi multi-tugas llama untuk skenario tertentu: Sebuah studi pendahuluan tentang bantuan menulis. ArXiv, abs/2305.13225. Kertas
[75] Vipul Raheja, Dhruv Kumar, Ryan Koo, dan Dongyeop Kang. 2023. Coedit: Pengeditan teks dengan penyetelan instruksi khusus tugas. ArXiv, abs/2305.09857. Kertas
[76] Tuhin Chakrabarty, Vishakh Padmakumar, dan Hengxing He. 2022. Bantu saya menulis tala-tuntun puisi sebagai wahana penulisan puisi kolaboratif. ArXiv, abs/2210.13669. Kertas
[77] Siddharth Varia, Shuai Wang, Kishaloy Halder, Robert Vacareanu, Miguel Ballesteros, Yassine Benajiba, Neha Ann John, Rishita Anubhai, Smaranda Muresan, dan Dan Roth. 2022. Penyetelan instruksi untuk analisis sentimen berbasis aspek beberapa gambar. ArXiv, abs/2210.06629. Kertas
[78] Tiedong Liu dan Bryan Kian Hsiang. Kambing: Llama yang disetel dengan baik mengungguli gpt-4 dalam tugas aritmatika . arXiv pracetak arXiv:2305.14201, 2023. Kertas
[79] Xiao Wang, Wei Zhou, Can Zu, Han Xia, Tianze Chen, Yuan Zhang, Rui Zheng, Junjie Ye, Qi Zhang, Tao Gui, Jihua Kang, J. Yang, Siyuan Li, dan Chunsai Du. Instruksi: Penyetelan instruksi multi-tugas untuk ekstraksi informasi terpadu . ArXiv, abs/2304.08085, 2023. Makalah
[80] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, dan Weizhu Chen. 2021. Lora: Adaptasi model bahasa besar tingkat rendah . arXiv pracetak arXiv:2106.09685. Kertas
[81] Hamish Ivison, Akshita Bhagia, Yizhong Wang, Hannaneh Hajishirzi, dan Matthew E. Peters. 2022. Petunjuk: Penyetelan instruksi hypernetwork untuk generalisasi zero-shot yang efisien . ArXiv, abs/2212.10315. Kertas
[82] Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, dan Luke Zettlemoyer. 2023. Qlora: Penyempurnaan llm terkuantisasi yang efisien . arXiv pracetak arXiv:2305.14314. Kertas
[83] Kai Lv, Yuqing Yang, Tengxiao Liu, Qi jie Gao, Qipeng Guo, dan Xipeng Qiu. 2023. Penyempurnaan parameter penuh untuk model bahasa besar dengan sumber daya terbatas . Kertas
[84] Weize Chen, Jing Yi, Weilin Zhao, Xiaozhi Wang, Zhiyuan Liu, Haitao Zheng, Jianfei Chen, Y. Liu, Jie Tang, Juanzi Li, dan Maosong Sun. 2023b. Penyempurnaan parameter-efisien model bahasa terlatih berskala besar . Kecerdasan Mesin Alam, 5:220–235. Kertas
[85] Hendrycks, Dan dan Burns, Collin dan Basart, Steven dan Zou, Andy dan Mazeika, Mantas dan Song, Dawn dan Steinhardt, Jacob. 2020a. Mengukur pemahaman bahasa multitugas secara masif . arXiv:2009.03300. Kertas
[86] Hendrycks, Dan dan Burns, Collin dan Kadavath, Saurav dan Arora, Akul dan Basart, Steven dan Tang, Eric dan Song, Dawn dan Steinhardt, Jacob. 2021. Mengukur pemecahan masalah matematika dengan dataset matematika . arXiv pracetak arXiv:2103.03874. Kertas
[87] Karl Cobbe dan Vineet Kosaraju dan Mohammad Bavarian dan Mark Chen dan Heewoo Jun dan Lukasz Kaiser dan Matthias Plappert dan Jerry Tworek dan Jacob Hilton dan Reiichiro Nakano dan Christopher Hesse dan John Schulman. 2021. Pelatihan Verifikator untuk Menyelesaikan Soal Kata Matematika . Kertas
[88] Suzgun, Mirac dan Scales, Nathan dan Sch{"a}rli, Nathanael dan Gehrmann, Sebastian dan Tay, Yi dan Chung, Hyung Won dan Chowdhery, Aakanksha dan Le, Quoc V dan Chi, Ed H dan Zhou, Denny dan lainnya. 2022a. Tugas-tugas besar yang menantang dan apakah rantai pemikiran dapat menyelesaikannya arXiv:2210.09261 Makalah
[89] Chen, Mark dan Tworek, Jerry dan Jun, Heewoo dan Yuan, Qiming dan Pinto, Henrique Ponde De Oliveira dan Kaplan, Jared dan Edwards, Harri dan Burda, Yuri dan Joseph, Nicholas dan Brockman, Greg dan lainnya. 2021a. Mengevaluasi model bahasa besar yang dilatih tentang kode . arXiv pracetak arXiv:2107.03374 Kertas
[90] Zhou, Jeffrey dan Lu, Tianjian dan Mishra, Swaroop dan Brahma, Siddhartha dan Basu, Sujoy dan Luan, Yi dan Zhou, Denny dan Hou, Le. 2023b. Evaluasi mengikuti instruksi untuk model bahasa besar . arXiv pracetak arXiv:2311.07911 Kertas
[91] Xuechen Li dan Tianyi Zhang dan Yann Dubois dan Rohan Taori dan Ishaan Gulrajani dan Carlos Guestrin dan Percy Liang dan Tatsunori B. Hashimoto. 2023 jam. AlpacaEval: Evaluator Otomatis Model yang Mengikuti Instruksi . Repositori GitHub GitHub
[92] Dubois, Yann dan Galambosi, Bal{'a}zs dan Liang, Percy dan Hashimoto, Tatsunori B. 2024. AlpacaEval yang Dikendalikan Panjang: Cara Sederhana untuk Debias Evaluator Otomatis . arXiv pracetak arXiv:2404.04475 Kertas
[93] Zheng, Lianmin dan Chiang, Wei-Lin dan Sheng, Ying dan Zhuang, Siyuan dan Wu, Zhanghao dan Zhuang, Yonghao dan Lin, Zi dan Li, Zhuohan dan Li, Dacheng dan Xing, Eric dan lainnya. 2023. Menilai llm-as-a-juri dengan mt-bench dan chatbot arena . Makalah Kemajuan dalam Sistem Pemrosesan Informasi Neural
[94] Lin, Bill Yuchen dan Deng, Yuntian dan Chandu, Khyathi dan Brahman, Faeze dan Ravichander, Abhilasha dan Pyatkin, Valentina dan Dziri, Nouha dan Bras, Ronan Le dan Choi, Yejin. 2024. WILDBENCH: Membandingkan LLM dengan Tugas Menantang dari Pengguna Nyata di Alam Liar . arXiv pracetak arXiv:2406.04770 Kertas
[95] Po-Nien Kung dan Nanyun Peng. 2023. Apakah Model Benar-benar Belajar Mengikuti Instruksi? Sebuah Studi Empiris tentang Penyetelan Instruksi . ACL. Kertas
[96] Chunting Zhou dan Pengfei Liu dan Puxin Xu dan Srini Iyer dan Jiao Sun dan Yuning Mao dan Xuezhe Ma dan Avia Efrat dan Ping Yu dan L. Yu dan Susan Zhang dan Gargi Ghosh dan Mike Lewis dan Luke Zettlemoyer dan Omer Levy. 2023a. LIMA: Lebih Sedikit Lebih Baik untuk Penyelarasan . NeuroIPS 2023. Makalah
[97] Lin, Bill Yuchen dan Ravichander, Abhilasha dan Lu, Ximing dan Dziri, Nouha dan Sclar, Melanie dan Chandu, Khyathi dan Bhagavatula, Chandra dan Choi, Yejin. 2023a. Mantra pembuka kunci pada llms dasar: Memikirkan kembali penyelarasan melalui pembelajaran dalam konteks . ICLR 2024. Makalah
Jika Anda memiliki pertanyaan atau saran, silakan membuat masalah atau mengirim email ke [email protected]
.