이 저장소에는 대규모 언어 모델을 위한 지침 조정: 설문 조사 문서에서 참조된 리소스가 포함되어 있습니다.
이 저장소가 도움이 되었다면 다음 내용을 인용해 주세요.
@article{zhang2023instruction,
title={Instruction Tuning for Large Language Models: A Survey},
author={Zhang, Shengyu and Dong, Linfeng and Li, Xiaoya and Zhang, Sen and Sun, Xiaofei and Wang, Shuhe and Li, Jiwei and Hu, Runyi and Zhang, Tianwei and Wu, Fei and others},
journal={arXiv preprint arXiv:2308.10792},
year={2023}
}
계속 지켜봐 주시기 바랍니다! 더 많은 관련 작품이 업데이트됩니다!
IT(명령어 조정)는 지도 방식으로 (instruction, output)
쌍으로 구성된 데이터세트에서 LLM(대형 언어 모델)을 추가로 훈련하는 프로세스를 말하며, 이는 LLM의 다음 단어 예측 목표와 사용자 사이의 격차를 해소합니다. LLM이 인간의 지시를 따르도록 하는 것이 목표입니다. 명령 조정의 일반적인 파이프라인은 다음과 같습니다.
이 논문에서 우리는 IT의 일반적인 방법론, IT 데이터세트의 구축, IT 모델의 교육, 다양한 양식, 도메인 및 애플리케이션에 대한 적용을 포함한 문헌을 체계적으로 검토하고 IT에 영향을 미치는 측면에 대한 분석을 수행합니다. IT의 결과(예: 명령 출력 생성, 명령 데이터 집합의 크기 등) 또한 IT의 잠재적인 함정을 검토하고 그에 대한 비판을 하며 기존 전략의 결함을 지적하고 유익한 연구를 위한 몇 가지 방법을 제안합니다. 논문의 유형은 다음과 같습니다.
유형 | 데이터 세트 이름 | 종이 | 프로젝트 | 지침 수 | 랭의 # | 건설 | 오픈 소스 |
---|---|---|---|---|---|---|---|
인간이 만든 것 | 통합QA [1] | 종이 | 프로젝트 | 750K | 엔 | 인간이 만든 | 예 |
통합 SKG [2] | 종이 | 프로젝트 | 0.8M | 엔 | 인간이 만든 | 예 | |
자연스러운 지시 [3] | 종이 | 프로젝트 | 193K | 엔 | 인간이 만든 | 예 | |
초자연적 지시 [4] | 종이 | 프로젝트 | 5M | 55 랭 | 인간이 만든 | 예 | |
P3 [5] | 종이 | 프로젝트 | 12M | 엔 | 인간이 만든 | 예 | |
xP3 [6] | 종이 | 프로젝트 | 81M | 46 랭 | 인간이 만든 | 예 | |
플랜 2021 [7] | 종이 | 프로젝트 | 440만 | 엔 | 인간이 만든 | 예 | |
코이그 [8] | 종이 | 프로젝트 | - | - | - | 예 | |
GPT 지시하기 [9] | 종이 | - | 13K | 멀티 | 인간이 만든 | 아니요 | |
돌리 [10] | 종이 | 프로젝트 | 15K | 엔 | 인간이 만든 | 예 | |
리마 [11] | 종이 | 프로젝트 | 1K | 엔 | 인간이 만든 | 예 | |
채팅GPT [12] | 종이 | - | - | 멀티 | 인간이 만든 | 아니요 | |
오픈어시스턴트 [13] | 종이 | 프로젝트 | 161,443 | 멀티 | 인간이 만든 | 예 | |
합성 데이터(증류) | OIG [14] | - | 프로젝트 | 43M | 엔 | ChatGPT(기술 보고서 없음) | 예 |
부자연스러운 지시 [3] | 종이 | 프로젝트 | 240K | 엔 | InstructGPT 생성 | 예 | |
인스트럭트와일드 [15] | - | 프로젝트 | 104K | - | ChatGPT 생성 | 예 | |
Evol-Instruct / WizardLM [16] | 종이 | 프로젝트 | 52K | 엔 | ChatGPT 생성 | 예 | |
알파카 [17] | - | 프로젝트 | 52K | 엔 | InstructGPT 생성 | 예 | |
로지콧 [18] | 종이 | 프로젝트 | - | 엔 | GPT-4 생성 | 예 | |
GPT-4-LLM [19] | 종이 | 프로젝트 | 52K | En&Zh | GPT-4 생성 | 예 | |
비쿠냐 [20] | - | 프로젝트 | 70K | 엔 | 실제 사용자-ChatGPT 대화 | 아니요 | |
바이제 v1 [21] | 종이 | 프로젝트 | 111.5K | 엔 | ChatGPT 생성 | 예 | |
울트라챗 [22] | 종이 | 프로젝트 | 675K | En&Zh | GPT 3/4 생성 | 예 | |
과나코 [23] | - | 프로젝트 | 534,530 | 멀티 | GPT(알 수 없는 버전)-생성됨 | 예 | |
오르카 [24] | 종이 | 프로젝트 | 150만 | 엔 | GPT 3.5/4 생성 | 예 | |
공유GPT | - | 프로젝트 | 90K | 멀티 | 실제 사용자-ChatGPT 대화 | 예 | |
와일드챗 | - | 프로젝트 | 150K | 멀티 | 실제 사용자-ChatGPT 대화 | 예 | |
위자드코더 [25] | 종이 | - | - | 암호 | LLaMa 2 생성 | 아니요 | |
매지코더 [26] | 종이 | 프로젝트 | 75K/110K | 암호 | GPT-3.5 생성 | 예 | |
웨이브코더 [27] | 종이 | - | - | 암호 | GPT 4 생성 | 아니요 | |
파이-1 [28] | 종이 | 프로젝트 | 6B 토큰 | 코드 Q와 A | GPT-3.5 생성 | 예 | |
파이-1.5 [29] | 종이 | - | - | 코드 Q와 A | GPT-3.5 생성 | 아니요 | |
넥타 [30] | 종이 | 프로젝트 | ~183K | 엔 | GPT 4 생성 | 예 | |
합성 데이터(자기 개선) | 자기지도 [31] | 종이 | 프로젝트 | 52K | 엔 | InstructGPT 생성 | 예 |
명령어 역번역 [32] | 종이 | - | 502K | 엔 | LLaMa 생성 | 아니요 | |
스핀 [33] | 종이 | 프로젝트 | 49.8K | 엔 | 미풍이 생성한 | 예 |
모델명 | # 매개변수 | 종이 | 프로젝트 | 기본 모델 | 지시 열차 세트 | ||
---|---|---|---|---|---|---|---|
자체 구축 | 이름 | 크기 | |||||
GPT 지시하기 [9] | 176B | 종이 | - | GPT-3 [36] | 예 | - | - |
블룸즈 [34] | 176B | 종이 | 프로젝트 | 블룸 [37] | 아니요 | xP3 | - |
FLAN-T5 [35] | 11B | 종이 | 프로젝트 | T5 [38] | 아니요 | 플랜 2021 | - |
알파카 [17] | 7B | - | 프로젝트 | 라마 [39] | 예 | - | 52K |
비쿠나 [20] | 13B | - | 프로젝트 | 라마 [39] | 예 | - | 70K |
GPT-4-LLM [19] | 7B | 종이 | 프로젝트 | 라마 [39] | 예 | - | 52K |
클로드 [40] | - | 종이 | - | - | 예 | - | - |
마법사LM [16] | 7B | 종이 | 프로젝트 | 라마 [39] | 예 | 진화 지시 | 70K |
채팅GLM2 [41] | 6B | 종이 | 프로젝트 | GLM[41] | 예 | - | 1.1 토큰 |
리마 [11] | 65B | 종이 | 프로젝트 | 라마 [39] | 예 | 1K | |
OPT-IML [42] | 175B | 종이 | 프로젝트 | 선택 [43] | 아니요 | - | - |
돌리2.0 [44] | 12B | - | 프로젝트 | 피티아 [45] | 아니요 | - | 15K |
팔콘 인스트럭트 [46] | 40B | 종이 | 프로젝트 | 팔콘 [46] | 아니요 | - | - |
과나코 [23] | 7B | - | 프로젝트 | 라마 [39] | 예 | - | 586K |
미노타우로스 [47] | 15B | - | 프로젝트 | 스타코더 플러스 [48] | 아니요 | - | - |
노우스-헤르메스 [49] | 13B | - | 프로젝트 | 라마 [39] | 아니요 | - | 30만+ |
툴루 [50] | 6.7B | 종이 | 프로젝트 | 선택 [43] | 아니요 | 혼합 | - |
위란채팅 [51] | 13B | - | 프로젝트 | 라마 [39] | 예 | - | 250K |
모스 [52] | 16B | - | 프로젝트 | - | 예 | - | - |
아이로보로스 [53] | 13B | - | 프로젝트 | 라마 [39] | 예 | - | - |
울트라LM [22] | 13B | 종이 | 프로젝트 | 라마 [39] | 예 | - | - |
데이터 세트 이름 | 종이 | 프로젝트 | 양식 | # 작업 | |
---|---|---|---|---|---|
양식 쌍 | # 사례 | ||||
다중 교육 [54] | 종이 | 프로젝트 | 이미지-텍스트 | 작업당 5,000~5,000,000개 | 62 |
PMC-VQA [55] | 종이 | 프로젝트 | 이미지-텍스트 | 227K | 9 |
램 [56] | 종이 | 프로젝트 | 이미지-텍스트 | 186K | 9 |
포인트 클라우드-텍스트 | 10K | 3 | |||
비전플랜 [57] | 종이 | 프로젝트 | 다중 쌍 | ~100만 | 200+ |
알라바 [58] | 종이 | 프로젝트 | 이미지-텍스트 | 140만 | 2 |
공유GPT4V [59] | 종이 | 프로젝트 | 이미지-텍스트 | 120만 | 2 |
모델명 | # 매개변수 | 종이 | 프로젝트 | 양식 | 기본 모델 | 기차 세트 | ||
---|---|---|---|---|---|---|---|---|
모델명 | # 매개변수 | 자체 구축 | 크기 | |||||
인스트럭트픽스2픽스 [60] | 983M | 종이 | 프로젝트 | 이미지-텍스트 | 안정확산 [62] | 983M | 예 | 450K |
LLaVA [61] | 13B | 종이 | 프로젝트 | 이미지-텍스트 | 클립 [63] | 400M | 예 | 158K |
라마 [39] | 7B | |||||||
라마 [39] | 7B | |||||||
비디오-LLaMA [64] | - | 종이 | 프로젝트 | 이미지-텍스트-비디오-오디오 | 블립-2 [65] | - | 아니요 | - |
이미지바인드 [66] | - | |||||||
비쿠나[20] | 7B/13B | |||||||
지시BLIP [67] | 12B | 종이 | 프로젝트 | 이미지-텍스트-비디오 | 블립-2 [65] | - | 아니요 | - |
수달 [68] | - | 종이 | 프로젝트 | 이미지-텍스트-비디오 | 오픈플라밍고 [69] | 9B | 예 | 2.8M |
멀티모달-GPT [70] | - | 종이 | 프로젝트 | 이미지-텍스트-비디오 | 오픈플라밍고 [69] | 9B | 아니요 | - |
도메인 | 모델명 | # 매개변수 | 종이 | 프로젝트 | 기본 모델 | 열차 크기 |
---|---|---|---|---|---|---|
의료 | 방사선과-GPT [71] | 7B | 종이 | 프로젝트 | 알파카[17] | 122K |
챗닥터 [72] | 7B | 종이 | 프로젝트 | 라마 [39] | 122K | |
ChatGLM-Med [73] | 6B | - | 프로젝트 | 채팅GLM [41] | - | |
글쓰기 | 글쓰기-알파카 [74] | 7B | 종이 | - | 라마 [39] | - |
CoEdIT [75] | 11B | 종이 | 프로젝트 | FLAN-T5 [7] | 82K | |
코포엣 [76] | 11B | 종이 | 프로젝트 | T5[38] | - | |
코드 생성 | 위자드코더 [25] | 15B | 종이 | 프로젝트 | 스타코더 [48] | 78K |
감성 분석 | IT-MTL [77] | 220M | 종이 | 프로젝트 | T5[38] | - |
산수 | 염소 [78] | 7B | 종이 | 프로젝트 | 라마 [39] | 100만 |
정보 추출 | InstructUIE [79] | 11B | 종이 | 프로젝트 | FLAN-T5 [7] | 100만 |
이름 | 종이 | 프로젝트 |
---|---|---|
로라 [80] | 종이 | 프로젝트 |
힌트 [81] | 종이 | 프로젝트 |
클로라 [82] | 종이 | 프로젝트 |
로모 [83] | 종이 | 프로젝트 |
델타 튜닝 [84] | 종이 | 프로젝트 |
비공개 평가 | 종이 | 프로젝트 |
---|---|---|
대규모 다중 작업 언어 이해(MMLU) [85] | 종이 | 프로젝트 |
수학 [86] | 종이 | 프로젝트 |
GSM8K [87] | 종이 | 프로젝트 |
빅벤치하드(BBH) [88] | 종이 | 프로젝트 |
휴먼평가 [89] | 종이 | 프로젝트 |
IFE평가 [90] | 종이 | 프로젝트 |
GPT 기반 평가 | 종이 | 프로젝트 |
---|---|---|
알파카에발 [91] | - | 프로젝트 |
길이 제어 AlpacaEval [92] | 종이 | 프로젝트 |
MT-벤치 [93] | 종이 | 프로젝트 |
와일드벤치 [94] | 종이 | 프로젝트 |
[1] Khashabi, Daniel, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark 및 Hannaneh Hajishirzi. Unifiedqa: 단일 qa 시스템으로 형식 경계를 넘습니다 . arXiv 사전 인쇄 arXiv:2005.00700 (2020). 종이
[2] Tianbao Xie, Chen Henry Wu, Peng Shi, Ruiqi Zhong, Torsten Scholak, Michihiro Yasunaga, Chien-Sheng Wu, Ming Zhong, Pengcheng Yin, Sida I. Wang, Victor Zhong, Bailin Wang, Chengzu Li, Connor Boyle, Ansong Ni, Ziyu Yao, Dragomir R. Radev, Caiming Xiong, Lingpeng Kong, Rui Zhang, 노아 A. 스미스, 루크 제틀모이어, 타오 유. Unifiedskg: 텍스트-텍스트 언어 모델을 기반으로 구조화된 지식을 통합하고 멀티태스킹합니다 . 자연어 처리의 경험적 방법에 관한 컨퍼런스, 2022. 논문
[3] Mishra, Swaroop 및 Khashabi, Daniel 및 Baral, Chitta 및 Hajishirzi, Hannaneh. 부자연스러운 지시: 인간의 노동력이 (거의) 전혀 없이 언어 모델을 조정합니다 . arXiv 사전 인쇄 arXiv:2212.09689, 2022. 논문
[3] 또는 Honovich, Thomas Scialom, Omer Levy 및 Timo Schick. 부자연스러운 지시: 인간의 노동력이 (거의) 전혀 없이 언어 모델을 조정합니다 . arXiv 사전 인쇄 arXiv:2212.09689, 2022. 논문
[4] Yizhong Wang, Swaroop Mishra, Pegah Alipoormolabashi, Yeganeh Kordi, Amirreza Mirzaei, Anjana Arunkumar, Arjun Ashok, Arut Selvan Dhanasekaran, Atharva Naik, David Stap 등. 초자연적 지침: 1600개 이상의 작업에 대한 선언적 지침을 통한 일반화 . EMNLP, 2022. 논문
[5] Victor Sanh, Albert Webson, Colin Raffel, Stephen H Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja 등. 멀티태스크 프롬프트 교육을 통해 제로샷 작업 일반화가 가능합니다 . arXiv 사전 인쇄 arXiv:2110.08207, 2021. 논문
[6] Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, Teven Le Scao, M Saiful Bari, Sheng Shen, Zheng-Xin Yong, Hailey Schoelkopf 등. 다중 작업 미세 조정을 통한 교차 언어 일반화 . arXiv 사전 인쇄 arXiv:2211.01786, 2022. 논문
[7] Shayne Longpre, Le Hou, Tu Vu, Albert Webson, 정형원, Yi Tay, Denny Zhou, Quoc V Le, Barret Zoph, Jason Wei 등. 플랜 컬렉션: 효과적인 명령어 튜닝을 위한 데이터 및 방법 설계 . arXiv 사전 인쇄 arXiv:2301.13688, 2023. 논문
[8] Ge Zhang, Yemin Shi, Ruibo Liu, Ruibin Yuan, Yizhi Li, Siwei Dong, Yu Shu, Zhaoqun Li, Zekun Wang, Chenghua Lin, Wen-Fen Huang 및 Jie Fu. 중국어 공개 교육 일반: 예비 릴리스 . ArXiv, abs/2304.07987, 2023. 논문
[9] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray 등. 인간의 피드백을 통해 지침을 따르도록 언어 모델을 훈련합니다 . 신경 정보 처리 시스템의 발전, 35:27730–27744, 2022. 논문
[10] Mike Conover, Matt Hayes, Ankit Mathur, Xiangrui Meng, Jianwei Xie, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia 등 무료 돌리(Free Dolly): 세계 최초의 진정한 개방형 교육 조정 LLM(2023)을 소개합니다 . Paper
[11] Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, L. Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer 및 Omer Levy. 리마: 정렬에는 적을수록 좋습니다 . ArXiv, abs/2305.11206, 2023. 논문
[12] 오픈AI. chatgpt를 소개합니다 . 블로그 게시물 openai.com/blog/chatgpt, 2022. 논문
[13] Andreas Köpf, Yannic Kilcher, Dimitri von Rütte, Sotiris Anagnostidis, Zhi-Rui Tam, Keith Stevens, Abdullah Barhoum, Nguyen Minh Duc, Oliver Stanley, Richárd Nagyfi 등 개방형 대화 지원 – 대규모 언어 모델 정렬 민주화 . arXiv 사전 인쇄 arXiv:2304.07327, 2023. 논문
[14] LAION.ai. Oig: 공개 교육 일반 데이터 세트 , 2023.
[15] Fuzhao Xue, Kabir Jain, Mahir Hitesh Shah, Zangwei Zheng 및 Yang You. 실제 지침: 사용자 기반 지침 데이터세트 . github.com/XueFuzhao/InstructionWild,2023
.
[16] Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao 및 Daxin Jiang. Wizardlm: 복잡한 지침을 따르도록 대규모 언어 모델 지원 , 2023. 논문
[17] Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang 및 Tatsunori B Hashimoto. 알파카(Alpaca): 강력하고 복제 가능한 지침을 따르는 모델입니다 . 기초 모델 연구를 위한 스탠포드 센터. https://crfm.stanford.edu/2023/03/13/alpaca.html
, 3(6):7, 2023.
[18] Hanmeng Liu, Zhiyang Teng, Leyang Cui, Chaoli Zhang, Qiji Zhou 및 Yue Zhang. Logicot: gpt-4를 사용한 논리적 사고 사슬 명령 조정 데이터 수집 . ArXiv, abs/2305.12147, 2023. 논문
[19] Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley 및 Jianfeng Gao. gpt-4를 사용한 명령어 튜닝 . arXiv 사전 인쇄 arXiv:2304.03277, 2023. 논문
[20] Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E Gonzalez 등. Vicuna: 90% chatgpt 품질로 gpt-4를 감동시키는 오픈 소스 챗봇입니다 . https://vicuna.lmsys.org
(2023년 4월 14일 접속), 2023년을 참조하세요.
[21] Canwen Xu, Daya Guo, Nan Duan, Julian McAuley. Baize: 셀프 채팅 데이터를 매개변수 효율적으로 조정하는 오픈 소스 채팅 모델 . 종이
[22] Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun 및 Bowen Zhou. 고품질 교육 대화를 확장하여 채팅 언어 모델을 향상합니다 . arXiv 사전 인쇄 arXiv:2305.14233, 2023. 논문
[23] 요세푸스청. Guanaco: 자연어 적응형 상황 인식 전언어 출력을 위한 생성적 범용 보조자 , 2021.
[24] Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal, Hamid Palangi 및 Ahmed Awadallah. 2023. Orca: gpt-4의 복잡한 설명 추적을 통한 점진적 학습. arXiv 사전 인쇄 arXiv:2306.02707. 종이
[25] Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin 및 Daxin Jiang. 2023. Wizardcoder: evol-instruct를 사용하여 코드 대규모 언어 모델을 강화합니다. 종이
[26] Yuxiang Wei, Zhe Wang, Jiawei Liu, Yifeng Ding 및 Lingming Zhang. 2023b. Magicoder: 소스 코드만 있으면 됩니다. arXiv 사전 인쇄 arXiv:2312.02120. 종이
[27] Zhaojian Yu, Xin Zhang, Ning Shang, Yangyu Huang, Can Xu, Yishujie Zhao, Wenxiang Hu 및 Qiufeng Yin. 2023. Wavecoder: 세련된 데이터 생성을 통해 광범위하고 다용도로 강화된 명령어 튜닝. arXiv 사전 인쇄 arXiv:2312.14187. 종이
[28] Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi 등. 2023. 교과서만 있으면 됩니다. arXiv 사전 인쇄 arXiv:2306.11644. 종이
[29] Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar 및 Yin Tat Lee. 2023h. 교과서만 있으면 됩니다. ii: phi-1.5 기술 보고서. arXiv 사전 인쇄 arXiv:2309.05463. 종이
[30] Banghua Zhu, Evan Frick, Tianhao Wu, Hanlin Zhu 및 Jiantao Jiao. 2023a. Starling-7b: rlaif를 사용하여 llm의 유용성 및 무해성을 개선합니다. 종이
[31] Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A Smith, Daniel Khashabi 및 Hannaneh Hajishirzi. 자가 지시: 언어 모델을 자가 생성 지시 사항과 일치시킵니다 . arXiv 사전 인쇄 arXiv:2212.10560, 2022. 논문
[32] Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Luke Zettlemoyer, Omer Levy, Jason Weston 및 Mike Lewis. 2023g. 명령어 역번역을 통한 자체 정렬. arXiv 사전 인쇄 arXiv:2308.06259. 종이
[33] Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji 및 Quanquan Gu. 2024. 자체 플레이 미세 조정을 통해 약한 언어 모델을 강력한 언어 모델로 변환합니다. arXiv 사전 인쇄 arXiv:2401.01335. 종이
[34] Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, Teven Le Scao, M Saiful Bari, Sheng Shen, Zheng-Xin Yong, Hailey Schoelkopf 등. 2022. 다중 작업 미세 조정을 통한 교차 언어 일반화. arXiv 사전 인쇄 arXiv:2211.01786. 종이
[35] 정형원, Le Hou, S. Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen , Aakanksha Chowdhery, Dasha Valter, Sharan Narang, Gaurav Mishra, Adams Wei Yu, Vincent Zhao, Yanping Huang, Andrew M. Dai, Hongkun Yu, Slav Petrov, Ed Huai hsin Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le 및 Jason Wei. 명령어 미세 조정 언어 모델 확장 . ArXiv, abs/2210.11416, 2022. 논문
[36] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert- Voss, Gretchen Krueger, TJ Henighan, Rewon 어린이, Aditya Ramesh, Daniel M. Ziegler, Jeff Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever 및 Dario Amodei. 언어 모델은 소수의 학습자입니다 . ArXiv, abs/2005.14165, 2020. 논문
[37] Scao, Teven Le, Angela Fan, Christopher Akiki, Ellie Pavlick, Suzana Ilić, Daniel Hesslow, Roman Castagné 외. Bloom: 176b 매개변수 개방형 액세스 다국어 언어 모델 . arXiv 사전 인쇄 arXiv:2211.05100 (2022). 종이
[38] Colin Raffel, Noam M. Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li 및 Peter J. Liu. 통합된 텍스트-텍스트 변환기를 사용하여 전이 학습의 한계를 탐색합니다 . ArXiv, abs/1910.10683, 2019. 논문
[39] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aur'elien Rodriguez, Armand Joulin, Edouard Grave 및 Guillaume Lample. Llama: 개방적이고 효율적인 기초 언어 모델 . ArXiv, abs/2302.13971, 2023. 논문
[40] Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon 등. 헌법적 AI: AI 피드백의 무해성 . arXiv 사전 인쇄 arXiv:2212.08073, 2022. 논문
[41] Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang 및 Jie Tang. Glm: 자동 회귀 공백 채우기를 사용한 일반 언어 모델 사전 학습 . 전산 언어학 협회 제60차 연례 회의 진행 중(1권: 긴 논문), 페이지 320-335, 2022. 논문
[42] Srinivas Iyer, Xiaojuan Lin, Ramakanth Pasunuru, Todor Mihaylov, Daniel Simig, Ping Yu, Kurt Shuster, Tianlu Wang, Qing Liu, Punit Singh Koura, Xian Li, Brian O'Horo, Gabriel Pereyra, Jeff Wang, Christopher Dewan , Asli Celikyilmaz, Luke Zettlemoyer 및 Veselin Stoyanov. Opti-iml: 일반화의 렌즈를 통한 언어 모델 교육 메타 학습 확장 . ArXiv, abs/2212.12017, 2022. 논문
[43] Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona T. Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig , Punit Singh Koura, Anjali Sridhar, Tianlu Wang 및 Luke Zettlemoyer. 2022a. 선택: 사전 훈련된 변환기 언어 모델을 엽니다. ArXiv, ABS/2205.01068. 종이
[44] Mike Conover, Matt Hayes, Ankit Mathur, Xiangrui Meng, Jianwei Xie, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia 등 무료 돌리: 2023년 세계 최초의 진정한 개방형 교육 조정 LLM을 소개합니다 .
[45] Stella Rose Biderman, Hailey Schoelkopf, Quentin G. Anthony, Herbie Bradley, Kyle O'Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, USVSN Sai Prashanth, Edward Raff, Aviya Skowron, Lintang Sutawika 및 Oskar van der 월. Pythia: 교육 및 확장 전반에 걸쳐 대규모 언어 모델을 분석하기 위한 제품군입니다 . ArXiv, abs/2304.01373, 2023. 논문
[46] Ebtesam Almazrouei, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, Merouane Debbah, Etienne Goffinet, Daniel Heslow, Julien Launay, Quentin Malartic, Badreddine Noune, Baptiste Pannier 및 Guilherme Penedo. Falcon-40B: 최첨단 성능을 갖춘 개방형 대형 언어 모델입니다 . 2023. 종이
[47] 오픈액세스 AI 콜렉티브 . 소프트웨어: Huggingface.co/openaccess-ai-collective/minotaur-15b, 2023.
[48] Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov, Chenghao Mou, Marc Marone, Christopher Akiki, Jia Li, Jenny Chim 등. Starcoder: 소스가 함께하길 바랍니다 ! arXiv 사전 인쇄 arXiv:2305.06161, 2023. 논문
[49] 누스리서치 . 소프트웨어: Huggingface.co/NousResearch/Nous-Hermes-13b, 2023.
[50] Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy 및 Hanna Hajishirzi. 낙타는 얼마나 멀리 갈 수 있나요? 공개 리소스에 대한 명령 조정 상태를 탐색합니다 . ArXiv, abs/2306.04751, 2023. 논문
[51] YuLan-채팅-팀. Yulan-chat: 오픈 소스 이중 언어 챗봇 . github.com/RUC-GSAI/YuLan-Chat, 2023.
[52] Sun Tianxiang과 Qiu Xipeng. 이끼 . 블로그 게시물 txsun1997.github.io/blogs/moss.html, 2023.
[53] 존 더빈. 아이로보로스 . 소프트웨어: github.com/jondurbin/airoboros, 2023.
[54] Zhiyang Xu, Ying Shen 및 Lifu Huang. 다중 지시: 지시 조정을 통해 다중 모드 제로샷 학습을 개선합니다 . ArXiv, abs/2212.10773, 2022. 논문
[55] Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao, Weixiong Lin, Ya Zhang, Yanfeng Wang 및 Weidi Xie. Pmc-vqa: 의료용 시각적 질문 응답을 위한 시각적 지침 조정 . ArXiv, ABS/2305.10415. 2023. 종이
[56] Zhenfei Yin, Jiong Wang, Jianjian Cao, Zhelun Shi, Dingning Liu, Mukai Li, Lu Sheng, Lei Bai, Xiaoshui Huang, Zhiyong Wang, Wanli Ouyang 및 Jing Shao. Lamm: 언어 지원 다중 모드 명령 조정 데이터 세트, 프레임워크 및 벤치마크 . ArXiv, abs/2306.06687, 2023. 논문
[57] Zhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang 및 Lifu Huang. 2024. Vision-flan: 시각적 지침 조정에서 사람이 라벨을 붙인 작업을 확장합니다. arXiv 사전 인쇄 arXiv:2402.11690. 종이
[58] Guiming Hardy Chen, Shunian Chen, Ruifei Zhang, Junying Chen, Xiangbo Wu, Zhiyi Zhang, Zhihong Chen, Jianquan Li, Xiang Wan 및 Benyou Wang. 2024a. Allava: 라이트 비전 언어 모델을 위해 gpt4v 합성 데이터를 활용합니다. arXiv 사전 인쇄 arXiv:2402.11684. 종이
[59] Lin Chen, Jisong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao 및 Dahua Lin. 2023a. Sharegpt4v: 더 나은 캡션으로 대규모 다중 모드 모델을 개선합니다. arXiv 사전 인쇄 arXiv:2311.12793. 종이
[60] 팀 브룩스, 알렉산더 홀린스키, 알렉세이 A. 에프로스. Instructpix2pix: 이미지 편집 지침을 따르는 방법을 학습합니다 . ArXiv, abs/2211.09800, 2022. 논문
[61] Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee. 시각적 지시 조정 . ArXiv, abs/2304.08485, 2023. 논문
[62] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser 및 Björn Ommer. 잠재 확산 모델을 사용한 고해상도 이미지 합성 . 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 진행, 페이지 10684–10695, 2022. 논문
[63] Alec Radford, 김종욱, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger 및 Ilya Sutskever. 자연어 감독을 통해 전달 가능한 시각적 모델을 학습합니다 . 기계 학습에 관한 국제 컨퍼런스, 2021. 논문
[64] Hang Zhang, Xin Li 및 Lidong Bing. 비디오 라마(Video-llama): 비디오 이해를 위한 교육 조정 시청각 언어 모델입니다 . arXiv 사전 인쇄 arXiv:2306.02858, 2023. 논문
[65] Junnan Li, Dongxu Li, Silvio Savarese 및 Steven Hoi. BLIP-2: 고정 이미지 인코더 및 대규모 언어 모델을 사용한 부트스트랩 언어 이미지 사전 훈련 . ICML에서, 2023년. 논문
[66] Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin 및 Ishan Misra. Imagebind: 모든 항목을 바인딩하는 하나의 삽입 공간입니다 . CVPR, 2023. 논문
[67] Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung 및 Steven Hoi. Instructblip: 명령어 조정을 통한 범용 비전 언어 모델을 지향합니다 . ArXiv, abs/2305.06500, 2023. 논문
[68] Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Jingkang Yang 및 Ziwei Liu. Otter: 상황에 맞는 명령 조정 기능을 갖춘 다중 모드 모델입니다 . ArXiv, abs/2305.03726, 2023. 논문
[69] Anas Awadalla, Irena Gao, Joshua Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Jenia Jitsev 등. 오픈플라밍고 , 2023.
[70] Tao Gong, Chengqi Lyu, Shilong Zhang, Yudong Wang, Miao Zheng, Qianmengke Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo 및 Kai Chen. Multimodal-gpt: 인간과의 대화를 위한 비전 및 언어 모델입니다 . ArXiv, abs/2305.04790, 2023. 논문
[71] Zheng Liu, Aoxiao Zhong, Yiwei Li, Longtao Yang, Chao Ju, Zihao Wu, Chong Ma, Peng Shu, Cheng Chen, Sekeun Kim, Haixing Dai, Lin Zhao, Dajiang Zhu, Jun Liu, Wei Liu, Dinggang Shen , Xiang Li, Quanzheng Li 및 Tianming Liu. Radiology-gpt: 방사선학을 위한 대규모 언어 모델입니다 . 2023. 종이
[72] Yunxiang Li, Zihan Li, Kai Zhang, Ruilong Dan 및 You Zhang. Chatdoctor: 의료 도메인 지식을 활용하여 라마 모델을 미세 조정한 의료 채팅 모델입니다 . ArXiv, abs/2303.14070, 2023. 논문
[73] Sendong Zhao Bing Qin Ting Liu Haochun Wang, Chi Liu. Chatglm-med. github.com/SCIR-HI/Med-ChatGLM , 2023.
[74] yue Zhang, Leyang Cui, Deng Cai, Xinting Huang, Tao Fang 및 Wei Bi. 2023d. 특정 시나리오에 대한 라마의 다중 작업 지시 조정: 쓰기 지원에 대한 예비 연구. ArXiv, ABS/2305.13225. 종이
[75] Vipul Raheja, Dhruv Kumar, Ryan Koo, 강동엽. 2023. Coedit: 작업별 명령 튜닝을 통한 텍스트 편집. ArXiv, ABS/2305.09857. 종이
[76] Tuhin Chakrabarty, Vishakh Padmakumar 및 Hengxing He. 2022. 공동 시 쓰기를 위한 수단으로 시 교육 조율을 작성하도록 도와주세요. ArXiv, ABS/2210.13669. 종이
[77] Siddharth Varia, Shuai Wang, Kishaloy Halder, Robert Vacareanu, Miguel Ballesteros, Yassine Benajiba, Neha Ann John, Rishita Anubhai, Smaranda Muresan 및 Dan Roth. 2022. Few-Shot 측면 기반 감정 분석을 위한 명령어 튜닝. ArXiv, ABS/2210.06629. 종이
[78] Tiedong Liu와 Bryan Kian Hsiang. 염소: 미세 조정된 라마는 산술 작업에서 gpt-4보다 성능이 뛰어납니다 . arXiv 사전 인쇄 arXiv:2305.14201, 2023. 논문
[79] Xiao Wang, Wei Zhou, Can Zu, Han Xia, Tianze Chen, Yuan Zhang, Rui Zheng, Junjie Ye, Qi Zhang, Tao Gui, Jihua Kang, J. Yang, Siyuan Li 및 Chunsai Du. 지침: 통합 정보 추출을 위한 다중 작업 지침 조정 . ArXiv, abs/2304.08085, 2023. 논문
[80] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang 및 Weizhu Chen. 2021. Lora: 대규모 언어 모델의 낮은 순위 적응 . arXiv 사전 인쇄 arXiv:2106.09685. 종이
[81] Hamish Ivison, Akshita Bhagia, Yizhong Wang, Hannaneh Hajishirzi 및 Matthew E. Peters. 2022. 힌트: 효율적인 제로샷 일반화를 위한 하이퍼네트워크 명령 조정 . ArXiv, ABS/2212.10315. 종이
[82] Tim Dettmers, Artidoro Pagnoni, Ari Holtzman 및 Luke Zettlemoyer. 2023. Qlora: 양자화된 LLM의 효율적인 미세 조정 . arXiv 사전 인쇄 arXiv:2305.14314. 종이
[83] Kai Lv, Yuqing Yang, Tengxiao Liu, Qi jie Gao, Qipeng Guo 및 Xipeng Qiu. 2023. 리소스가 제한된 대규모 언어 모델을 위한 전체 매개변수 미세 조정 . 종이
[84] Weize Chen, Jing Yi, Weilin Zhao, Xiaozhi Wang, Zhiyuan Liu, Haitao Zheng, Jianfei Chen, Y. Liu, Jie Tang, Juanzi Li 및 Maosong Sun. 2023b. 대규모 사전 훈련된 언어 모델의 매개변수 효율적인 미세 조정 . 자연 기계 지능, 5:220-235. 종이
[85] Hendrycks, Dan 및 Burns, Collin 및 Basart, Steven 및 Zou, Andy 및 Mazeika, Mantas 및 Song, Dawn 및 Steinhardt, Jacob. 2020a. 대규모 멀티태스킹 언어 이해도 측정 . arXiv:2009.03300. 종이
[86] Hendrycks, Dan 및 Burns, Collin 및 Kadavath, Saurav 및 Arora, Akul 및 Basart, Steven 및 Tang, Eric 및 Song, Dawn 및 Steinhardt, Jacob. 2021. 수학 데이터 세트를 사용하여 수학적 문제 해결을 측정합니다 . arXiv 사전 인쇄 arXiv:2103.03874. 종이
[87] Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, 전희우, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, John Schulman. 2021. 수학 단어 문제를 해결하기 위한 검증자 교육 . 종이
[88] Suzgun, Mirac 및 Scales, Nathan 및 Sch{"a}rli, Nathanael 및 Gehrmann, Sebastian 및 Tay, Yi 및 Chung, 형원 및 Chowdhery, Aakanksha 및 Le, Quoc V 및 Chi, Ed H 및 Zhou, Denny 및 기타 2022a. 도전적인 대규모 작업과 사고의 사슬이 이를 해결할 수 있는지 여부 . arXiv:2210.09261 논문
[89] Chen, Mark 및 Tworek, Jerry 및 Jun, Heewoo 및 Yuan, Qiming 및 Pinto, Henrique Ponde De Oliveira 및 Kaplan, Jared 및 Edwards, Harri 및 Burda, Yuri 및 Joseph, Nicholas 및 Brockman, Greg 및 기타. 2021a. 코드에 대해 훈련된 대규모 언어 모델을 평가합니다 . arXiv 사전 인쇄 arXiv:2107.03374 용지
[90] Zhou, Jeffrey 및 Lu, Tianjian 및 Mishra, Swaroop 및 Brahma, Siddhartha 및 Basu, Sujoy 및 Luan, Yi 및 Zhou, Denny 및 Hou, Le. 2023b. 대규모 언어 모델에 대한 지시에 따른 평가 . arXiv 사전 인쇄 arXiv:2311.07911 용지
[91] Xuechen Li, Tianyi Zhang, Yann Dubois, Rohan Taori, Ishaan Gulrajani, Carlos Guestrin, Percy Liang, Tatsunori B. Hashimoto. 2023h. AlpacaEval: 지시 따르기 모델의 자동 평가기 . GitHub 저장소 GitHub
[92] Dubois, Yann 및 Galambosi, Bal{'a}zs and Liang, Percy 및 Hashimoto, Tatsunori B. 2024. 길이 제어 AlpacaEval: Debias 자동 평가기를 위한 간단한 방법 . arXiv 사전 인쇄 arXiv:2404.04475 용지
[93] Zheng, Lianmin 및 Chiang, Wei-Lin 및 Sheng, Ying 및 Zhuang, Siyuan 및 Wu, Zhanghao 및 Zhuang, Yonghao 및 Lin, Zi 및 Li, Zhuohan 및 Li, Dacheng 및 Xing, Eric 및 기타. 2023. mt-bench 및 chatbot arena를 사용하여 LLM-As-A-Judge를 심사합니다 . 신경 정보 처리 시스템의 발전 논문
[94] Lin, Bill Yuchen 및 Deng, Yuntian 및 Chandu, Khathi 및 Brahman, Faeze 및 Ravichander, Abhilasha 및 Pyatkin, Valentina 및 Dziri, Nouha 및 Bras, Ronan Le 및 Choi, Yejin. 2024. WILDBENCH: 실제 사용자의 어려운 작업으로 LLM 벤치마킹 . arXiv 사전 인쇄 arXiv:2406.04770 용지
[95] Po-Nien Kung 및 Nanyun Peng. 2023. 모델은 실제로 지침을 따르는 법을 학습합니까? 교수 튜닝에 관한 실증적 연구 . ACL. 종이
[96] Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, L. Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer 및 Omer Levy. 2023a. LIMA: 정렬에는 적은 것이 더 좋습니다 . NeurIPS 2023. 논문
[97] Lin, Bill Yuchen 및 Ravichander, Abhilasha 및 Lu, Ximing 및 Dziri, Nouha 및 Sclar, Melanie 및 Chandu, Khathi 및 Bhagavatula, Chandra 및 Choi, Yejin. 2023a. 기본 llms의 잠금 해제 주문: 상황 내 학습을 통한 정렬 재고 . ICLR 2024. 논문
질문이나 제안 사항이 있는 경우 언제든지 이슈를 생성하거나 [email protected]
으로 이메일을 보내주세요.