Download Instruction Tuning Survey - Download do código-fonte Instruction Tuning Survey

Instruction Tuning Survey

Outro código-fonte

1.0.0

Baixar

Ajuste de instrução para modelos de linguagem grande: uma pesquisa

Este repositório contém recursos referenciados no artigo Tuning Tuning for Large Language Models: A Survey.

Se você achar este repositório útil, cite o seguinte:

@article{zhang2023instruction,
  title={Instruction Tuning for Large Language Models: A Survey},
  author={Zhang, Shengyu and Dong, Linfeng and Li, Xiaoya and Zhang, Sen and Sun, Xiaofei and Wang, Shuhe and Li, Jiwei and Hu, Runyi and Zhang, Tianwei and Wu, Fei and others},
  journal={arXiv preprint arXiv:2308.10792},
  year={2023}
}

? Notícias

Fique atento! Mais trabalhos relacionados serão atualizados!

[16 out, 2024] Atualizamos trabalhos (artigos e projetos) relacionados a benchmarks de avaliação e alinhamento superficial.
[12 mar, 2024] Atualizamos trabalhos (artigos e projetos) relacionados a grandes modelos multimodais.
[11 mar, 2024] Atualizamos trabalhos (artigos e projetos) relacionados à geração de dados sintéticos e geração de imagem-texto.
[07 de setembro de 2023] O repositório foi criado.
[21 de agosto de 2023] Lançamos a primeira versão do artigo.

Índice

Ajuste de instrução para modelos de linguagem grande: uma pesquisa
- ? Notícias
- Índice
- Visão geral
- Ajuste de instrução
  - Conjuntos de dados
  - Modelos
- Ajuste de instrução multimodal
  - Conjuntos de dados
  - Modelos
- Ajuste de instrução específico de domínio
- Técnicas de ajuste eficientes
- Avaliações
- Referências
  - Ajuste de instrução (conjuntos de dados)
  - Ajuste de instrução (modelos)
  - Ajuste de instrução multimodal (conjuntos de dados)
  - Ajuste de instrução multimodal (modelos)
  - Ajuste de instrução específico de domínio
  - Técnicas de ajuste eficientes
  - Avaliações
  - Alinhamento Superficial
- Contato

Visão geral

O ajuste de instrução (TI) refere-se ao processo de treinamento adicional de grandes modelos de linguagem (LLMs) em um conjunto de dados que consiste em pares (instruction, output) de forma supervisionada, o que preenche a lacuna entre o objetivo de previsão da próxima palavra dos LLMs e os usuários 'objetivo de fazer com que os LLMs sigam as instruções humanas. O pipeline geral de ajuste de instruções é mostrado a seguir: projeto

No artigo, fazemos uma revisão sistemática da literatura, incluindo a metodologia geral de TI, a construção de conjuntos de dados de TI, o treinamento de modelos de TI e aplicações para diferentes modalidades, domínios e aplicações, juntamente com análises sobre aspectos que influenciam o resultado da TI (por exemplo, geração de saídas de instrução, tamanho do conjunto de dados de instrução, etc.). Também analisamos as potenciais armadilhas da TI, juntamente com as críticas contra ela, juntamente com os esforços que apontam as deficiências atuais das estratégias existentes e sugerimos alguns caminhos para pesquisas frutíferas. A tipologia do artigo é a seguinte:

Ajuste de instrução

Conjuntos de dados

Tipo	Nome do conjunto de dados	Papel	Projeto	Nº de instruções	# de Lang	Construção	Código aberto
Feito pelo Homem	Controle de qualidade unificado [1]	papel	projeto	750 mil	Pt	feito pelo homem	Sim
	SKG unificado [2]	papel	projeto	0,8 milhão	Pt	feito pelo homem	Sim
	Instruções Naturais [3]	papel	projeto	193K	Pt	feito pelo homem	Sim
	Instruções Sobrenaturais [4]	papel	projeto	5 milhões	55 Lang	feito pelo homem	Sim
	P3 [5]	papel	projeto	12 milhões	Pt	feito pelo homem	Sim
	xP3 [6]	papel	projeto	81 milhões	46 Lang	feito pelo homem	Sim
	Flan 2021 [7]	papel	projeto	4,4 milhões	Pt	feito pelo homem	Sim
	COIG [8]	papel	projeto	-	-	-	Sim
	InstruirGPT [9]	papel	-	13K	Múltiplo	feito pelo homem	Não
	Boneca [10]	papel	projeto	15 mil	Pt	feito pelo homem	Sim
	LIMA [11]	papel	projeto	1K	Pt	feito pelo homem	Sim
	Bate-papoGPT [12]	papel	-	-	Múltiplo	feito pelo homem	Não
	OpenAssistant [13]	papel	projeto	161.443	Múltiplo	feito pelo homem	Sim
Dados Sintéticos (Destilação)	EIG [14]	-	projeto	43 milhões	Pt	ChatGPT (sem relatórios técnicos)	Sim
	Instruções Não Naturais [3]	papel	projeto	240 mil	Pt	Gerado por InstructGPT	Sim
	Instruir Selvagem [15]	-	projeto	104K	-	Gerado por ChatGPT	Sim
	Evol-Instruct / WizardLM [16]	papel	projeto	52K	Pt	Gerado por ChatGPT	Sim
	Alpaca [17]	-	projeto	52K	Pt	Gerado por InstructGPT	Sim
	LogicoT [18]	papel	projeto	-	Pt	Gerado por GPT-4	Sim
	GPT-4-LLM [19]	papel	projeto	52K	En&Zh	Gerado por GPT-4	Sim
	Vicunha [20]	-	projeto	70 mil	Pt	Conversas reais do usuário-ChatGPT	Não
	Baize v1 [21]	papel	projeto	111,5 mil	Pt	Gerado por ChatGPT	Sim
	UltraChat [22]	papel	projeto	675 mil	En&Zh	GPT 3/4 gerado	Sim
	Guanaco [23]	-	projeto	534.530	Múltiplo	GPT (versão desconhecida) - gerado	Sim
	Orca [24]	papel	projeto	1,5 milhões	Pt	Gerado por GPT 3.5/4	Sim
	CompartilharGPT	-	projeto	90 mil	Múltiplo	Conversas reais do usuário-ChatGPT	Sim
	Bate-papo selvagem	-	projeto	150 mil	Múltiplo	Conversas reais do usuário-ChatGPT	Sim
	WizardCoder [25]	papel	-	-	Código	LLaMa 2-Gerado	Não
	Código Mágico [26]	papel	projeto	75K/110K	Código	Gerado por GPT-3.5	Sim
	WaveCoder [27]	papel	-	-	Código	GPT 4 gerado	Não
	Phi-1 [28]	papel	projeto	Fichas 6B	Código Q e A	Gerado por GPT-3.5	Sim
	Fi-1.5 [29]	papel	-	-	Código Q e A	Gerado por GPT-3.5	Não
	Néctar [30]	papel	projeto	~183K	Pt	GPT 4 gerado	Sim
Dados Sintéticos (Autoaperfeiçoamento)	Auto-instruir [31]	papel	projeto	52K	Pt	Gerado por InstructGPT	Sim
	Tradução reversa da instrução [32]	papel	-	502K	Pt	Gerado por LLaMa	Não
	GIRAR [33]	papel	projeto	49,8K	Pt	Gerado por Zephyr	Sim

Modelos

Nome do modelo	# Parâmetros	Papel	Projeto	Modelo Básico	Conjunto de trem de instruções
					Autoconstrução	Nome	Tamanho
InstruirGPT [9]	176B	papel	-	GPT-3 [36]	Sim	-	-
FLORZ [34]	176B	papel	projeto	FLOR [37]	Não	xP3	-
FLAN-T5 [35]	11B	papel	projeto	T5 [38]	Não	FLAN 2021	-
Alpaca [17]	7B	-	projeto	Lhama [39]	Sim	-	52K
Vicunha [20]	13B	-	projeto	Lhama [39]	Sim	-	70 mil
GPT-4-LLM [19]	7B	papel	projeto	Lhama [39]	Sim	-	52K
Cláudio [40]	-	papel	-	-	Sim	-	-
WizardLM [16]	7B	papel	projeto	Lhama [39]	Sim	Evol-Instruir	70 mil
Bate-papoGLM2 [41]	6B	papel	projeto	GLM[41]	Sim	-	1.1 Tokens
LIMA [11]	65B	papel	projeto	Lhama [39]	Sim	1K
OPT-IML [42]	175B	papel	projeto	OPTAR [43]	Não	-	-
Boneca 2.0 [44]	12B	-	projeto	Pítia [45]	Não	-	15 mil
Falcão-Instruir [46]	40B	papel	projeto	Falcão [46]	Não	-	-
Guanaco [23]	7B	-	projeto	Lhama [39]	Sim	-	586K
Minotauro [47]	15B	-	projeto	Starcoder Plus [48]	Não	-	-
Nous-Hermes [49]	13B	-	projeto	Lhama [39]	Não	-	Mais de 300 mil
TÜLU [50]	6.7B	papel	projeto	OPTAR [43]	Não	Misturado	-
YuLan-Chat [51]	13B	-	projeto	Lhama [39]	Sim	-	250 mil
MUSGO [52]	16B	-	projeto	-	Sim	-	-
Airoboros [53]	13B	-	projeto	Lhama [39]	Sim	-	-
UltraLM [22]	13B	papel	projeto	Lhama [39]	Sim	-	-

Ajuste de instrução multimodal

Conjuntos de dados

Nome do conjunto de dados	Papel	Projeto	Modalidades		# Tarefas
			Par de Modalidades	# Instância
MULTIINSTRUÇÃO [54]	papel	projeto	Imagem-Texto	5K a 5M por tarefa	62
PMC-VQA [55]	papel	projeto	Imagem-Texto	227 mil	9
LAMM [56]	papel	projeto	Imagem-Texto	186K	9
LAMM [56]	papel	projeto	Nuvem de Pontos-Texto	10K	3
Visão-Flan [57]	papel	projeto	Multi-pares	~1 milhão	Mais de 200
ALAVA [58]	papel	projeto	Imagem-Texto	1,4 milhão	2
CompartilharGPT4V [59]	papel	projeto	Imagem-Texto	1,2 milhões	2

Modelos

Nome do modelo	# Parâmetros	Papel	Projeto	Modalidade	Modelo Básico		Conjunto de trem
					Nome do modelo	# Parâmetros	Autoconstrução	Tamanho
InstructPix2Pix [60]	983 milhões	papel	projeto	Imagem-Texto	Difusão Estável [62]	983 milhões	Sim	450 mil
LLaVA [61]	13B	papel	projeto	Imagem-Texto	CLIPE [63]	400 milhões	Sim	158K
					Lhama [39]	7B
					Lhama [39]	7B
Vídeo-LLaMA [64]	-	papel	projeto	Imagem-Texto-Vídeo-Áudio	BLIP-2 [65]	-	Não	-
					ImageBind [66]	-
					Vicunha[20]	7B/13B
InstruirBLIP [67]	12B	papel	projeto	Imagem-Texto-Vídeo	BLIP-2 [65]	-	Não	-
Lontra [68]	-	papel	projeto	Imagem-Texto-Vídeo	OpenFlamingo [69]	9B	Sim	2,8 milhões
MultiModal-GPT [70]	-	papel	projeto	Imagem-Texto-Vídeo	OpenFlamingo [69]	9B	Não	-

Ajuste de instrução específico de domínio

Domínio	Nome do modelo	# Parâmetros	Papel	Projeto	Modelo Básico	Tamanho do trem
Médico	Radiologia-GPT [71]	7B	papel	projeto	Alpaca[17]	122 mil
	Médico de bate-papo [72]	7B	papel	projeto	Lhama [39]	122K
	ChatGLM-Med [73]	6B	-	projeto	Bate-papoGLM [41]	-
Escrita	Escrita-Alpaca [74]	7B	papel	-	Lhama [39]	-
	CoEdIT [75]	11B	papel	projeto	FLAN-T5 [7]	82K
	CoPoeta [76]	11B	papel	projeto	T5[38]	-
Geração de código	WizardCoder [25]	15B	papel	projeto	StarCoder [48]	78K
Análise de sentimento	TI-MTL [77]	220 milhões	papel	projeto	T5[38]	-
Aritmética	Cabra [78]	7B	papel	projeto	Lhama [39]	1,0 milhão
Extração de informações	InstruirUIE [79]	11B	papel	projeto	FLAN-T5 [7]	1,0 milhão

Técnicas de ajuste eficientes

Nome	Papel	Projeto
LoRA [80]	papel	projeto
DICA [81]	papel	projeto
QLoRA [82]	papel	projeto
LOMO [83]	papel	projeto
Ajuste delta [84]	papel	projeto

Avaliações

Avaliações fechadas	Papel	Projeto
Entendimento massivo de linguagem multitarefa (MMLU) [85]	papel	projeto
MATEMÁTICA [86]	papel	projeto
GSM8K [87]	papel	projeto
Banco BIG rígido (BBH) [88]	papel	projeto
Avaliação Humana [89]	papel	projeto
IFEval [90]	papel	projeto

Avaliações baseadas em GPT	Papel	Projeto
AlpacaEval [91]	-	projeto
AlpacaEval com comprimento controlado [92]	papel	projeto
Banco MT [93]	papel	projeto
Banco Selvagem [94]	papel	projeto

Referências

Ajuste de instrução (conjuntos de dados)

[1] Khashabi, Daniel, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark e Hannaneh Hajishirzi. Unifiedqa: Cruzando fronteiras de formato com um único sistema de controle de qualidade . Pré-impressão do arXiv arXiv:2005.00700 (2020). Papel

[2] Tianbao Xie, Chen Henry Wu, Peng Shi, Ruiqi Zhong, Torsten Scholak, Michihiro Yasunaga, Chien-Sheng Wu, Ming Zhong, Pengcheng Yin, Sida I. Wang, Victor Zhong, Bailin Wang, Chengzu Li, Connor Boyle, Ansong Ni, Ziyu Yao, Dragomir R. Radev, Caiming Xiong, Lingpeng Kong, Rui Zhang, Noah A. Smith, Luke Zettlemoyer, e Tao Yu. Unifiedskg: base de conhecimento estruturado unificador e multitarefa com modelos de linguagem texto para texto . Na Conferência sobre Métodos Empíricos em Processamento de Linguagem Natural, 2022. Artigo

[3] Mishra, Swaroop e Khashabi, Daniel e Baral, Chitta e Hajishirzi, Hannaneh. Instruções não naturais: Ajustando modelos de linguagem com (quase) nenhum trabalho humano . Pré-impressão arXiv arXiv:2212.09689, 2022. Artigo

[3] Ou Honovich, Thomas Scialom, Omer Levy e Timo Schick. Instruções não naturais: Ajustando modelos de linguagem com (quase) nenhum trabalho humano . Pré-impressão arXiv arXiv:2212.09689, 2022. Artigo

[4] Yizhong Wang, Swaroop Mishra, Pegah Alipoormolabashi, Yeganeh Kordi, Amirreza Mirzaei, Anjana Arunkumar, Arjun Ashok, Arut Selvan Dhanasekaran, Atharva Naik, David Stap, et al. Instruções sobrenaturais: generalização por meio de instruções declarativas em mais de 1600 tarefas . Em EMNLP, 2022. Artigo

[5] Victor Sanh, Albert Webson, Colin Raffel, Stephen H Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, et al. O treinamento orientado a multitarefa permite a generalização de tarefas de disparo zero . Pré-impressão arXiv arXiv:2110.08207, 2021. Artigo

[6] Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, Teven Le Scao, M Saiful Bari, Sheng Shen, Zheng-Xin Yong, Hailey Schoelkopf, et al. Generalização multilíngue por meio de ajuste fino multitarefa . Pré-impressão arXiv arXiv:2211.01786, 2022. Artigo

[7] Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung Won Chung, Yi Tay, Denny Zhou, Quoc V Le, Barret Zoph, Jason Wei, e outros. A coleção flan: Projetando dados e métodos para ajuste eficaz de instruções . Pré-impressão arXiv arXiv:2301.13688, 2023. Artigo

[8] Ge Zhang, Yemin Shi, Ruibo Liu, Ruibin Yuan, Yizhi Li, Siwei Dong, Yu Shu, Zhaoqun Li, Zekun Wang, Chenghua Lin, Wen-Fen Huang e Jie Fu. Generalista de instrução aberta chinesa: uma versão preliminar . ArXiv, abs/2304.07987, 2023. Artigo

[9] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Treinar modelos de linguagem para seguir instruções com feedback humano . Avanços em Sistemas de Processamento de Informação Neural, 35:27730–27744, 2022. Artigo

[10] Mike Conover, Matt Hayes, Ankit Mathur, Xiangrui Meng, Jianwei Xie, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia, e outros. Dolly grátis: Apresentando o primeiro llm sintonizado com instrução verdadeiramente aberto do mundo , 2023. Artigo

[11] Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, L. Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer e Omer Levy. Lima: Menos é mais para alinhamento . ArXiv, abs/2305.11206, 2023. Artigo

[12] OpenAI. Apresentando o chatgpt . Postagem no blog openai.com/blog/chatgpt, 2022. Artigo

[13] Andreas Köpf, Yannic Kilcher, Dimitri von Rütte, Sotiris Anagnostidis, Zhi-Rui Tam, Keith Stevens, Abdullah Barhoum, Nguyen Minh Duc, Oliver Stanley, Richárd Nagyfi, et al. Conversas do Openassistant – democratizando o alinhamento do modelo de linguagem grande . Pré-impressão arXiv arXiv:2304.07327, 2023. Artigo

[14] LAION.ai. Oig: o conjunto de dados generalista de instruções abertas , 2023.

[15] Fuzhao Xue, Kabir Jain, Mahir Hitesh Shah, Zangwei Zheng e Yang You. Instrução em estado selvagem: um conjunto de dados de instruções baseado no usuário . github.com/XueFuzhao/InstructionWild,2023 .

[16] Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao e Daxin Jiang. Wizardlm: Capacitando grandes modelos de linguagem para seguir instruções complexas , 2023. Artigo

[17] Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang e Tatsunori B Hashimoto. "Alpaca: Um modelo de seguimento de instruções forte e replicável" . Centro de Stanford para Pesquisa em Modelos de Fundação. https://crfm.stanford.edu/2023/03/13/alpaca.html , 3(6):7, 2023.

[18] Hanmeng Liu, Zhiyang Teng, Leyang Cui, Chaoli Zhang, Qiji Zhou e Yue Zhang. Logicot: Coleta de dados de ajuste de instrução de cadeia lógica de pensamento com gpt-4 . ArXiv, abs/2305.12147, 2023. Artigo

[19] Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley e Jianfeng Gao. Ajuste de instrução com gpt-4 . Pré-impressão arXiv arXiv:2304.03277, 2023. Artigo

[20] Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E Gonzalez, et al. Vicuna: um chatbot de código aberto que impressiona o gpt-4 com 90% de qualidade chatgpt . Consulte https://vicuna.lmsys.org (acessado em 14 de abril de 2023), 2023.

[21] Canwen Xu e Daya Guo e Nan Duan e Julian McAuley. "Baize: um modelo de bate-papo de código aberto com ajuste eficiente de parâmetros em dados de bate-papo automático" . Papel

[22] Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun e Bowen Zhou. Aprimorando os modelos de linguagem de bate-papo ampliando conversas instrucionais de alta qualidade . Pré-impressão arXiv arXiv:2305.14233, 2023. Artigo

[23] Josefo Cheung. Guanaco: Assistente universal generativo para resultados omnilíngues adaptativos e sensíveis ao contexto de linguagem natural , 2021.

[24] Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal, Hamid Palangi e Ahmed Awadallah. 2023. Orca: Aprendizagem progressiva a partir de traços de explicação complexa do gpt-4. Pré-impressão do arXiv arXiv:2306.02707. Papel

[25] Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin e Daxin Jiang. 2023. Wizardcoder: Capacitando modelos de linguagem grande de código com evol-instruct. Papel

[26] Yuxiang Wei, Zhe Wang, Jiawei Liu, Yifeng Ding e Lingming Zhang. 2023b. Magicoder: O código-fonte é tudo que você precisa. Pré-impressão do arXiv arXiv:2312.02120. Papel

[27] Zhaojian Yu, Xin Zhang, Ning Shang, Yangyu Huang, Can Xu, Yishujie Zhao, Wenxiang Hu e Qiufeng Yin. 2023. Wavecoder: Ajuste de instrução aprimorado, generalizado e versátil, com geração de dados refinada. Pré-impressão do arXiv arXiv:2312.14187. Papel

[28] Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, et al. 2023. Os livros didáticos são tudo que você precisa. Pré-impressão do arXiv arXiv:2306.11644. Papel

[29] Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar e Yin Tat Lee. 2023h. Os livros didáticos são tudo que você precisa ii: relatório técnico phi-1.5. Pré-impressão do arXiv arXiv:2309.05463. Papel

[30] Banghua Zhu, Evan Frick, Tianhao Wu, Hanlin Zhu e Jiantao Jiao. 2023a. Starling-7b: Melhorando a utilidade e a inocuidade do llm com rlaif. Papel

[31] Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A Smith, Daniel Khashabi e Hannaneh Hajishirzi. Autoinstruir: Alinhando o modelo de linguagem com instruções autogeradas . Pré-impressão arXiv arXiv:2212.10560, 2022. Artigo

[32] Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Luke Zettlemoyer, Omer Levy, Jason Weston e Mike Lewis. 2023g. Auto-alinhamento com retrotradução de instruções. Pré-impressão do arXiv arXiv:2308.06259. Papel

[33] Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji e Quanquan Gu. 2024. O ajuste fino de auto-jogo converte modelos de linguagem fraca em modelos de linguagem forte. Pré-impressão do arXiv arXiv:2401.01335. Papel

Ajuste de instrução (modelos)

[34] Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, Teven Le Scao, M Saiful Bari, Sheng Shen, Zheng-Xin Yong, Hailey Schoelkopf, et al. 2022. Generalização multilíngue por meio de ajuste fino multitarefa. Pré-impressão do arXiv arXiv:2211.01786. Papel

[35] Hyung Won Chung, Le Hou, S. Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen , Aakanksha Chowdhery, Dasha Valter, Sharan Narang, Gaurav Mishra, Adams Wei Yu, Vincent Zhao, Yanping Huang, Andrew M. Dai, Hongkun Yu, Slav Petrov, Ed Huai hsin Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le e Jason Wei. Dimensionando modelos de linguagem ajustados por instrução . ArXiv, abs/2210.11416, 2022. Artigo

[36] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, TJ Henighan, Rewon Criança, Aditya Ramesh, Daniel M. Ziegler, Jeff Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever e Dario Amodei. Os modelos de linguagem são aprendizes rápidos . ArXiv, abs/2005.14165, 2020. Artigo

[37] Scao, Teven Le, Angela Fan, Christopher Akiki, Ellie Pavlick, Suzana Ilić, Daniel Hesslow, Roman Castagné e outros. Bloom: Um modelo de linguagem multilíngue de acesso aberto com parâmetros 176b . Pré-impressão do arXiv arXiv:2211.05100 (2022). Papel

[38] Colin Raffel, Noam M. Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li e Peter J. Liu. Explorando os limites da aprendizagem por transferência com um transformador unificado de texto em texto . ArXiv, abs/1910.10683, 2019. Artigo

[39] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aur'elien Rodriguez, Armand Joulin, Edouard Grave e Guillaume Lample. Llama: Modelos de linguagem de base abertos e eficientes . ArXiv, abs/2302.13971, 2023. Artigo

[40] Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, et al. IA constitucional: inocuidade do feedback de IA . Pré-impressão arXiv arXiv:2212.08073, 2022. Artigo

[41] Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang e Jie Tang. Glm: Pré-treinamento de modelo de linguagem geral com preenchimento de espaço em branco autorregressivo . Em Anais da 60ª Reunião Anual da Association for Computational Linguistics (Volume 1: Long Papers), páginas 320–335, 2022. Artigo

[42] Srinivas Iyer, Xiaojuan Lin, Ramakanth Pasunuru, Todor Mihaylov, Daniel Simig, Ping Yu, Kurt Shuster, Tianlu Wang, Qing Liu, Punit Singh Koura, Xian Li, Brian O'Horo, Gabriel Pereyra, Jeff Wang, Christopher Dewan , Asli Celikyilmaz, Luke Zettlemoyer e Veselin Stoyanov. "Opt-iml: Dimensionando o meta-aprendizado de instrução do modelo de linguagem através das lentes da generalização" . ArXiv, abs/2212.12017, 2022. Artigo

[43] Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona T. Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig , Punit Singh Koura, Anjali Sridhar, Tianlu Wang e Luke Zettlemoyer. 2022a. Opção: Modelos de linguagem de transformador pré-treinados abertos. ArXiv, abs/2205.01068. Papel

[44] Mike Conover, Matt Hayes, Ankit Mathur, Xiangrui Meng, Jianwei Xie, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia, e outros. Dolly grátis: Apresentando o primeiro LLM verdadeiramente aberto do mundo , 2023.

[45] Stella Rose Biderman, Hailey Schoelkopf, Quentin G. Anthony, Herbie Bradley, Kyle O'Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, USVSN Sai Prashanth, Edward Raff, Aviya Skowron, Lintang Sutawika e Oskar van der Wal. Pythia: um conjunto para analisar grandes modelos de linguagem em treinamento e escalonamento . ArXiv, abs/2304.01373, 2023. Artigo

[46] Ebtesam Almazrouei, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, Merouane Debbah, Etienne Goffinet, Daniel Heslow, Julien Launay, Quentin Malartic, Badreddine Noune, Baptiste Pannier e Guilherme Penedo. Falcon-40B: um modelo de linguagem aberta de grande porte com desempenho de última geração . 2023. Artigo

[47] Coletivo OpenAccess AI . software: huggingface.co/openaccess-ai-collective/minotaur-15b, 2023.

[48] Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov, Chenghao Mou, Marc Marone, Christopher Akiki, Jia Li, Jenny Chim, et al. Starcoder: que a fonte esteja com você ! Pré-impressão arXiv arXiv:2305.06161, 2023. Artigo

[49] NousResearch . software: huggingface.co/NousResearch/Nous-Hermes-13b, 2023.

[50] Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy e Hanna Hajishirzi. Até onde podem ir os camelos? explorando o estado do ajuste de instruções em recursos abertos . ArXiv, abs/2306.04751, 2023. Artigo

[51] Equipe YuLan-Chat. Yulan-chat: Um chatbot bilíngue de código aberto . github.com/RUC-GSAI/YuLan-Chat, 2023.

[52] Sun Tianxiang e Qiu Xipeng. Musgo . Postagem no blog txsun1997.github.io/blogs/moss.html, 2023.

[53] John Durbin. Airoboros . software: github.com/jondurbin/airoboros, 2023.

Ajuste de instrução multimodal (conjuntos de dados)

[54] Zhiyang Xu, Ying Shen e Lifu Huang. Multiinstruct: Melhorando o aprendizado multimodal zero-shot por meio do ajuste de instrução . ArXiv, abs/2212.10773, 2022. Artigo

[55] Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao, Weixiong Lin, Ya Zhang, Yanfeng Wang e Weidi Xie. Pmc-vqa: Ajuste de instrução visual para resposta visual a perguntas médicas . ArXiv, abs/2305.10415. 2023. Artigo

[56] Zhenfei Yin, Jiong Wang, Jianjian Cao, Zhelun Shi, Dingning Liu, Mukai Li, Lu Sheng, Lei Bai, Xiaoshui Huang, Zhiyong Wang, Wanli Ouyang e Jing Shao. Lamm: Conjunto de dados, estrutura e benchmark de ajuste de instrução multimodal assistido por linguagem . ArXiv, abs/2306.06687, 2023. Artigo

[57] Zhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang e Lifu Huang. 2024. Vision-flan: Dimensionando tarefas rotuladas por humanos no ajuste de instruções visuais. Pré-impressão do arXiv arXiv:2402.11690. Papel

[58] Guiming Hardy Chen, Shunian Chen, Ruifei Zhang, Junying Chen, Xiangbo Wu, Zhiyi Zhang, Zhihong Chen, Jianquan Li, Xiang Wan e Benyou Wang. 2024a. Allava: Aproveitando dados sintetizados por gpt4v para um modelo de linguagem de visão leve. Pré-impressão do arXiv arXiv:2402.11684. Papel

[59] Lin Chen, Jisong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao e Dahua Lin. 2023a. Sharegpt4v: Melhorando grandes modelos multimodais com melhores legendas. Pré-impressão do arXiv arXiv:2311.12793. Papel

Ajuste de instrução multimodal (modelos)

[60] Tim Brooks, Aleksander Holynski e Alexei A. Efros. Instructpix2pix: Aprendendo a seguir as instruções de edição de imagens . ArXiv, abs/2211.09800, 2022. Artigo

[61] Haotian Liu, Chunyuan Li, Qingyang Wu e Yong Jae Lee. Ajuste de instrução visual . ArXiv, abs/2304.08485, 2023. Artigo

[62] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser e Björn Ommer. Síntese de imagens de alta resolução com modelos de difusão latente . Em Anais da conferência IEEE/CVF sobre visão computacional e reconhecimento de padrões, páginas 10684–10695, 2022. Artigo

[63] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger e Ilya Sutskever. Aprendendo modelos visuais transferíveis com supervisão de linguagem natural . Na Conferência Internacional sobre Aprendizado de Máquina, 2021. Artigo

[64] Hang Zhang, Xin Li e Lidong Bing. Video-llama: Um modelo de linguagem audiovisual ajustado para instrução para compreensão de vídeo . Pré-impressão arXiv arXiv:2306.02858, 2023. Artigo

[65] Junnan Li, Dongxu Li, Silvio Savarese e Steven Hoi. BLIP-2: inicialização do pré-treinamento de imagem-linguagem com codificadores de imagem congelada e modelos de linguagem grandes . No ICML, 2023. Artigo

[66] Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin e Ishan Misra. Imagebind: Um espaço de incorporação para vincular todos eles . Em CVPR, 2023. Artigo

[67] Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung e Steven Hoi. Instructblip: Rumo a modelos de linguagem de visão de uso geral com ajuste de instrução . ArXiv, abs/2305.06500, 2023. Artigo

[68] Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Jingkang Yang e Ziwei Liu. Otter: Um modelo multimodal com ajuste de instruções no contexto . ArXiv, abs/2305.03726, 2023. Artigo

[69] Anas Awadalla, Irena Gao, Joshua Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Jenia Jitsev, e outros. Openflamingo , 2023.

[70] Tao Gong, Chengqi Lyu, Shilong Zhang, Yudong Wang, Miao Zheng, Qianmengke Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo e Kai Chen. Multimodal-gpt: Um modelo de visão e linguagem para o diálogo com os humanos . ArXiv, abs/2305.04790, 2023. Artigo

Ajuste de instrução específico de domínio

[71] Zheng Liu, Aoxiao Zhong, Yiwei Li, Longtao Yang, Chao Ju, Zihao Wu, Chong Ma, Peng Shu, Cheng Chen, Sekeun Kim, Haixing Dai, Lin Zhao, Dajiang Zhu, Jun Liu, Wei Liu, Dinggang Shen , Xiang Li, Quanzheng Li e Tianming Liu. Radiology-gpt: Um grande modelo de linguagem para radiologia . 2023. Artigo

[72] Yunxiang Li, Zihan Li, Kai Zhang, Ruilong Dan e You Zhang. Chatdoctor: Um modelo de bate-papo médico aprimorado no modelo lhama usando conhecimento de domínio médico . ArXiv, abs/2303.14070, 2023. Artigo

[73] Sendong Zhao Bing Qin Ting Liu Haochun Wang, Chi Liu. Chatglm-med. github.com/SCIR-HI/Med-ChatGLM , 2023.

[74] Yue Zhang, Leyang Cui, Deng Cai, Xinting Huang, Tao Fang e Wei Bi. 2023d. Ajuste de instrução multitarefa de lhama para cenários específicos: um estudo preliminar sobre assistência à escrita. ArXiv, abs/2305.13225. Papel

[75] Vipul Raheja, Dhruv Kumar, Ryan Koo e Dongyeop Kang. 2023. Coedit: Edição de texto por ajuste de instruções específicas de tarefas. ArXiv, abs/2305.09857. Papel

[76] Tuhin Chakrabarty, Vishakh Padmakumar e Hengxing He. 2022. Ajude-me a escrever uma afinação de poema-instrução como veículo para a escrita colaborativa de poesia. ArXiv, abs/2210.13669. Papel

[77] Siddharth Varia, Shuai Wang, Kishaloy Halder, Robert Vacareanu, Miguel Ballesteros, Yassine Benajiba, Neha Ann John, Rishita Anubhai, Smaranda Muresan e Dan Roth. 2022. Ajuste de instruções para análise de sentimento baseada em aspectos de poucas tentativas. ArXiv, abs/2210.06629. Papel

[78] Tiedong Liu e Bryan Kian Hsiang. "Cabra: Lhama bem ajustada supera gpt-4 em tarefas aritméticas" . Pré-impressão arXiv arXiv:2305.14201, 2023. Artigo

[79] Xiao Wang, Wei Zhou, Can Zu, Han Xia, Tianze Chen, Yuan Zhang, Rui Zheng, Junjie Ye, Qi Zhang, Tao Gui, Jihua Kang, J. Yang, Siyuan Li e Chunsai Du. Instructuie: Ajuste de instruções multitarefa para extração unificada de informações . ArXiv, abs/2304.08085, 2023. Artigo

Técnicas de ajuste eficientes

[80] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang e Weizhu Chen. 2021. Lora: Adaptação de baixo nível de grandes modelos de linguagem . Pré-impressão do arXiv arXiv:2106.09685. Papel

[81] Hamish Ivison, Akshita Bhagia, Yizhong Wang, Hannaneh Hajishirzi e Matthew E. Peters. 2022. Dica: ajuste de instruções de hiperrede para generalização eficiente de disparo zero . ArXiv, abs/2212.10315. Papel

[82] Tim Dettmers, Artidoro Pagnoni, Ari Holtzman e Luke Zettlemoyer. 2023. Qlora: Ajuste fino eficiente de filmes quantizados . Pré-impressão do arXiv arXiv:2305.14314. Papel

[83] Kai Lv, Yuqing Yang, Tengxiao Liu, Qi jie Gao, Qipeng Guo e Xipeng Qiu. 2023. Ajuste completo de parâmetros para modelos de linguagem grandes com recursos limitados . Papel

[84] Weize Chen, Jing Yi, Weilin Zhao, Xiaozhi Wang, Zhiyuan Liu, Haitao Zheng, Jianfei Chen, Y. Liu, Jie Tang, Juanzi Li e Maosong Sun. 2023b. Ajuste fino com eficiência de parâmetros de modelos de linguagem pré-treinados em grande escala . Inteligência da Máquina Natural, 5:220–235. Papel

Avaliações

[85] Hendrycks, Dan e Burns, Collin e Basart, Steven e Zou, Andy e Mazeika, Mantas e Song, Dawn e Steinhardt, Jacob. 2020a. Medindo a compreensão massiva da linguagem multitarefa . arXiv:2009.03300. Papel

[86] Hendrycks, Dan e Burns, Collin e Kadavath, Saurav e Arora, Akul e Basart, Steven e Tang, Eric e Song, Dawn e Steinhardt, Jacob. 2021. Medindo a resolução de problemas matemáticos com o conjunto de dados matemáticos . Pré-impressão do arXiv arXiv:2103.03874. Papel

[87] Karl Cobbe e Vineet Kosaraju e Mohammad Bavarian e Mark Chen e Heewoo Jun e Lukasz Kaiser e Matthias Plappert e Jerry Tworek e Jacob Hilton e Reiichiro Nakano e Christopher Hesse e John Schulman. 2021. Treinamento de verificadores para resolver problemas matemáticos com palavras . Papel

[88] Suzgun, Mirac e Scales, Nathan e Sch{"a}rli, Nathanael e Gehrmann, Sebastian e Tay, Yi e Chung, Hyung Won e Chowdhery, Aakanksha e Le, Quoc V e Chi, Ed H e Zhou, Denny e outros 2022a. Tarefas desafiadoras de grande bancada e se a cadeia de pensamento pode resolvê-las . arXiv:2210.09261 Papel

[89] Chen, Mark e Tworek, Jerry e Jun, Heewoo e Yuan, Qiming e Pinto, Henrique Ponde De Oliveira e Kaplan, Jared e Edwards, Harri e Burda, Yuri e Joseph, Nicholas e Brockman, Greg e outros. 2021a. Avaliando grandes modelos de linguagem treinados em código . Pré-impressão arXiv arXiv:2107.03374 Papel

[90] Zhou, Jeffrey e Lu, Tianjian e Mishra, Swaroop e Brahma, Siddhartha e Basu, Sujoy e Luan, Yi e Zhou, Denny e Hou, Le. 2023b. Avaliação de acompanhamento de instruções para grandes modelos de linguagem . Pré-impressão arXiv arXiv:2311.07911 Papel

[91] Xuechen Li e Tianyi Zhang e Yann Dubois e Rohan Taori e Ishaan Gulrajani e Carlos Guestrin e Percy Liang e Tatsunori B. Hashimoto. 2023h. AlpacaEval: um avaliador automático de modelos que seguem instruções . Repositório GitHub GitHub

[92] Dubois, Yann e Galambosi, Bal{'a}zs e Liang, Percy e Hashimoto, Tatsunori B. 2024. AlpacaEval controlado por comprimento: uma maneira simples de avaliar avaliadores automáticos Debias . Pré-impressão arXiv arXiv:2404.04475 Papel

[93] Zheng, Lianmin e Chiang, Wei-Lin e Sheng, Ying e Zhuang, Siyuan e Wu, Zhanghao e Zhuang, Yonghao e Lin, Zi e Li, Zhuohan e Li, Dacheng e Xing, Eric e outros. 2023. Julgando llm-as-juiz com mt-bench e chatbot arena . Artigo sobre Avanços em Sistemas de Processamento de Informação Neural

[94] Lin, Bill Yuchen e Deng, Yuntian e Chandu, Khyathi e Brahman, Faeze e Ravichander, Abhilasha e Pyatkin, Valentina e Dziri, Nouha e Bras, Ronan Le e Choi, Yejin. 2024. WILDBENCH: Comparando LLMs com tarefas desafiadoras de usuários reais na natureza . Pré-impressão arXiv arXiv:2406.04770 Papel

Alinhamento Superficial

[95] Po-Nien Kung e Nanyun Peng. 2023. Os modelos realmente aprendem a seguir as instruções? Um estudo empírico de ajuste de instrução . LCA. Papel

[96] Chunting Zhou e Pengfei Liu e Puxin Xu e Srini Iyer e Jiao Sun e Yuning Mao e Xuezhe Ma e Avia Efrat e Ping Yu e L. Yu e Susan Zhang e Gargi Ghosh e Mike Lewis e Luke Zettlemoyer e Omer Levy. 2023a. LIMA: Menos é mais para alinhamento . NeurIPS 2023. Artigo

[97] Lin, Bill Yuchen e Ravichander, Abhilasha e Lu, Ximing e Dziri, Nouha e Sclar, Melanie e Chandu, Khyathi e Bhagavatula, Chandra e Choi, Yejin. 2023a. "O feitiço de desbloqueio nos ILMs básicos: Repensando o alinhamento por meio do aprendizado no contexto" . ICLR 2024. Artigo