Este repositório contém recursos referenciados no artigo Tuning Tuning for Large Language Models: A Survey.
Se você achar este repositório útil, cite o seguinte:
@article{zhang2023instruction,
title={Instruction Tuning for Large Language Models: A Survey},
author={Zhang, Shengyu and Dong, Linfeng and Li, Xiaoya and Zhang, Sen and Sun, Xiaofei and Wang, Shuhe and Li, Jiwei and Hu, Runyi and Zhang, Tianwei and Wu, Fei and others},
journal={arXiv preprint arXiv:2308.10792},
year={2023}
}
Fique atento! Mais trabalhos relacionados serão atualizados!
O ajuste de instrução (TI) refere-se ao processo de treinamento adicional de grandes modelos de linguagem (LLMs) em um conjunto de dados que consiste em pares (instruction, output)
de forma supervisionada, o que preenche a lacuna entre o objetivo de previsão da próxima palavra dos LLMs e os usuários 'objetivo de fazer com que os LLMs sigam as instruções humanas. O pipeline geral de ajuste de instruções é mostrado a seguir:
No artigo, fazemos uma revisão sistemática da literatura, incluindo a metodologia geral de TI, a construção de conjuntos de dados de TI, o treinamento de modelos de TI e aplicações para diferentes modalidades, domínios e aplicações, juntamente com análises sobre aspectos que influenciam o resultado da TI (por exemplo, geração de saídas de instrução, tamanho do conjunto de dados de instrução, etc.). Também analisamos as potenciais armadilhas da TI, juntamente com as críticas contra ela, juntamente com os esforços que apontam as deficiências atuais das estratégias existentes e sugerimos alguns caminhos para pesquisas frutíferas. A tipologia do artigo é a seguinte:
Tipo | Nome do conjunto de dados | Papel | Projeto | Nº de instruções | # de Lang | Construção | Código aberto |
---|---|---|---|---|---|---|---|
Feito pelo Homem | Controle de qualidade unificado [1] | papel | projeto | 750 mil | Pt | feito pelo homem | Sim |
SKG unificado [2] | papel | projeto | 0,8 milhão | Pt | feito pelo homem | Sim | |
Instruções Naturais [3] | papel | projeto | 193K | Pt | feito pelo homem | Sim | |
Instruções Sobrenaturais [4] | papel | projeto | 5 milhões | 55 Lang | feito pelo homem | Sim | |
P3 [5] | papel | projeto | 12 milhões | Pt | feito pelo homem | Sim | |
xP3 [6] | papel | projeto | 81 milhões | 46 Lang | feito pelo homem | Sim | |
Flan 2021 [7] | papel | projeto | 4,4 milhões | Pt | feito pelo homem | Sim | |
COIG [8] | papel | projeto | - | - | - | Sim | |
InstruirGPT [9] | papel | - | 13K | Múltiplo | feito pelo homem | Não | |
Boneca [10] | papel | projeto | 15 mil | Pt | feito pelo homem | Sim | |
LIMA [11] | papel | projeto | 1K | Pt | feito pelo homem | Sim | |
Bate-papoGPT [12] | papel | - | - | Múltiplo | feito pelo homem | Não | |
OpenAssistant [13] | papel | projeto | 161.443 | Múltiplo | feito pelo homem | Sim | |
Dados Sintéticos (Destilação) | EIG [14] | - | projeto | 43 milhões | Pt | ChatGPT (sem relatórios técnicos) | Sim |
Instruções Não Naturais [3] | papel | projeto | 240 mil | Pt | Gerado por InstructGPT | Sim | |
Instruir Selvagem [15] | - | projeto | 104K | - | Gerado por ChatGPT | Sim | |
Evol-Instruct / WizardLM [16] | papel | projeto | 52K | Pt | Gerado por ChatGPT | Sim | |
Alpaca [17] | - | projeto | 52K | Pt | Gerado por InstructGPT | Sim | |
LogicoT [18] | papel | projeto | - | Pt | Gerado por GPT-4 | Sim | |
GPT-4-LLM [19] | papel | projeto | 52K | En&Zh | Gerado por GPT-4 | Sim | |
Vicunha [20] | - | projeto | 70 mil | Pt | Conversas reais do usuário-ChatGPT | Não | |
Baize v1 [21] | papel | projeto | 111,5 mil | Pt | Gerado por ChatGPT | Sim | |
UltraChat [22] | papel | projeto | 675 mil | En&Zh | GPT 3/4 gerado | Sim | |
Guanaco [23] | - | projeto | 534.530 | Múltiplo | GPT (versão desconhecida) - gerado | Sim | |
Orca [24] | papel | projeto | 1,5 milhões | Pt | Gerado por GPT 3.5/4 | Sim | |
CompartilharGPT | - | projeto | 90 mil | Múltiplo | Conversas reais do usuário-ChatGPT | Sim | |
Bate-papo selvagem | - | projeto | 150 mil | Múltiplo | Conversas reais do usuário-ChatGPT | Sim | |
WizardCoder [25] | papel | - | - | Código | LLaMa 2-Gerado | Não | |
Código Mágico [26] | papel | projeto | 75K/110K | Código | Gerado por GPT-3.5 | Sim | |
WaveCoder [27] | papel | - | - | Código | GPT 4 gerado | Não | |
Phi-1 [28] | papel | projeto | Fichas 6B | Código Q e A | Gerado por GPT-3.5 | Sim | |
Fi-1.5 [29] | papel | - | - | Código Q e A | Gerado por GPT-3.5 | Não | |
Néctar [30] | papel | projeto | ~183K | Pt | GPT 4 gerado | Sim | |
Dados Sintéticos (Autoaperfeiçoamento) | Auto-instruir [31] | papel | projeto | 52K | Pt | Gerado por InstructGPT | Sim |
Tradução reversa da instrução [32] | papel | - | 502K | Pt | Gerado por LLaMa | Não | |
GIRAR [33] | papel | projeto | 49,8K | Pt | Gerado por Zephyr | Sim |
Nome do modelo | # Parâmetros | Papel | Projeto | Modelo Básico | Conjunto de trem de instruções | ||
---|---|---|---|---|---|---|---|
Autoconstrução | Nome | Tamanho | |||||
InstruirGPT [9] | 176B | papel | - | GPT-3 [36] | Sim | - | - |
FLORZ [34] | 176B | papel | projeto | FLOR [37] | Não | xP3 | - |
FLAN-T5 [35] | 11B | papel | projeto | T5 [38] | Não | FLAN 2021 | - |
Alpaca [17] | 7B | - | projeto | Lhama [39] | Sim | - | 52K |
Vicunha [20] | 13B | - | projeto | Lhama [39] | Sim | - | 70 mil |
GPT-4-LLM [19] | 7B | papel | projeto | Lhama [39] | Sim | - | 52K |
Cláudio [40] | - | papel | - | - | Sim | - | - |
WizardLM [16] | 7B | papel | projeto | Lhama [39] | Sim | Evol-Instruir | 70 mil |
Bate-papoGLM2 [41] | 6B | papel | projeto | GLM[41] | Sim | - | 1.1 Tokens |
LIMA [11] | 65B | papel | projeto | Lhama [39] | Sim | 1K | |
OPT-IML [42] | 175B | papel | projeto | OPTAR [43] | Não | - | - |
Boneca 2.0 [44] | 12B | - | projeto | Pítia [45] | Não | - | 15 mil |
Falcão-Instruir [46] | 40B | papel | projeto | Falcão [46] | Não | - | - |
Guanaco [23] | 7B | - | projeto | Lhama [39] | Sim | - | 586K |
Minotauro [47] | 15B | - | projeto | Starcoder Plus [48] | Não | - | - |
Nous-Hermes [49] | 13B | - | projeto | Lhama [39] | Não | - | Mais de 300 mil |
TÜLU [50] | 6.7B | papel | projeto | OPTAR [43] | Não | Misturado | - |
YuLan-Chat [51] | 13B | - | projeto | Lhama [39] | Sim | - | 250 mil |
MUSGO [52] | 16B | - | projeto | - | Sim | - | - |
Airoboros [53] | 13B | - | projeto | Lhama [39] | Sim | - | - |
UltraLM [22] | 13B | papel | projeto | Lhama [39] | Sim | - | - |
Nome do conjunto de dados | Papel | Projeto | Modalidades | # Tarefas | |
---|---|---|---|---|---|
Par de Modalidades | # Instância | ||||
MULTIINSTRUÇÃO [54] | papel | projeto | Imagem-Texto | 5K a 5M por tarefa | 62 |
PMC-VQA [55] | papel | projeto | Imagem-Texto | 227 mil | 9 |
LAMM [56] | papel | projeto | Imagem-Texto | 186K | 9 |
Nuvem de Pontos-Texto | 10K | 3 | |||
Visão-Flan [57] | papel | projeto | Multi-pares | ~1 milhão | Mais de 200 |
ALAVA [58] | papel | projeto | Imagem-Texto | 1,4 milhão | 2 |
CompartilharGPT4V [59] | papel | projeto | Imagem-Texto | 1,2 milhões | 2 |
Nome do modelo | # Parâmetros | Papel | Projeto | Modalidade | Modelo Básico | Conjunto de trem | ||
---|---|---|---|---|---|---|---|---|
Nome do modelo | # Parâmetros | Autoconstrução | Tamanho | |||||
InstructPix2Pix [60] | 983 milhões | papel | projeto | Imagem-Texto | Difusão Estável [62] | 983 milhões | Sim | 450 mil |
LLaVA [61] | 13B | papel | projeto | Imagem-Texto | CLIPE [63] | 400 milhões | Sim | 158K |
Lhama [39] | 7B | |||||||
Lhama [39] | 7B | |||||||
Vídeo-LLaMA [64] | - | papel | projeto | Imagem-Texto-Vídeo-Áudio | BLIP-2 [65] | - | Não | - |
ImageBind [66] | - | |||||||
Vicunha[20] | 7B/13B | |||||||
InstruirBLIP [67] | 12B | papel | projeto | Imagem-Texto-Vídeo | BLIP-2 [65] | - | Não | - |
Lontra [68] | - | papel | projeto | Imagem-Texto-Vídeo | OpenFlamingo [69] | 9B | Sim | 2,8 milhões |
MultiModal-GPT [70] | - | papel | projeto | Imagem-Texto-Vídeo | OpenFlamingo [69] | 9B | Não | - |
Domínio | Nome do modelo | # Parâmetros | Papel | Projeto | Modelo Básico | Tamanho do trem |
---|---|---|---|---|---|---|
Médico | Radiologia-GPT [71] | 7B | papel | projeto | Alpaca[17] | 122 mil |
Médico de bate-papo [72] | 7B | papel | projeto | Lhama [39] | 122K | |
ChatGLM-Med [73] | 6B | - | projeto | Bate-papoGLM [41] | - | |
Escrita | Escrita-Alpaca [74] | 7B | papel | - | Lhama [39] | - |
CoEdIT [75] | 11B | papel | projeto | FLAN-T5 [7] | 82K | |
CoPoeta [76] | 11B | papel | projeto | T5[38] | - | |
Geração de código | WizardCoder [25] | 15B | papel | projeto | StarCoder [48] | 78K |
Análise de sentimento | TI-MTL [77] | 220 milhões | papel | projeto | T5[38] | - |
Aritmética | Cabra [78] | 7B | papel | projeto | Lhama [39] | 1,0 milhão |
Extração de informações | InstruirUIE [79] | 11B | papel | projeto | FLAN-T5 [7] | 1,0 milhão |
Nome | Papel | Projeto |
---|---|---|
LoRA [80] | papel | projeto |
DICA [81] | papel | projeto |
QLoRA [82] | papel | projeto |
LOMO [83] | papel | projeto |
Ajuste delta [84] | papel | projeto |
Avaliações fechadas | Papel | Projeto |
---|---|---|
Entendimento massivo de linguagem multitarefa (MMLU) [85] | papel | projeto |
MATEMÁTICA [86] | papel | projeto |
GSM8K [87] | papel | projeto |
Banco BIG rígido (BBH) [88] | papel | projeto |
Avaliação Humana [89] | papel | projeto |
IFEval [90] | papel | projeto |
Avaliações baseadas em GPT | Papel | Projeto |
---|---|---|
AlpacaEval [91] | - | projeto |
AlpacaEval com comprimento controlado [92] | papel | projeto |
Banco MT [93] | papel | projeto |
Banco Selvagem [94] | papel | projeto |
[1] Khashabi, Daniel, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark e Hannaneh Hajishirzi. Unifiedqa: Cruzando fronteiras de formato com um único sistema de controle de qualidade . Pré-impressão do arXiv arXiv:2005.00700 (2020). Papel
[2] Tianbao Xie, Chen Henry Wu, Peng Shi, Ruiqi Zhong, Torsten Scholak, Michihiro Yasunaga, Chien-Sheng Wu, Ming Zhong, Pengcheng Yin, Sida I. Wang, Victor Zhong, Bailin Wang, Chengzu Li, Connor Boyle, Ansong Ni, Ziyu Yao, Dragomir R. Radev, Caiming Xiong, Lingpeng Kong, Rui Zhang, Noah A. Smith, Luke Zettlemoyer, e Tao Yu. Unifiedskg: base de conhecimento estruturado unificador e multitarefa com modelos de linguagem texto para texto . Na Conferência sobre Métodos Empíricos em Processamento de Linguagem Natural, 2022. Artigo
[3] Mishra, Swaroop e Khashabi, Daniel e Baral, Chitta e Hajishirzi, Hannaneh. Instruções não naturais: Ajustando modelos de linguagem com (quase) nenhum trabalho humano . Pré-impressão arXiv arXiv:2212.09689, 2022. Artigo
[3] Ou Honovich, Thomas Scialom, Omer Levy e Timo Schick. Instruções não naturais: Ajustando modelos de linguagem com (quase) nenhum trabalho humano . Pré-impressão arXiv arXiv:2212.09689, 2022. Artigo
[4] Yizhong Wang, Swaroop Mishra, Pegah Alipoormolabashi, Yeganeh Kordi, Amirreza Mirzaei, Anjana Arunkumar, Arjun Ashok, Arut Selvan Dhanasekaran, Atharva Naik, David Stap, et al. Instruções sobrenaturais: generalização por meio de instruções declarativas em mais de 1600 tarefas . Em EMNLP, 2022. Artigo
[5] Victor Sanh, Albert Webson, Colin Raffel, Stephen H Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, et al. O treinamento orientado a multitarefa permite a generalização de tarefas de disparo zero . Pré-impressão arXiv arXiv:2110.08207, 2021. Artigo
[6] Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, Teven Le Scao, M Saiful Bari, Sheng Shen, Zheng-Xin Yong, Hailey Schoelkopf, et al. Generalização multilíngue por meio de ajuste fino multitarefa . Pré-impressão arXiv arXiv:2211.01786, 2022. Artigo
[7] Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung Won Chung, Yi Tay, Denny Zhou, Quoc V Le, Barret Zoph, Jason Wei, e outros. A coleção flan: Projetando dados e métodos para ajuste eficaz de instruções . Pré-impressão arXiv arXiv:2301.13688, 2023. Artigo
[8] Ge Zhang, Yemin Shi, Ruibo Liu, Ruibin Yuan, Yizhi Li, Siwei Dong, Yu Shu, Zhaoqun Li, Zekun Wang, Chenghua Lin, Wen-Fen Huang e Jie Fu. Generalista de instrução aberta chinesa: uma versão preliminar . ArXiv, abs/2304.07987, 2023. Artigo
[9] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Treinar modelos de linguagem para seguir instruções com feedback humano . Avanços em Sistemas de Processamento de Informação Neural, 35:27730–27744, 2022. Artigo
[10] Mike Conover, Matt Hayes, Ankit Mathur, Xiangrui Meng, Jianwei Xie, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia, e outros. Dolly grátis: Apresentando o primeiro llm sintonizado com instrução verdadeiramente aberto do mundo , 2023. Artigo
[11] Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, L. Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer e Omer Levy. Lima: Menos é mais para alinhamento . ArXiv, abs/2305.11206, 2023. Artigo
[12] OpenAI. Apresentando o chatgpt . Postagem no blog openai.com/blog/chatgpt, 2022. Artigo
[13] Andreas Köpf, Yannic Kilcher, Dimitri von Rütte, Sotiris Anagnostidis, Zhi-Rui Tam, Keith Stevens, Abdullah Barhoum, Nguyen Minh Duc, Oliver Stanley, Richárd Nagyfi, et al. Conversas do Openassistant – democratizando o alinhamento do modelo de linguagem grande . Pré-impressão arXiv arXiv:2304.07327, 2023. Artigo
[14] LAION.ai. Oig: o conjunto de dados generalista de instruções abertas , 2023.
[15] Fuzhao Xue, Kabir Jain, Mahir Hitesh Shah, Zangwei Zheng e Yang You. Instrução em estado selvagem: um conjunto de dados de instruções baseado no usuário . github.com/XueFuzhao/InstructionWild,2023
.
[16] Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao e Daxin Jiang. Wizardlm: Capacitando grandes modelos de linguagem para seguir instruções complexas , 2023. Artigo
[17] Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang e Tatsunori B Hashimoto. "Alpaca: Um modelo de seguimento de instruções forte e replicável" . Centro de Stanford para Pesquisa em Modelos de Fundação. https://crfm.stanford.edu/2023/03/13/alpaca.html
, 3(6):7, 2023.
[18] Hanmeng Liu, Zhiyang Teng, Leyang Cui, Chaoli Zhang, Qiji Zhou e Yue Zhang. Logicot: Coleta de dados de ajuste de instrução de cadeia lógica de pensamento com gpt-4 . ArXiv, abs/2305.12147, 2023. Artigo
[19] Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley e Jianfeng Gao. Ajuste de instrução com gpt-4 . Pré-impressão arXiv arXiv:2304.03277, 2023. Artigo
[20] Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E Gonzalez, et al. Vicuna: um chatbot de código aberto que impressiona o gpt-4 com 90% de qualidade chatgpt . Consulte https://vicuna.lmsys.org
(acessado em 14 de abril de 2023), 2023.
[21] Canwen Xu e Daya Guo e Nan Duan e Julian McAuley. "Baize: um modelo de bate-papo de código aberto com ajuste eficiente de parâmetros em dados de bate-papo automático" . Papel
[22] Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun e Bowen Zhou. Aprimorando os modelos de linguagem de bate-papo ampliando conversas instrucionais de alta qualidade . Pré-impressão arXiv arXiv:2305.14233, 2023. Artigo
[23] Josefo Cheung. Guanaco: Assistente universal generativo para resultados omnilíngues adaptativos e sensíveis ao contexto de linguagem natural , 2021.
[24] Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal, Hamid Palangi e Ahmed Awadallah. 2023. Orca: Aprendizagem progressiva a partir de traços de explicação complexa do gpt-4. Pré-impressão do arXiv arXiv:2306.02707. Papel
[25] Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin e Daxin Jiang. 2023. Wizardcoder: Capacitando modelos de linguagem grande de código com evol-instruct. Papel
[26] Yuxiang Wei, Zhe Wang, Jiawei Liu, Yifeng Ding e Lingming Zhang. 2023b. Magicoder: O código-fonte é tudo que você precisa. Pré-impressão do arXiv arXiv:2312.02120. Papel
[27] Zhaojian Yu, Xin Zhang, Ning Shang, Yangyu Huang, Can Xu, Yishujie Zhao, Wenxiang Hu e Qiufeng Yin. 2023. Wavecoder: Ajuste de instrução aprimorado, generalizado e versátil, com geração de dados refinada. Pré-impressão do arXiv arXiv:2312.14187. Papel
[28] Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, et al. 2023. Os livros didáticos são tudo que você precisa. Pré-impressão do arXiv arXiv:2306.11644. Papel
[29] Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar e Yin Tat Lee. 2023h. Os livros didáticos são tudo que você precisa ii: relatório técnico phi-1.5. Pré-impressão do arXiv arXiv:2309.05463. Papel
[30] Banghua Zhu, Evan Frick, Tianhao Wu, Hanlin Zhu e Jiantao Jiao. 2023a. Starling-7b: Melhorando a utilidade e a inocuidade do llm com rlaif. Papel
[31] Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A Smith, Daniel Khashabi e Hannaneh Hajishirzi. Autoinstruir: Alinhando o modelo de linguagem com instruções autogeradas . Pré-impressão arXiv arXiv:2212.10560, 2022. Artigo
[32] Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Luke Zettlemoyer, Omer Levy, Jason Weston e Mike Lewis. 2023g. Auto-alinhamento com retrotradução de instruções. Pré-impressão do arXiv arXiv:2308.06259. Papel
[33] Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji e Quanquan Gu. 2024. O ajuste fino de auto-jogo converte modelos de linguagem fraca em modelos de linguagem forte. Pré-impressão do arXiv arXiv:2401.01335. Papel
[34] Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, Teven Le Scao, M Saiful Bari, Sheng Shen, Zheng-Xin Yong, Hailey Schoelkopf, et al. 2022. Generalização multilíngue por meio de ajuste fino multitarefa. Pré-impressão do arXiv arXiv:2211.01786. Papel
[35] Hyung Won Chung, Le Hou, S. Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen , Aakanksha Chowdhery, Dasha Valter, Sharan Narang, Gaurav Mishra, Adams Wei Yu, Vincent Zhao, Yanping Huang, Andrew M. Dai, Hongkun Yu, Slav Petrov, Ed Huai hsin Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le e Jason Wei. Dimensionando modelos de linguagem ajustados por instrução . ArXiv, abs/2210.11416, 2022. Artigo
[36] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, TJ Henighan, Rewon Criança, Aditya Ramesh, Daniel M. Ziegler, Jeff Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever e Dario Amodei. Os modelos de linguagem são aprendizes rápidos . ArXiv, abs/2005.14165, 2020. Artigo
[37] Scao, Teven Le, Angela Fan, Christopher Akiki, Ellie Pavlick, Suzana Ilić, Daniel Hesslow, Roman Castagné e outros. Bloom: Um modelo de linguagem multilíngue de acesso aberto com parâmetros 176b . Pré-impressão do arXiv arXiv:2211.05100 (2022). Papel
[38] Colin Raffel, Noam M. Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li e Peter J. Liu. Explorando os limites da aprendizagem por transferência com um transformador unificado de texto em texto . ArXiv, abs/1910.10683, 2019. Artigo
[39] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aur'elien Rodriguez, Armand Joulin, Edouard Grave e Guillaume Lample. Llama: Modelos de linguagem de base abertos e eficientes . ArXiv, abs/2302.13971, 2023. Artigo
[40] Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, et al. IA constitucional: inocuidade do feedback de IA . Pré-impressão arXiv arXiv:2212.08073, 2022. Artigo
[41] Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang e Jie Tang. Glm: Pré-treinamento de modelo de linguagem geral com preenchimento de espaço em branco autorregressivo . Em Anais da 60ª Reunião Anual da Association for Computational Linguistics (Volume 1: Long Papers), páginas 320–335, 2022. Artigo
[42] Srinivas Iyer, Xiaojuan Lin, Ramakanth Pasunuru, Todor Mihaylov, Daniel Simig, Ping Yu, Kurt Shuster, Tianlu Wang, Qing Liu, Punit Singh Koura, Xian Li, Brian O'Horo, Gabriel Pereyra, Jeff Wang, Christopher Dewan , Asli Celikyilmaz, Luke Zettlemoyer e Veselin Stoyanov. "Opt-iml: Dimensionando o meta-aprendizado de instrução do modelo de linguagem através das lentes da generalização" . ArXiv, abs/2212.12017, 2022. Artigo
[43] Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona T. Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig , Punit Singh Koura, Anjali Sridhar, Tianlu Wang e Luke Zettlemoyer. 2022a. Opção: Modelos de linguagem de transformador pré-treinados abertos. ArXiv, abs/2205.01068. Papel
[44] Mike Conover, Matt Hayes, Ankit Mathur, Xiangrui Meng, Jianwei Xie, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia, e outros. Dolly grátis: Apresentando o primeiro LLM verdadeiramente aberto do mundo , 2023.
[45] Stella Rose Biderman, Hailey Schoelkopf, Quentin G. Anthony, Herbie Bradley, Kyle O'Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, USVSN Sai Prashanth, Edward Raff, Aviya Skowron, Lintang Sutawika e Oskar van der Wal. Pythia: um conjunto para analisar grandes modelos de linguagem em treinamento e escalonamento . ArXiv, abs/2304.01373, 2023. Artigo
[46] Ebtesam Almazrouei, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, Merouane Debbah, Etienne Goffinet, Daniel Heslow, Julien Launay, Quentin Malartic, Badreddine Noune, Baptiste Pannier e Guilherme Penedo. Falcon-40B: um modelo de linguagem aberta de grande porte com desempenho de última geração . 2023. Artigo
[47] Coletivo OpenAccess AI . software: huggingface.co/openaccess-ai-collective/minotaur-15b, 2023.
[48] Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov, Chenghao Mou, Marc Marone, Christopher Akiki, Jia Li, Jenny Chim, et al. Starcoder: que a fonte esteja com você ! Pré-impressão arXiv arXiv:2305.06161, 2023. Artigo
[49] NousResearch . software: huggingface.co/NousResearch/Nous-Hermes-13b, 2023.
[50] Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy e Hanna Hajishirzi. Até onde podem ir os camelos? explorando o estado do ajuste de instruções em recursos abertos . ArXiv, abs/2306.04751, 2023. Artigo
[51] Equipe YuLan-Chat. Yulan-chat: Um chatbot bilíngue de código aberto . github.com/RUC-GSAI/YuLan-Chat, 2023.
[52] Sun Tianxiang e Qiu Xipeng. Musgo . Postagem no blog txsun1997.github.io/blogs/moss.html, 2023.
[53] John Durbin. Airoboros . software: github.com/jondurbin/airoboros, 2023.
[54] Zhiyang Xu, Ying Shen e Lifu Huang. Multiinstruct: Melhorando o aprendizado multimodal zero-shot por meio do ajuste de instrução . ArXiv, abs/2212.10773, 2022. Artigo
[55] Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao, Weixiong Lin, Ya Zhang, Yanfeng Wang e Weidi Xie. Pmc-vqa: Ajuste de instrução visual para resposta visual a perguntas médicas . ArXiv, abs/2305.10415. 2023. Artigo
[56] Zhenfei Yin, Jiong Wang, Jianjian Cao, Zhelun Shi, Dingning Liu, Mukai Li, Lu Sheng, Lei Bai, Xiaoshui Huang, Zhiyong Wang, Wanli Ouyang e Jing Shao. Lamm: Conjunto de dados, estrutura e benchmark de ajuste de instrução multimodal assistido por linguagem . ArXiv, abs/2306.06687, 2023. Artigo
[57] Zhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang e Lifu Huang. 2024. Vision-flan: Dimensionando tarefas rotuladas por humanos no ajuste de instruções visuais. Pré-impressão do arXiv arXiv:2402.11690. Papel
[58] Guiming Hardy Chen, Shunian Chen, Ruifei Zhang, Junying Chen, Xiangbo Wu, Zhiyi Zhang, Zhihong Chen, Jianquan Li, Xiang Wan e Benyou Wang. 2024a. Allava: Aproveitando dados sintetizados por gpt4v para um modelo de linguagem de visão leve. Pré-impressão do arXiv arXiv:2402.11684. Papel
[59] Lin Chen, Jisong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao e Dahua Lin. 2023a. Sharegpt4v: Melhorando grandes modelos multimodais com melhores legendas. Pré-impressão do arXiv arXiv:2311.12793. Papel
[60] Tim Brooks, Aleksander Holynski e Alexei A. Efros. Instructpix2pix: Aprendendo a seguir as instruções de edição de imagens . ArXiv, abs/2211.09800, 2022. Artigo
[61] Haotian Liu, Chunyuan Li, Qingyang Wu e Yong Jae Lee. Ajuste de instrução visual . ArXiv, abs/2304.08485, 2023. Artigo
[62] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser e Björn Ommer. Síntese de imagens de alta resolução com modelos de difusão latente . Em Anais da conferência IEEE/CVF sobre visão computacional e reconhecimento de padrões, páginas 10684–10695, 2022. Artigo
[63] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger e Ilya Sutskever. Aprendendo modelos visuais transferíveis com supervisão de linguagem natural . Na Conferência Internacional sobre Aprendizado de Máquina, 2021. Artigo
[64] Hang Zhang, Xin Li e Lidong Bing. Video-llama: Um modelo de linguagem audiovisual ajustado para instrução para compreensão de vídeo . Pré-impressão arXiv arXiv:2306.02858, 2023. Artigo
[65] Junnan Li, Dongxu Li, Silvio Savarese e Steven Hoi. BLIP-2: inicialização do pré-treinamento de imagem-linguagem com codificadores de imagem congelada e modelos de linguagem grandes . No ICML, 2023. Artigo
[66] Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin e Ishan Misra. Imagebind: Um espaço de incorporação para vincular todos eles . Em CVPR, 2023. Artigo
[67] Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung e Steven Hoi. Instructblip: Rumo a modelos de linguagem de visão de uso geral com ajuste de instrução . ArXiv, abs/2305.06500, 2023. Artigo
[68] Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Jingkang Yang e Ziwei Liu. Otter: Um modelo multimodal com ajuste de instruções no contexto . ArXiv, abs/2305.03726, 2023. Artigo
[69] Anas Awadalla, Irena Gao, Joshua Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Jenia Jitsev, e outros. Openflamingo , 2023.
[70] Tao Gong, Chengqi Lyu, Shilong Zhang, Yudong Wang, Miao Zheng, Qianmengke Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo e Kai Chen. Multimodal-gpt: Um modelo de visão e linguagem para o diálogo com os humanos . ArXiv, abs/2305.04790, 2023. Artigo
[71] Zheng Liu, Aoxiao Zhong, Yiwei Li, Longtao Yang, Chao Ju, Zihao Wu, Chong Ma, Peng Shu, Cheng Chen, Sekeun Kim, Haixing Dai, Lin Zhao, Dajiang Zhu, Jun Liu, Wei Liu, Dinggang Shen , Xiang Li, Quanzheng Li e Tianming Liu. Radiology-gpt: Um grande modelo de linguagem para radiologia . 2023. Artigo
[72] Yunxiang Li, Zihan Li, Kai Zhang, Ruilong Dan e You Zhang. Chatdoctor: Um modelo de bate-papo médico aprimorado no modelo lhama usando conhecimento de domínio médico . ArXiv, abs/2303.14070, 2023. Artigo
[73] Sendong Zhao Bing Qin Ting Liu Haochun Wang, Chi Liu. Chatglm-med. github.com/SCIR-HI/Med-ChatGLM , 2023.
[74] Yue Zhang, Leyang Cui, Deng Cai, Xinting Huang, Tao Fang e Wei Bi. 2023d. Ajuste de instrução multitarefa de lhama para cenários específicos: um estudo preliminar sobre assistência à escrita. ArXiv, abs/2305.13225. Papel
[75] Vipul Raheja, Dhruv Kumar, Ryan Koo e Dongyeop Kang. 2023. Coedit: Edição de texto por ajuste de instruções específicas de tarefas. ArXiv, abs/2305.09857. Papel
[76] Tuhin Chakrabarty, Vishakh Padmakumar e Hengxing He. 2022. Ajude-me a escrever uma afinação de poema-instrução como veículo para a escrita colaborativa de poesia. ArXiv, abs/2210.13669. Papel
[77] Siddharth Varia, Shuai Wang, Kishaloy Halder, Robert Vacareanu, Miguel Ballesteros, Yassine Benajiba, Neha Ann John, Rishita Anubhai, Smaranda Muresan e Dan Roth. 2022. Ajuste de instruções para análise de sentimento baseada em aspectos de poucas tentativas. ArXiv, abs/2210.06629. Papel
[78] Tiedong Liu e Bryan Kian Hsiang. "Cabra: Lhama bem ajustada supera gpt-4 em tarefas aritméticas" . Pré-impressão arXiv arXiv:2305.14201, 2023. Artigo
[79] Xiao Wang, Wei Zhou, Can Zu, Han Xia, Tianze Chen, Yuan Zhang, Rui Zheng, Junjie Ye, Qi Zhang, Tao Gui, Jihua Kang, J. Yang, Siyuan Li e Chunsai Du. Instructuie: Ajuste de instruções multitarefa para extração unificada de informações . ArXiv, abs/2304.08085, 2023. Artigo
[80] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang e Weizhu Chen. 2021. Lora: Adaptação de baixo nível de grandes modelos de linguagem . Pré-impressão do arXiv arXiv:2106.09685. Papel
[81] Hamish Ivison, Akshita Bhagia, Yizhong Wang, Hannaneh Hajishirzi e Matthew E. Peters. 2022. Dica: ajuste de instruções de hiperrede para generalização eficiente de disparo zero . ArXiv, abs/2212.10315. Papel
[82] Tim Dettmers, Artidoro Pagnoni, Ari Holtzman e Luke Zettlemoyer. 2023. Qlora: Ajuste fino eficiente de filmes quantizados . Pré-impressão do arXiv arXiv:2305.14314. Papel
[83] Kai Lv, Yuqing Yang, Tengxiao Liu, Qi jie Gao, Qipeng Guo e Xipeng Qiu. 2023. Ajuste completo de parâmetros para modelos de linguagem grandes com recursos limitados . Papel
[84] Weize Chen, Jing Yi, Weilin Zhao, Xiaozhi Wang, Zhiyuan Liu, Haitao Zheng, Jianfei Chen, Y. Liu, Jie Tang, Juanzi Li e Maosong Sun. 2023b. Ajuste fino com eficiência de parâmetros de modelos de linguagem pré-treinados em grande escala . Inteligência da Máquina Natural, 5:220–235. Papel
[85] Hendrycks, Dan e Burns, Collin e Basart, Steven e Zou, Andy e Mazeika, Mantas e Song, Dawn e Steinhardt, Jacob. 2020a. Medindo a compreensão massiva da linguagem multitarefa . arXiv:2009.03300. Papel
[86] Hendrycks, Dan e Burns, Collin e Kadavath, Saurav e Arora, Akul e Basart, Steven e Tang, Eric e Song, Dawn e Steinhardt, Jacob. 2021. Medindo a resolução de problemas matemáticos com o conjunto de dados matemáticos . Pré-impressão do arXiv arXiv:2103.03874. Papel
[87] Karl Cobbe e Vineet Kosaraju e Mohammad Bavarian e Mark Chen e Heewoo Jun e Lukasz Kaiser e Matthias Plappert e Jerry Tworek e Jacob Hilton e Reiichiro Nakano e Christopher Hesse e John Schulman. 2021. Treinamento de verificadores para resolver problemas matemáticos com palavras . Papel
[88] Suzgun, Mirac e Scales, Nathan e Sch{"a}rli, Nathanael e Gehrmann, Sebastian e Tay, Yi e Chung, Hyung Won e Chowdhery, Aakanksha e Le, Quoc V e Chi, Ed H e Zhou, Denny e outros 2022a. Tarefas desafiadoras de grande bancada e se a cadeia de pensamento pode resolvê-las . arXiv:2210.09261 Papel
[89] Chen, Mark e Tworek, Jerry e Jun, Heewoo e Yuan, Qiming e Pinto, Henrique Ponde De Oliveira e Kaplan, Jared e Edwards, Harri e Burda, Yuri e Joseph, Nicholas e Brockman, Greg e outros. 2021a. Avaliando grandes modelos de linguagem treinados em código . Pré-impressão arXiv arXiv:2107.03374 Papel
[90] Zhou, Jeffrey e Lu, Tianjian e Mishra, Swaroop e Brahma, Siddhartha e Basu, Sujoy e Luan, Yi e Zhou, Denny e Hou, Le. 2023b. Avaliação de acompanhamento de instruções para grandes modelos de linguagem . Pré-impressão arXiv arXiv:2311.07911 Papel
[91] Xuechen Li e Tianyi Zhang e Yann Dubois e Rohan Taori e Ishaan Gulrajani e Carlos Guestrin e Percy Liang e Tatsunori B. Hashimoto. 2023h. AlpacaEval: um avaliador automático de modelos que seguem instruções . Repositório GitHub GitHub
[92] Dubois, Yann e Galambosi, Bal{'a}zs e Liang, Percy e Hashimoto, Tatsunori B. 2024. AlpacaEval controlado por comprimento: uma maneira simples de avaliar avaliadores automáticos Debias . Pré-impressão arXiv arXiv:2404.04475 Papel
[93] Zheng, Lianmin e Chiang, Wei-Lin e Sheng, Ying e Zhuang, Siyuan e Wu, Zhanghao e Zhuang, Yonghao e Lin, Zi e Li, Zhuohan e Li, Dacheng e Xing, Eric e outros. 2023. Julgando llm-as-juiz com mt-bench e chatbot arena . Artigo sobre Avanços em Sistemas de Processamento de Informação Neural
[94] Lin, Bill Yuchen e Deng, Yuntian e Chandu, Khyathi e Brahman, Faeze e Ravichander, Abhilasha e Pyatkin, Valentina e Dziri, Nouha e Bras, Ronan Le e Choi, Yejin. 2024. WILDBENCH: Comparando LLMs com tarefas desafiadoras de usuários reais na natureza . Pré-impressão arXiv arXiv:2406.04770 Papel
[95] Po-Nien Kung e Nanyun Peng. 2023. Os modelos realmente aprendem a seguir as instruções? Um estudo empírico de ajuste de instrução . LCA. Papel
[96] Chunting Zhou e Pengfei Liu e Puxin Xu e Srini Iyer e Jiao Sun e Yuning Mao e Xuezhe Ma e Avia Efrat e Ping Yu e L. Yu e Susan Zhang e Gargi Ghosh e Mike Lewis e Luke Zettlemoyer e Omer Levy. 2023a. LIMA: Menos é mais para alinhamento . NeurIPS 2023. Artigo
[97] Lin, Bill Yuchen e Ravichander, Abhilasha e Lu, Ximing e Dziri, Nouha e Sclar, Melanie e Chandu, Khyathi e Bhagavatula, Chandra e Choi, Yejin. 2023a. "O feitiço de desbloqueio nos ILMs básicos: Repensando o alinhamento por meio do aprendizado no contexto" . ICLR 2024. Artigo
Se você tiver alguma dúvida ou sugestão, sinta-se à vontade para criar um problema ou enviar um e-mail para [email protected]
.