Este repositorio contiene recursos a los que se hace referencia en el artículo Ajuste de instrucciones para modelos de lenguaje grandes: una encuesta.
Si encuentra útil este repositorio, cite lo siguiente:
@article{zhang2023instruction,
title={Instruction Tuning for Large Language Models: A Survey},
author={Zhang, Shengyu and Dong, Linfeng and Li, Xiaoya and Zhang, Sen and Sun, Xiaofei and Wang, Shuhe and Li, Jiwei and Hu, Runyi and Zhang, Tianwei and Wu, Fei and others},
journal={arXiv preprint arXiv:2308.10792},
year={2023}
}
¡Manténganse al tanto! ¡Se actualizarán más trabajos relacionados!
El ajuste de instrucciones (TI) se refiere al proceso de capacitación adicional de modelos de lenguaje grandes (LLM) en un conjunto de datos que consta de pares (instruction, output)
de manera supervisada, lo que cierra la brecha entre el objetivo de predicción de la siguiente palabra de los LLM y los usuarios. 'Objetivo de que los LLM se adhieran a las instrucciones humanas. El proceso general de ajuste de instrucciones se muestra a continuación:
En el artículo, hacemos una revisión sistemática de la literatura, incluyendo la metodología general de TI, la construcción de conjuntos de datos de TI, el entrenamiento de modelos de TI y aplicaciones a diferentes modalidades, dominios y aplicaciones, junto con un análisis de los aspectos que influyen en la resultado de TI (por ejemplo, generación de resultados de instrucción, tamaño del conjunto de datos de instrucción, etc.). También revisamos los peligros potenciales de la TI junto con las críticas en su contra, junto con los esfuerzos que señalan las deficiencias actuales de las estrategias existentes y sugerimos algunas vías para una investigación fructífera. La tipología del artículo es la siguiente:
Tipo | Nombre del conjunto de datos | Papel | Proyecto | # de instrucciones | # de Lang | Construcción | Código abierto |
---|---|---|---|---|---|---|---|
Hecho a mano por humanos | Control de calidad unificado [1] | papel | proyecto | 750K | es | hecho por humanos | Sí |
SKG unificado [2] | papel | proyecto | 0,8 millones | es | hecho por humanos | Sí | |
Instrucciones naturales [3] | papel | proyecto | 193K | es | hecho por humanos | Sí | |
Instrucciones sobrenaturales [4] | papel | proyecto | 5M | 55 idiomas | hecho por humanos | Sí | |
P3 [5] | papel | proyecto | 12M | es | hecho por humanos | Sí | |
xP3 [6] | papel | proyecto | 81M | 46 idiomas | hecho por humanos | Sí | |
Flan 2021 [7] | papel | proyecto | 4,4 millones | es | hecho por humanos | Sí | |
COI [8] | papel | proyecto | - | - | - | Sí | |
Instruir a GPT [9] | papel | - | 13K | Multi | hecho por humanos | No | |
plataforma rodante [10] | papel | proyecto | 15K | es | hecho por humanos | Sí | |
LIMA [11] | papel | proyecto | 1K | es | hecho por humanos | Sí | |
ChatGPT [12] | papel | - | - | Multi | hecho por humanos | No | |
Asistente abierto [13] | papel | proyecto | 161,443 | Multi | hecho por humanos | Sí | |
Datos sintéticos (destilación) | OIG [14] | - | proyecto | 43M | es | ChatGPT (No hay informes técnicos) | Sí |
Instrucciones antinaturales [3] | papel | proyecto | 240K | es | InstructGPT generado | Sí | |
Instruir salvaje [15] | - | proyecto | 104K | - | Generado por ChatGPT | Sí | |
Evol-Instrucción / WizardLM [16] | papel | proyecto | 52K | es | Generado por ChatGPT | Sí | |
alpacas [17] | - | proyecto | 52K | es | InstructGPT generado | Sí | |
LógicaT [18] | papel | proyecto | - | es | Generado por GPT-4 | Sí | |
GPT-4-LLM [19] | papel | proyecto | 52K | En&Zh | Generado por GPT-4 | Sí | |
Vicuña [20] | - | proyecto | 70K | es | Conversaciones reales de usuario-ChatGPT | No | |
Bayeta v1 [21] | papel | proyecto | 111,5K | es | Generado por ChatGPT | Sí | |
UltraChat [22] | papel | proyecto | 675K | En&Zh | GPT 3/4 generado | Sí | |
Guanaco [23] | - | proyecto | 534,530 | Multi | GPT (versión desconocida): generada | Sí | |
Orca [24] | papel | proyecto | 1,5 millones | es | GPT 3.5/4 generado | Sí | |
CompartirGPT | - | proyecto | 90K | Multi | Conversaciones reales de usuario-ChatGPT | Sí | |
Chat salvaje | - | proyecto | 150K | Multi | Conversaciones reales de usuario-ChatGPT | Sí | |
AsistenteCodificador [25] | papel | - | - | Código | LLaMa 2-Generado | No | |
Magicodificador [26] | papel | proyecto | 75K/110K | Código | GPT-3.5 generado | Sí | |
Codificador de ondas [27] | papel | - | - | Código | GPT 4-generado | No | |
Fi-1 [28] | papel | proyecto | Fichas 6B | Código Q y A | GPT-3.5 generado | Sí | |
Fi-1.5 [29] | papel | - | - | Código Q y A | GPT-3.5 generado | No | |
Néctar [30] | papel | proyecto | ~183K | es | GPT 4-generado | Sí | |
Datos sintéticos (superación personal) | Autoinstrucción [31] | papel | proyecto | 52K | es | InstructGPT generado | Sí |
Retrotraducción de instrucciones [32] | papel | - | 502K | es | Generado por LLaMa | No | |
GIRO [33] | papel | proyecto | 49,8K | es | Generado por Zephyr | Sí |
Nombre del modelo | # parámetros | Papel | Proyecto | Modelo básico | Conjunto de tren de instrucciones | ||
---|---|---|---|---|---|---|---|
autoconstrucción | Nombre | Tamaño | |||||
Instruir a GPT [9] | 176B | papel | - | GPT-3 [36] | Sí | - | - |
FLORECIMIENTO [34] | 176B | papel | proyecto | FLORAR [37] | No | xP3 | - |
FLAN-T5 [35] | 11B | papel | proyecto | T5 [38] | No | FLAN 2021 | - |
alpacas [17] | 7B | - | proyecto | LLAMA [39] | Sí | - | 52K |
Vicuña [20] | 13B | - | proyecto | LLAMA [39] | Sí | - | 70K |
GPT-4-LLM [19] | 7B | papel | proyecto | LLAMA [39] | Sí | - | 52K |
Claudio [40] | - | papel | - | - | Sí | - | - |
AsistenteLM [16] | 7B | papel | proyecto | LLAMA [39] | Sí | Evol-Instruir | 70K |
ChatGLM2 [41] | 6B | papel | proyecto | GLM[41] | Sí | - | 1.1 Fichas |
LIMA [11] | 65B | papel | proyecto | LLAMA [39] | Sí | 1K | |
OPT-IML [42] | 175B | papel | proyecto | OPTAR [43] | No | - | - |
Carro 2.0 [44] | 12B | - | proyecto | Pitia [45] | No | - | 15K |
Instrucción Halcón [46] | 40B | papel | proyecto | Halcón [46] | No | - | - |
Guanaco [23] | 7B | - | proyecto | LLAMA [39] | Sí | - | 586K |
Minotauro [47] | 15B | - | proyecto | Codificador Star Plus [48] | No | - | - |
Nous-Hermes [49] | 13B | - | proyecto | LLAMA [39] | No | - | 300K+ |
TÜLU [50] | 6,7 mil millones | papel | proyecto | OPTAR [43] | No | Mezclado | - |
YuLan-Chat [51] | 13B | - | proyecto | LLAMA [39] | Sí | - | 250K |
MUSGO [52] | 16B | - | proyecto | - | Sí | - | - |
Airóboros [53] | 13B | - | proyecto | LLAMA [39] | Sí | - | - |
UltraLM [22] | 13B | papel | proyecto | LLAMA [39] | Sí | - | - |
Nombre del conjunto de datos | Papel | Proyecto | Modalidades | # Tareas | |
---|---|---|---|---|---|
Modalidad Par | # Instancia | ||||
MULTIINSTRUCCIÓN [54] | papel | proyecto | Imagen-Texto | 5K a 5M por tarea | 62 |
PMC-VQA [55] | papel | proyecto | Imagen-Texto | 227K | 9 |
LAMM [56] | papel | proyecto | Imagen-Texto | 186K | 9 |
Texto de nube de puntos | 10K | 3 | |||
Visión-Flan [57] | papel | proyecto | Pares múltiples | ~1M | 200+ |
ALÁVA [58] | papel | proyecto | Imagen-Texto | 1,4 millones | 2 |
CompartirGPT4V [59] | papel | proyecto | Imagen-Texto | 1,2 millones | 2 |
Nombre del modelo | # parámetros | Papel | Proyecto | Modalidad | Modelo básico | conjunto de trenes | ||
---|---|---|---|---|---|---|---|---|
Nombre del modelo | # parámetros | autoconstrucción | Tamaño | |||||
InstruirPix2Pix [60] | 983M | papel | proyecto | Imagen-Texto | Difusión estable [62] | 983M | Sí | 450K |
LLaVA [61] | 13B | papel | proyecto | Imagen-Texto | CLIP [63] | 400M | Sí | 158K |
LLAMA [39] | 7B | |||||||
LLAMA [39] | 7B | |||||||
Vídeo-LLaMA [64] | - | papel | proyecto | Imagen-Texto-Video-Audio | BIP-2 [65] | - | No | - |
Enlace de imagen [66] | - | |||||||
Vicuña[20] | 7B/13B | |||||||
InstruirBLIP [67] | 12B | papel | proyecto | Imagen-Texto-Video | BIP-2 [65] | - | No | - |
Nutria [68] | - | papel | proyecto | Imagen-Texto-Video | AbiertoFlamingo [69] | 9B | Sí | 2,8 millones |
GPT multimodal [70] | - | papel | proyecto | Imagen-Texto-Video | AbiertoFlamingo [69] | 9B | No | - |
Dominio | Nombre del modelo | # parámetros | Papel | Proyecto | Modelo básico | Tamaño del tren |
---|---|---|---|---|---|---|
Médico | Radiología-GPT [71] | 7B | papel | proyecto | Alpaca[17] | 122K |
ChatDoctor [72] | 7B | papel | proyecto | LLAMA [39] | 122K | |
ChatGLM-Med [73] | 6B | - | proyecto | ChatGLM [41] | - | |
Escribiendo | Escritura-Alpaca [74] | 7B | papel | - | LLAMA [39] | - |
CoEdición [75] | 11B | papel | proyecto | FLAN-T5 [7] | 82K | |
CoPoeta [76] | 11B | papel | proyecto | T5[38] | - | |
Generación de código | AsistenteCodificador [25] | 15B | papel | proyecto | Codificador de estrellas [48] | 78K |
Análisis de sentimiento | TI-MTL [77] | 220M | papel | proyecto | T5[38] | - |
Aritmética | Cabra [78] | 7B | papel | proyecto | LLAMA [39] | 1,0 millones |
Extracción de información | Instruir a la UIE [79] | 11B | papel | proyecto | FLAN-T5 [7] | 1,0 millones |
Nombre | Papel | Proyecto |
---|---|---|
LORA [80] | papel | proyecto |
PISTA [81] | papel | proyecto |
QLoRA [82] | papel | proyecto |
LOMO [83] | papel | proyecto |
Sintonización delta [84] | papel | proyecto |
Evaluaciones cerradas | Papel | Proyecto |
---|---|---|
Comprensión masiva del lenguaje multitarea (MMLU) [85] | papel | proyecto |
MATEMÁTICAS [86] | papel | proyecto |
GSM8K [87] | papel | proyecto |
BIG-Bench Duro (BBH) [88] | papel | proyecto |
Evaluación Humana [89] | papel | proyecto |
Valor IFE [90] | papel | proyecto |
Evaluaciones basadas en GPT | Papel | Proyecto |
---|---|---|
Evaluación de alpaca [91] | - | proyecto |
AlpacaEval de longitud controlada [92] | papel | proyecto |
Banco MT [93] | papel | proyecto |
Banco salvaje [94] | papel | proyecto |
[1] Khashabi, Daniel, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark y Hannaneh Hajishirzi. "Unifiedqa: cruzando los límites del formato con un único sistema de control de calidad" . Preimpresión de arXiv arXiv:2005.00700 (2020). Papel
[2] Tianbao Xie, Chen Henry Wu, Peng Shi, Ruiqi Zhong, Torsten Scholak, Michihiro Yasunaga, Chien-Sheng Wu, Ming Zhong, Pengcheng Yin, Sida I. Wang, Victor Zhong, Bailin Wang, Chengzu Li, Connor Boyle, Ansong Ni, Ziyu Yao, Dragomir R. Radev, Caiming Xiong, Lingpeng Kong, Rui Zhang, Noah A. Smith, Luke Zettlemoyer y Tao Yu. Unifiedskg: base de conocimiento estructurado unificador y multitarea con modelos de lenguaje de texto a texto . En Conferencia sobre métodos empíricos en el procesamiento del lenguaje natural, 2022. Artículo
[3] Mishra, Swaroop y Khashabi, Daniel y Baral, Chitta y Hajishirzi, Hannaneh. Instrucciones antinaturales: ajuste de modelos de lenguaje sin (casi) ningún trabajo humano . Preimpresión de arXiv arXiv:2212.09689, 2022. Papel
[3] O Honovich, Thomas Scialom, Omer Levy y Timo Schick. Instrucciones antinaturales: ajuste de modelos de lenguaje sin (casi) ningún trabajo humano . Preimpresión de arXiv arXiv:2212.09689, 2022. Papel
[4] Yizhong Wang, Swaroop Mishra, Pegah Alipoormolabashi, Yeganeh Kordi, Amirreza Mirzaei, Anjana Arunkumar, Arjun Ashok, Arut Selvan Dhanasekaran, Atharva Naik, David Stap, et al. Instrucciones sobrenaturales: generalización mediante instrucciones declarativas en más de 1600 tareas . En EMNLP, 2022. Artículo
[5] Victor Sanh, Albert Webson, Colin Raffel, Stephen H Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, et al. La capacitación impulsada por tareas múltiples permite la generalización de tareas inmediatas . Preimpresión de arXiv arXiv:2110.08207, 2021. Papel
[6] Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, Teven Le Scao, M Saiful Bari, Sheng Shen, Zheng-Xin Yong, Hailey Schoelkopf, et al. "Generalización multilingüe mediante ajuste multitarea" . Preimpresión de arXiv arXiv:2211.01786, 2022. Papel
[7] Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung Won Chung, Yi Tay, Denny Zhou, Quoc V Le, Barret Zoph, Jason Wei, et al. La colección de flan: diseño de datos y métodos para un ajuste eficaz de la instrucción . Preimpresión de arXiv arXiv:2301.13688, 2023. Papel
[8] Ge Zhang, Yemin Shi, Ruibo Liu, Ruibin Yuan, Yizhi Li, Siwei Dong, Yu Shu, Zhaoqun Li, Zekun Wang, Chenghua Lin, Wen-Fen Huang y Jie Fu. "Generalista chino de instrucción abierta: un lanzamiento preliminar" . ArXiv, abs/2304.07987, 2023. Documento
[9] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Entrenar modelos de lenguaje para seguir instrucciones con retroalimentación humana . Avances en sistemas de procesamiento de información neuronal, 35:27730–27744, 2022. Artículo
[10] Mike Conover, Matt Hayes, Ankit Mathur, Xiangrui Meng, Jianwei Xie, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia, et al. Free Dolly: Presentamos la primera película del mundo verdaderamente abierta y adaptada a instrucciones , 2023. Documento
[11] Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, L. Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer y Omer Levy. Lima: Menos es más para la alineación . ArXiv, abs/2305.11206, 2023. Documento
[12] OpenAI. Presentamos chatgpt . Publicación de blog openai.com/blog/chatgpt, 2022. Documento
[13] Andreas Köpf, Yannic Kilcher, Dimitri von Rütte, Sotiris Anagnostidis, Zhi-Rui Tam, Keith Stevens, Abdullah Barhoum, Nguyen Minh Duc, Oliver Stanley, Richárd Nagyfi, et al. "Conversaciones de Openassistant: democratizando la alineación de modelos de lenguaje grandes" . Preimpresión de arXiv arXiv:2304.07327, 2023. Papel
[14] LAION.ai. Oig: el conjunto de datos generalistas de instrucción abierta , 2023.
[15] Fuzhao Xue, Kabir Jain, Mahir Hitesh Shah, Zangwei Zheng y Yang You. "Instrucción en la naturaleza: un conjunto de datos de instrucciones basado en el usuario" . github.com/XueFuzhao/InstructionWild,2023
.
[16] Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao y Daxin Jiang. Wizardlm: Potenciar modelos de lenguaje grandes para seguir instrucciones complejas , 2023. Artículo
[17] Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang y Tatsunori B Hashimoto. "Alpaca: un modelo de seguimiento de instrucciones sólido y replicable" . Centro de Investigación sobre Modelos de Cimentaciones de Stanford. https://crfm.stanford.edu/2023/03/13/alpaca.html
, 3(6):7, 2023.
[18] Hanmeng Liu, Zhiyang Teng, Leyang Cui, Chaoli Zhang, Qiji Zhou y Yue Zhang. Logicot: recopilación de datos de ajuste de instrucciones de cadena de pensamiento lógica con gpt-4 . ArXiv, abs/2305.12147, 2023. Documento
[19] Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley y Jianfeng Gao. Ajuste de instrucciones con gpt-4 . Preimpresión de arXiv arXiv:2304.03277, 2023. Papel
[20] Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E González, et al. "Vicuña: un chatbot de código abierto que impresiona a gpt-4 con un 90% de calidad de chatgpt" . Véase https://vicuna.lmsys.org
(consultado el 14 de abril de 2023), 2023.
[21] Canwen Xu y Daya Guo y Nan Duan y Julian McAuley. Baize: un modelo de chat de código abierto con ajuste eficiente de parámetros en datos de autochat . Papel
[22] Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun y Bowen Zhou. Mejorar los modelos de lenguaje de chat ampliando conversaciones instructivas de alta calidad . Preimpresión de arXiv arXiv:2305.14233, 2023. Papel
[23] Josefo Cheung. Guanaco: asistente universal generativo para resultados omnilingües adaptativos y conscientes del contexto en lenguaje natural , 2021.
[24] Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal, Hamid Palangi y Ahmed Awadallah. 2023. Orca: Aprendizaje progresivo a partir de rastros explicativos complejos de gpt-4. Preimpresión de arXiv arXiv:2306.02707. Papel
[25] Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin y Daxin Jiang. 2023. Wizardcoder: potenciación de códigos de modelos de lenguaje grandes con evol-instruct. Papel
[26] Yuxiang Wei, Zhe Wang, Jiawei Liu, Yifeng Ding y Lingming Zhang. 2023b. Magicoder: El código fuente es todo lo que necesitas. Preimpresión de arXiv arXiv:2312.02120. Papel
[27] Zhaojian Yu, Xin Zhang, Ning Shang, Yangyu Huang, Can Xu, Yishujie Zhao, Wenxiang Hu y Qiufeng Yin. 2023. Wavecoder: ajuste de instrucciones mejorado, generalizado y versátil con generación de datos refinada. Preimpresión de arXiv arXiv:2312.14187. Papel
[28] Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, et al. 2023. Todo lo que necesitas son libros de texto. Preimpresión de arXiv arXiv:2306.11644. Papel
[29] Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar y Yin Tat Lee. 2023 h. Los libros de texto son todo lo que necesita ii: informe técnico de phi-1.5. Preimpresión de arXiv arXiv:2309.05463. Papel
[30] Banghua Zhu, Evan Frick, Tianhao Wu, Hanlin Zhu y Jiantao Jiao. 2023a. Starling-7b: Mejora de la utilidad y la inocuidad de las películas con rlaif. Papel
[31] Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A Smith, Daniel Khashabi y Hannaneh Hajishirzi. Autoinstrucción: alinear el modelo de lenguaje con instrucciones autogeneradas . Preimpresión de arXiv arXiv:2212.10560, 2022. Papel
[32] Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Luke Zettlemoyer, Omer Levy, Jason Weston y Mike Lewis. 2023g. Autoalineación con retrotraducción de instrucciones. Preimpresión de arXiv arXiv:2308.06259. Papel
[33] Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji y Quanquan Gu. 2024. El ajuste fino del juego automático convierte modelos de lenguaje débiles en modelos de lenguaje fuertes. Preimpresión de arXiv arXiv:2401.01335. Papel
[34] Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, Teven Le Scao, M Saiful Bari, Sheng Shen, Zheng-Xin Yong, Hailey Schoelkopf, et al. 2022. Generalización multilingüe mediante ajuste multitarea. Preimpresión de arXiv arXiv:2211.01786. Papel
[35] Hyung Won Chung, Le Hou, S. Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen , Aakanksha Chowdhery, Dasha Valter, Sharan Narang, Gaurav Mishra, Adams Wei Yu, Vincent Zhao, Yanping Huang, Andrew M. Dai, Hongkun Yu, Slav Petrov, Ed Huai hsin Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le y Jason Wei. "Escalar modelos de lenguaje ajustados a la instrucción" . ArXiv, abs/2210.11416, 2022. Documento
[36] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, TJ Henighan, Rewon Niño, Aditya Ramesh, Daniel M. Ziegler, Jeff Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever y Dario Amodei. Los modelos de lenguaje son aprendices de pocas oportunidades . ArXiv, abs/2005.14165, 2020. Artículo
[37] Scao, Teven Le, Angela Fan, Christopher Akiki, Ellie Pavlick, Suzana Ilić, Daniel Hesslow, Roman Castagné et al. Bloom: un modelo de lenguaje multilingüe de acceso abierto con parámetros 176b . Preimpresión de arXiv arXiv:2211.05100 (2022). Papel
[38] Colin Raffel, Noam M. Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li y Peter J. Liu. Explorando los límites del aprendizaje por transferencia con un transformador unificado de texto a texto . ArXiv, abs/1910.10683, 2019. Documento
[39] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aur'elien Rodriguez, Armand Joulin, Edouard Grave y Guillaume Lample. Llama: modelos de lenguaje básico abiertos y eficientes . ArXiv, abs/2302.13971, 2023. Papel
[40] Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, et al. IA constitucional: inocuidad de la retroalimentación de IA . Preimpresión de arXiv arXiv:2212.08073, 2022. Papel
[41] Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang y Jie Tang. Glm: preentrenamiento del modelo de lenguaje general con relleno de espacios en blanco autorregresivo . En Actas de la 60.a reunión anual de la Asociación de Lingüística Computacional (Volumen 1: Artículos extensos), páginas 320–335, 2022.
[42] Srinivas Iyer, Xiaojuan Lin, Ramakanth Pasunuru, Todor Mihaylov, Daniel Simig, Ping Yu, Kurt Shuster, Tianlu Wang, Qing Liu, Punit Singh Koura, Xian Li, Brian O'Horo, Gabriel Pereyra, Jeff Wang, Christopher Dewan , Asli Celikyilmaz, Luke Zettlemoyer y Veselin Stoyanov. "Opt-iml: escalamiento del metaaprendizaje de instrucción de modelos de lenguaje a través de la lente de la generalización" . ArXiv, abs/2212.12017, 2022. Documento
[43] Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona T. Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig , Punit Singh Koura, Anjali Sridhar, Tianlu Wang y Luke Zettlemoyer. 2022a. Optar: Abrir modelos de lenguaje transformador previamente entrenados. ArXiv, abs/2205.01068. Papel
[44] Mike Conover, Matt Hayes, Ankit Mathur, Xiangrui Meng, Jianwei Xie, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia, et al. Plataforma rodante gratuita: presentamos la primera película del mundo verdaderamente abierta y adaptada a instrucciones , 2023.
[45] Stella Rose Biderman, Hailey Schoelkopf, Quentin G. Anthony, Herbie Bradley, Kyle O'Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, USVSN Sai Prashanth, Edward Raff, Aviya Skowron, Lintang Sutawika y Oskar van der Wal. Pythia: una suite para analizar modelos de lenguaje grandes a través del entrenamiento y el escalado . ArXiv, abs/2304.01373, 2023. Documento
[46] Ebtesam Almazrouei, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, Merouane Debbah, Etienne Goffinet, Daniel Heslow, Julien Launay, Quentin Malartic, Badreddine Noune, Baptiste Pannier y Guilherme Penedo. Falcon-40B: un modelo de lenguaje abierto de gran tamaño con rendimiento de última generación . 2023. Papel
[47] Colectivo OpenAccess AI . software: huggingface.co/openaccess-ai-collective/minotaur-15b, 2023.
[48] Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov, Chenghao Mou, Marc Marone, Christopher Akiki, Jia Li, Jenny Chim, et al. Starcoder: ¡que la fuente te acompañe ! Preimpresión de arXiv arXiv:2305.06161, 2023. Papel
[49] NousResearch . software: huggingface.co/NousResearch/Nous-Hermes-13b, 2023.
[50] Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy y Hanna Hajishirzi. ¿Hasta dónde pueden llegar los camellos? Explorando el estado de la instrucción sintonizando recursos abiertos . ArXiv, abs/2306.04751, 2023. Documento
[51] YuLan-Chat-Equipo. Yulan-chat: un chatbot bilingüe de código abierto . github.com/RUC-GSAI/YuLan-Chat, 2023.
[52] Sun Tianxiang y Qiu Xipeng. musgo . Publicación de blog txsun1997.github.io/blogs/moss.html, 2023.
[53] Jon Durbin. Airóboros . software: github.com/jondurbin/airoboros, 2023.
[54] Zhiyang Xu, Ying Shen y Lifu Huang. "Multiinstrucción: mejora del aprendizaje multimodal de disparo cero mediante el ajuste de instrucciones" . ArXiv, abs/2212.10773, 2022. Documento
[55] Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao, Weixiong Lin, Ya Zhang, Yanfeng Wang y Weidi Xie. Pmc-vqa: ajuste de instrucciones visuales para respuesta visual a preguntas médicas . ArXiv, abs/2305.10415. 2023. Papel
[56] Zhenfei Yin, Jiong Wang, Jianjian Cao, Zhelun Shi, Dingning Liu, Mukai Li, Lu Sheng, Lei Bai, Xiaoshui Huang, Zhiyong Wang, Wanli Ouyang y Jing Shao. "Lamm: conjunto de datos, marco y punto de referencia de ajuste de instrucción multimodal asistida por lenguaje" . ArXiv, abs/2306.06687, 2023. Documento
[57] Zhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang y Lifu Huang. 2024. Vision-flan: ampliación de tareas etiquetadas por humanos en el ajuste de instrucciones visuales. preimpresión de arXiv arXiv:2402.11690. Papel
[58] Guiming Hardy Chen, Shunian Chen, Ruifei Zhang, Junying Chen, Xiangbo Wu, Zhiyi Zhang, Zhihong Chen, Jianquan Li, Xiang Wan y Benyou Wang. 2024a. Allava: Aprovechamiento de datos sintetizados con gpt4v para un modelo ligero de visión y lenguaje. Preimpresión de arXiv arXiv:2402.11684. Papel
[59] Lin Chen, Jisong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao y Dahua Lin. 2023a. Sharegpt4v: Mejora de modelos multimodales grandes con mejores títulos. preimpresión de arXiv arXiv:2311.12793. Papel
[60] Tim Brooks, Aleksander Holynski y Alexei A. Efros. Instructpix2pix: aprender a seguir instrucciones de edición de imágenes . ArXiv, abs/2211.09800, 2022. Documento
[61] Haotian Liu, Chunyuan Li, Qingyang Wu y Yong Jae Lee. Ajuste de instrucciones visuales . ArXiv, abs/2304.08485, 2023. Documento
[62] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser y Björn Ommer. Síntesis de imágenes de alta resolución con modelos de difusión latente . En Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 10684–10695, 2022. Artículo
[63] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger e Ilya Sutskever. "Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural" . En Conferencia Internacional sobre Aprendizaje Automático, 2021. Artículo
[64] Hang Zhang, Xin Li y Lidong Bing. Videollama: un modelo de lenguaje audiovisual adaptado a las instrucciones para la comprensión de vídeos . Preimpresión de arXiv arXiv:2306.02858, 2023. Papel
[65] Junnan Li, Dongxu Li, Silvio Savarese y Steven Hoi. "BLIP-2: arranque del entrenamiento previo de imágenes y lenguaje con codificadores de imágenes congeladas y modelos de lenguaje grandes" . En ICML, 2023. Artículo
[66] Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin e Ishan Misra. Imagebind: un espacio de incrustación para vincularlos a todos . En CVPR, 2023. Artículo
[67] Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung y Steven Hoi. "Instructblip: hacia modelos de visión y lenguaje de propósito general con ajuste de instrucción" . ArXiv, abs/2305.06500, 2023. Papel
[68] Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Jingkang Yang y Ziwei Liu. "Otter: un modelo multimodal con ajuste de instrucciones en contexto" . ArXiv, abs/2305.03726, 2023. Documento
[69] Anas Awadalla, Irena Gao, Joshua Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Jenia Jitsev, et al. Openflamingo , 2023.
[70] Tao Gong, Chengqi Lyu, Shilong Zhang, Yudong Wang, Miao Zheng, Qianmengke Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo y Kai Chen. Multimodal-gpt: Un modelo de visión y lenguaje para el diálogo con humanos . ArXiv, abs/2305.04790, 2023. Papel
[71] Zheng Liu, Aoxiao Zhong, Yiwei Li, Longtao Yang, Chao Ju, Zihao Wu, Chong Ma, Peng Shu, Cheng Chen, Sekeun Kim, Haixing Dai, Lin Zhao, Dajiang Zhu, Jun Liu, Wei Liu, Dinggang Shen , Xiang Li, Quanzheng Li y Tianming Liu. Radiology-gpt: un modelo de lenguaje amplio para radiología . 2023. Papel
[72] Yunxiang Li, Zihan Li, Kai Zhang, Ruilong Dan y You Zhang. Chatdoctor: un modelo de chat médico ajustado al modelo llama utilizando conocimientos del dominio médico . ArXiv, abs/2303.14070, 2023. Papel
[73] Sendong Zhao Bing Qin Ting Liu Haochun Wang, Chi Liu. Chatglm-med. github.com/SCIR-HI/Med-ChatGLM , 2023.
[74] Yue Zhang, Leyang Cui, Deng Cai, Xinting Huang, Tao Fang y Wei Bi. 2023d. Ajuste de instrucción multitarea de llama para escenarios específicos: un estudio preliminar sobre asistencia en escritura. ArXiv, abs/2305.13225. Papel
[75] Vipul Raheja, Dhruv Kumar, Ryan Koo y Dongyeop Kang. 2023. Coedición: edición de texto mediante ajuste de instrucciones específicas de la tarea. ArXiv, abs/2305.09857. Papel
[76] Tuhin Chakrabarty, Vishakh Padmakumar y Hengxing He. 2022. Ayúdame a escribir un poema-instrucción afinado como vehículo para la escritura colaborativa de poesía. ArXiv, abs/2210.13669. Papel
[77] Siddharth Varia, Shuai Wang, Kishaloy Halder, Robert Vacareanu, Miguel Ballesteros, Yassine Benajiba, Neha Ann John, Rishita Anubhai, Smaranda Muresan y Dan Roth. 2022. Ajuste de instrucciones para análisis de sentimiento basado en aspectos de pocas tomas. ArXiv, abs/2210.06629. Papel
[78] Tiedong Liu y Bryan Kian Hsiang. "Cabra: llama afinada supera a gpt-4 en tareas aritméticas" . Preimpresión de arXiv arXiv:2305.14201, 2023. Papel
[79] Xiao Wang, Wei Zhou, Can Zu, Han Xia, Tianze Chen, Yuan Zhang, Rui Zheng, Junjie Ye, Qi Zhang, Tao Gui, Jihua Kang, J. Yang, Siyuan Li y Chunsai Du. Instructuie: Ajuste de instrucciones multitarea para la extracción de información unificada . ArXiv, abs/2304.08085, 2023. Documento
[80] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang y Weizhu Chen. 2021. Lora: Adaptación de bajo rango de modelos de lenguaje grandes . Preimpresión de arXiv arXiv:2106.09685. Papel
[81] Hamish Ivison, Akshita Bhagia, Yizhong Wang, Hannaneh Hajishirzi y Matthew E. Peters. 2022. Sugerencia: ajuste de instrucciones de hiperred para una generalización eficiente y de disparo cero . ArXiv, abs/2212.10315. Papel
[82] Tim Dettmers, Artidoro Pagnoni, Ari Holtzman y Luke Zettlemoyer. 2023. Qlora: ajuste eficiente de películas cuantificadas . arXiv preimpresión arXiv:2305.14314. Papel
[83] Kai Lv, Yuqing Yang, Tengxiao Liu, Qi jie Gao, Qipeng Guo y Xipeng Qiu. 2023. Ajuste completo de parámetros para modelos de lenguaje grandes con recursos limitados . Papel
[84] Weize Chen, Jing Yi, Weilin Zhao, Xiaozhi Wang, Zhiyuan Liu, Haitao Zheng, Jianfei Chen, Y. Liu, Jie Tang, Juanzi Li y Maosong Sun. 2023b. "Ajuste eficiente de parámetros de modelos de lenguaje pre-entrenados a gran escala" . Inteligencia de las máquinas de la naturaleza, 5:220–235. Papel
[85] Hendrycks, Dan y Burns, Collin y Basart, Steven y Zou, Andy y Mazeika, Mantas y Song, Dawn y Steinhardt, Jacob. 2020a. Medición de la comprensión masiva del lenguaje multitarea . arXiv:2009.03300. Papel
[86] Hendrycks, Dan y Burns, Collin y Kadavath, Saurav y Arora, Akul y Basart, Steven y Tang, Eric y Song, Dawn y Steinhardt, Jacob. 2021. Medición de la resolución de problemas matemáticos con el conjunto de datos matemáticos . Preimpresión de arXiv arXiv:2103.03874. Papel
[87] Karl Cobbe y Vineet Kosaraju y Mohammad Bavarian y Mark Chen y Heewoo Jun y Lukasz Kaiser y Matthias Plappert y Jerry Tworek y Jacob Hilton y Reiichiro Nakano y Christopher Hesse y John Schulman. 2021. Capacitación de verificadores para resolver problemas matemáticos planteados . Papel
[88] Suzgun, Mirac y Scales, Nathan y Sch{"a}rli, Nathanael y Gehrmann, Sebastian y Tay, Yi y Chung, Hyung Won y Chowdhery, Aakanksha y Le, Quoc V y Chi, Ed H y Zhou, Denny y otros 2022a. Tareas desafiantes del gran banco y si la cadena de pensamiento puede resolverlas . arXiv:2210.09261 Papel
[89] Chen, Mark y Tworek, Jerry y Jun, Heewoo y Yuan, Qiming y Pinto, Henrique Ponde De Oliveira y Kaplan, Jared y Edwards, Harri y Burda, Yuri y Joseph, Nicholas y Brockman, Greg y otros. 2021a. Evaluación de modelos de lenguaje grandes entrenados en código . arXiv preimpresión arXiv:2107.03374 Papel
[90] Zhou, Jeffrey y Lu, Tianjian y Mishra, Swaroop y Brahma, Siddhartha y Basu, Sujoy y Luan, Yi y Zhou, Denny y Hou, Le. 2023b. Evaluación de seguimiento de instrucciones para modelos de lenguaje grandes . arXiv preimpresión arXiv:2311.07911 Papel
[91] Xuechen Li y Tianyi Zhang y Yann Dubois y Rohan Taori e Ishaan Gulrajani y Carlos Guestrin y Percy Liang y Tatsunori B. Hashimoto. 2023 h. AlpacaEval: un evaluador automático de modelos que siguen instrucciones . Repositorio de GitHub GitHub
[92] Dubois, Yann y Galambosi, Bal{'a}zs y Liang, Percy y Hashimoto, Tatsunori B. 2024. AlpacaEval controlado por longitud: una forma sencilla de desviar los evaluadores automáticos . arXiv preimpresión arXiv:2404.04475 Papel
[93] Zheng, Lianmin y Chiang, Wei-Lin y Sheng, Ying y Zhuang, Siyuan y Wu, Zhanghao y Zhuang, Yonghao y Lin, Zi y Li, Zhuohan y Li, Dacheng y Xing, Eric y otros. 2023. Juzgar llm-como-juez con mt-bench y chatbot arena . Documento sobre avances en sistemas de procesamiento de información neuronal
[94] Lin, Bill Yuchen y Deng, Yuntian y Chandu, Khyathi y Brahman, Faeze y Ravichander, Abhilasha y Pyatkin, Valentina y Dziri, Nouha y Bras, Ronan Le y Choi, Yejin. 2024. WILDBENCH: Evaluación comparativa de LLM con tareas desafiantes de usuarios reales en la naturaleza . arXiv preimpresión arXiv:2406.04770 Papel
[95] Po-Nien Kung y Nanyun Peng. 2023. ¿Los modelos realmente aprenden a seguir instrucciones? Un estudio empírico sobre el ajuste de la instrucción . LCA. Papel
[96] Chunting Zhou y Pengfei Liu y Puxin Xu y Srini Iyer y Jiao Sun y Yuning Mao y Xuezhe Ma y Avia Efrat y Ping Yu y L. Yu y Susan Zhang y Gargi Ghosh y Mike Lewis y Luke Zettlemoyer y Omer Levy. 2023a. LIMA: Menos es más para el Alineamiento . NeurIPS 2023. Papel
[97] Lin, Bill Yuchen y Ravichander, Abhilasha y Lu, Ximing y Dziri, Nouha y Sclar, Melanie y Chandu, Khyathi y Bhagavatula, Chandra y Choi, Yejin. 2023a. "El hechizo de desbloqueo en las películas básicas: repensar la alineación mediante el aprendizaje en contexto" . ICLR 2024. Documento
Si tiene alguna pregunta o sugerencia, no dude en crear un problema o enviar un correo electrónico a [email protected]
.