このリポジトリには、論文「大規模言語モデルの命令チューニング: 調査」で参照されているリソースが含まれています。
このリポジトリが役立つと思われる場合は、以下を引用してください。
@article{zhang2023instruction,
title={Instruction Tuning for Large Language Models: A Survey},
author={Zhang, Shengyu and Dong, Linfeng and Li, Xiaoya and Zhang, Sen and Sun, Xiaofei and Wang, Shuhe and Li, Jiwei and Hu, Runyi and Zhang, Tianwei and Wu, Fei and others},
journal={arXiv preprint arXiv:2308.10792},
year={2023}
}
乞うご期待!関連作品も随時更新していきます!
命令チューニング (IT) (instruction, output)
ペアで構成されるデータセット上で大規模言語モデル (LLM) を教師あり形式でさらにトレーニングするプロセスを指し、LLM の次の単語の予測目標とユーザーの間のギャップを埋めます。 LLM に人間の指示を遵守させることが目的です。命令チューニングの一般的なパイプラインを以下に示します。
この論文では、IT の一般的な方法論、IT データセットの構築、IT モデルのトレーニング、さまざまなモダリティ、ドメイン、アプリケーションへの適用などの文献を系統的にレビューし、IT に影響を与える側面についての分析を行っています。 IT の成果 (例: 命令出力の生成、命令データセットのサイズなど)。また、既存の戦略の現在の欠陥を指摘する取り組みとともに、IT に対する批判とともに IT の潜在的な落とし穴を検討し、実りある研究への道をいくつか提案します。論文の類型は次のとおりです。
タイプ | データセット名 | 紙 | プロジェクト | 命令の数 | ラングの数 | 工事 | オープンソース |
---|---|---|---|---|---|---|---|
人間が作ったもの | 統合QA [1] | 紙 | プロジェクト | 750K | えん | 人間が作った | はい |
統合SKG [2] | 紙 | プロジェクト | 0.8M | えん | 人間が作った | はい | |
自然な指示 [3] | 紙 | プロジェクト | 193K | えん | 人間が作った | はい | |
超自然な指示 [4] | 紙 | プロジェクト | 5M | 55 ラング | 人間が作った | はい | |
P3 [5] | 紙 | プロジェクト | 12M | えん | 人間が作った | はい | |
xP3 [6] | 紙 | プロジェクト | 81M | 46 ラング | 人間が作った | はい | |
2021年フラン [7] | 紙 | プロジェクト | 4.4M | えん | 人間が作った | はい | |
コイグ [8] | 紙 | プロジェクト | - | - | - | はい | |
GPT を命令する [9] | 紙 | - | 13K | マルチ | 人間が作った | いいえ | |
ドリー [10] | 紙 | プロジェクト | 15K | えん | 人間が作った | はい | |
リマ [11] | 紙 | プロジェクト | 1K | えん | 人間が作った | はい | |
チャットGPT [12] | 紙 | - | - | マルチ | 人間が作った | いいえ | |
オープンアシスタント [13] | 紙 | プロジェクト | 161,443 | マルチ | 人間が作った | はい | |
合成データ(蒸留) | OIG [14] | - | プロジェクト | 43M | えん | ChatGPT (技術レポートなし) | はい |
不自然な指示 [3] | 紙 | プロジェクト | 240K | えん | InstructGPT 生成 | はい | |
インストラクトワイルド [15] | - | プロジェクト | 104K | - | ChatGPT 生成 | はい | |
Evol-Instruct / WizardLM [16] | 紙 | プロジェクト | 52K | えん | ChatGPT 生成 | はい | |
アルパカ [17] | - | プロジェクト | 52K | えん | InstructGPT 生成 | はい | |
ロジコット [18] | 紙 | プロジェクト | - | えん | GPT-4 生成 | はい | |
GPT-4-LLM [19] | 紙 | プロジェクト | 52K | エン&Zh | GPT-4 生成 | はい | |
ビクーニャ [20] | - | プロジェクト | 70K | えん | 実際のユーザーとChatGPTの会話 | いいえ | |
ベイズ v1 [21] | 紙 | プロジェクト | 111.5K | えん | ChatGPT 生成 | はい | |
ウルトラチャット [22] | 紙 | プロジェクト | 675K | エン&Zh | GPT 3/4 で生成 | はい | |
グアナコ [23] | - | プロジェクト | 534,530 | マルチ | GPT (不明なバージョン) で生成される | はい | |
シャチ [24] | 紙 | プロジェクト | 1.5M | えん | GPT 3.5/4 で生成 | はい | |
GPTを共有する | - | プロジェクト | 90K | マルチ | 実際のユーザーとChatGPTの会話 | はい | |
ワイルドチャット | - | プロジェクト | 150K | マルチ | 実際のユーザーとChatGPTの会話 | はい | |
ウィザードコーダー [25] | 紙 | - | - | コード | LLaMa 2 で生成 | いいえ | |
マジコーダー [26] | 紙 | プロジェクト | 75K/110K | コード | GPT-3.5 で生成 | はい | |
ウェーブコーダー [27] | 紙 | - | - | コード | GPT 4 で生成 | いいえ | |
ファイ-1 [28] | 紙 | プロジェクト | 6Bトークン | コードQ&A | GPT-3.5 で生成 | はい | |
ファイ-1.5 [29] | 紙 | - | - | コードQ&A | GPT-3.5 で生成 | いいえ | |
ネクター [30] | 紙 | プロジェクト | ~183K | えん | GPT 4 で生成 | はい | |
合成データ (自己改善) | 自己啓発 [31] | 紙 | プロジェクト | 52K | えん | InstructGPT 生成 | はい |
命令逆変換 [32] | 紙 | - | 502K | えん | LLaMa 生成 | いいえ | |
スピン [33] | 紙 | プロジェクト | 49.8K | えん | ゼファー生成 | はい |
モデル名 | # パラメータ | 紙 | プロジェクト | ベースモデル | 教習列車セット | ||
---|---|---|---|---|---|---|---|
セルフビルド | 名前 | サイズ | |||||
GPT を命令する [9] | 176B | 紙 | - | GPT-3 [36] | はい | - | - |
ブルームズ [34] | 176B | 紙 | プロジェクト | ブルーム [37] | いいえ | xP3 | - |
FLAN-T5 [35] | 11B | 紙 | プロジェクト | T5 [38] | いいえ | フラン 2021 | - |
アルパカ [17] | 7B | - | プロジェクト | ラマ [39] | はい | - | 52K |
ビクーニャ [20] | 13B | - | プロジェクト | ラマ [39] | はい | - | 70K |
GPT-4-LLM [19] | 7B | 紙 | プロジェクト | ラマ [39] | はい | - | 52K |
クロード [40] | - | 紙 | - | - | はい | - | - |
ウィザードLM [16] | 7B | 紙 | プロジェクト | ラマ [39] | はい | Evol-Instruct | 70K |
チャットGLM2 [41] | 6B | 紙 | プロジェクト | GLM[41] | はい | - | 1.1 トークン |
リマ [11] | 65B | 紙 | プロジェクト | ラマ [39] | はい | 1K | |
OPT-IML [42] | 175B | 紙 | プロジェクト | オプト [43] | いいえ | - | - |
ドリー2.0 [44] | 12B | - | プロジェクト | ピティア [45] | いいえ | - | 15K |
ファルコン・インストラクト [46] | 40B | 紙 | プロジェクト | ファルコン [46] | いいえ | - | - |
グアナコ [23] | 7B | - | プロジェクト | ラマ [39] | はい | - | 586K |
ミノタウロス [47] | 15B | - | プロジェクト | スターコーダープラス [48] | いいえ | - | - |
ヌース・エルメス [49] | 13B | - | プロジェクト | ラマ [39] | いいえ | - | 30万以上 |
トゥル [50] | 6.7B | 紙 | プロジェクト | オプト [43] | いいえ | 混合 | - |
ユウランチャット [51] | 13B | - | プロジェクト | ラマ [39] | はい | - | 250K |
モス [52] | 16B | - | プロジェクト | - | はい | - | - |
アイロボロス [53] | 13B | - | プロジェクト | ラマ [39] | はい | - | - |
ウルトラLM [22] | 13B | 紙 | プロジェクト | ラマ [39] | はい | - | - |
データセット名 | 紙 | プロジェクト | モダリティ | # タスク | |
---|---|---|---|---|---|
モダリティペア | # 実例 | ||||
複数命令 [54] | 紙 | プロジェクト | 画像テキスト | タスクあたり 5,000 ~ 5,000 万 | 62 |
PMC-VQA [55] | 紙 | プロジェクト | 画像テキスト | 227K | 9 |
ラム [56] | 紙 | プロジェクト | 画像テキスト | 186K | 9 |
点群テキスト | 10K | 3 | |||
ヴィジョンフラン [57] | 紙 | プロジェクト | マルチペア | ~1M | 200以上 |
アラバ [58] | 紙 | プロジェクト | 画像テキスト | 1.4M | 2 |
ShareGPT4V [59] | 紙 | プロジェクト | 画像テキスト | 1.2M | 2 |
モデル名 | # パラメータ | 紙 | プロジェクト | モダリティ | ベースモデル | 列車セット | ||
---|---|---|---|---|---|---|---|---|
モデル名 | # パラメータ | セルフビルド | サイズ | |||||
命令Pix2Pix [60] | 983M | 紙 | プロジェクト | 画像テキスト | 安定した拡散 [62] | 983M | はい | 450K |
ラヴァ [61] | 13B | 紙 | プロジェクト | 画像テキスト | クリップ [63] | 400M | はい | 158K |
ラマ [39] | 7B | |||||||
ラマ [39] | 7B | |||||||
ビデオ-LLaMA [64] | - | 紙 | プロジェクト | 画像、テキスト、ビデオ、オーディオ | ブリップ2 [65] | - | いいえ | - |
イメージバインド [66] | - | |||||||
ビクーニャ[20] | 7B/13B | |||||||
インストラクトブリップ [67] | 12B | 紙 | プロジェクト | 画像、テキスト、ビデオ | ブリップ2 [65] | - | いいえ | - |
カワウソ [68] | - | 紙 | プロジェクト | 画像、テキスト、ビデオ | オープンフラミンゴ [69] | 9B | はい | 2.8M |
マルチモーダル GPT [70] | - | 紙 | プロジェクト | 画像、テキスト、ビデオ | オープンフラミンゴ [69] | 9B | いいえ | - |
ドメイン | モデル名 | # パラメータ | 紙 | プロジェクト | ベースモデル | 列車のサイズ |
---|---|---|---|---|---|---|
医学 | 放射線学-GPT [71] | 7B | 紙 | プロジェクト | アルパカ[17] | 122K |
チャットドクター [72] | 7B | 紙 | プロジェクト | ラマ [39] | 122K | |
チャットGLM-Med [73] | 6B | - | プロジェクト | チャットGLM [41] | - | |
書き込み | ライティング-アルパカ [74] | 7B | 紙 | - | ラマ [39] | - |
共同編集 [75] | 11B | 紙 | プロジェクト | FLAN-T5 [7] | 82K | |
共詩人 [76] | 11B | 紙 | プロジェクト | T5[38] | - | |
コード生成 | ウィザードコーダー [25] | 15B | 紙 | プロジェクト | スターコーダー [48] | 78K |
感情分析 | IT-MTL [77] | 220M | 紙 | プロジェクト | T5[38] | - |
算術 | ヤギ [78] | 7B | 紙 | プロジェクト | ラマ [39] | 1.0M |
情報抽出 | InstructUIE [79] | 11B | 紙 | プロジェクト | FLAN-T5 [7] | 1.0M |
名前 | 紙 | プロジェクト |
---|---|---|
ロラ [80] | 紙 | プロジェクト |
ヒント[81] | 紙 | プロジェクト |
QLoRA [82] | 紙 | プロジェクト |
ロモ [83] | 紙 | プロジェクト |
デルタチューニング [84] | 紙 | プロジェクト |
クローズエンド評価 | 紙 | プロジェクト |
---|---|---|
大規模マルチタスク言語理解 (MMLU) [85] | 紙 | プロジェクト |
数学 [86] | 紙 | プロジェクト |
GSM8K [87] | 紙 | プロジェクト |
BIGベンチハード(BBH) [88] | 紙 | プロジェクト |
ヒューマンエヴァル [89] | 紙 | プロジェクト |
IFEval [90] | 紙 | プロジェクト |
GPT ベースの評価 | 紙 | プロジェクト |
---|---|---|
アルパカエヴァル [91] | - | プロジェクト |
長さ制御された AlpacaEval [92] | 紙 | プロジェクト |
MTベンチ [93] | 紙 | プロジェクト |
ワイルドベンチ [94] | 紙 | プロジェクト |
[1] カシャビ、ダニエル、セウォン・ミン、トゥシャール・コート、アシシュ・サバーワル、オイヴィンド・タフィヨルド、ピーター・クラーク、ハンナネ・ハジシルジ。 Unifiedqa: 単一の QA システムでフォーマットの境界を越えます。 arXiv プレプリント arXiv:2005.00700 (2020)。紙
[2] Tianbao Xie、Chen Henry Wu、Peng Shi、Ruiqi Zhong、Torsten Scholak、安永道弘、Chien-Sheng Wu、Ming Zhong、Pengcheng ying、Sida I. Wang、Victor Zhong、Bailin Wang、Chengzu Li、Connor Boyle、 Ansong Ni、Ziyu Yao、Dragomir R. Radev、Caiming Xiong、Lingpengコン、ルイ・チャン、ノア・A・スミス、ルーク・ゼトルモイヤー、タオ・ユー。 Unifiedskg: テキストツーテキスト言語モデルを使用して、統合およびマルチタスク構造化知識基盤を構築します。自然言語処理における経験的手法に関するカンファレンスにて、2022 年。論文
[3] ミシュラ、スワループとカシャビ、ダニエルとバラル、チッタとハジシルジ、ハンナネ。不自然な指示: 人間の労力を (ほとんど) 使わずに言語モデルを調整する。 arXiv プレプリント arXiv:2212.09689、2022。論文
[3] または、ホノビッチ、トーマス・シャロム、オメル・レヴィ、ティモ・シック。不自然な指示: 人間の労力を (ほとんど) 使わずに言語モデルを調整する。 arXiv プレプリント arXiv:2212.09689、2022。論文
[4] Yizhong Wang、Swaroop Mishra、Pegah Alipoormolabashi、Yeganeh Kordi、Amirreza Mirzaei、Anjana Arunkumar、Arjun Ashok、Arut Selvan Dhanasekaran、Atharva Naik、David Stap、他。超自然な命令: 1600 以上のタスクの宣言命令による一般化。 EMNLP、2022年。論文
[5] Victor Sanh、Albert Webson、Colin Raffel、Stephen H Bach、Lintang Sutawika、Zaid Alyafeai、Antoine Chaffin、Arnaud Stiegler、Teven Le Scao、Arun Raja 他。マルチタスク プロンプト トレーニングにより、ゼロショット タスクの一般化が可能になります。 arXiv プレプリント arXiv:2110.08207、2021。論文
[6] Niklas Muennighoff、Thomas Wang、Lintang Sutawika、Adam Roberts、Stella Biderman、Teven Le Scao、M Saiful Bari、Sheng Shen、Zheng-Xin Yong、Hailey Schoelkopf 他。マルチタスクの微調整による言語を超えた一般化。 arXiv プレプリント arXiv:2211.01786、2022。論文
[7] Shayne Longpre、Le Hou、Tu Vu、Albert Webson、Hyung Won Chung、Yi Tay、Denny Zhou、Quoc V Le、Barret Zoph、Jason Wei 他。 flan コレクション: 効果的な命令チューニングのためのデータと方法の設計。 arXiv プレプリント arXiv:2301.13688、2023。論文
[8] Ge Zhang、Yemin Shi、Ruibo Liu、Ruibin Yuan、Yizhi Li、Siwei Dong、Yu Shu、Zhaoqun Li、Zekun Wang、Chenghua Lin、Wen-Fen Huang、Jie Fu。中国の公開指導ジェネラリスト: 暫定リリース。 ArXiv、abs/2304.07987、2023。論文
[9] 欧陽龍、ジェフリー・ウー、徐江、ディオゴ・アルメイダ、キャロル・ウェインライト、パメラ・ミシュキン、チョン・ジャン、サンディニ・アガルワル、カタリナ・スラマ、アレックス・レイ、他。人間のフィードバックによる指示に従うように言語モデルをトレーニングします。 Advances in Neural Information Processing Systems、35:27730–27744、2022。論文
[10] マイク・コノバー、マット・ヘイズ、アンキット・マサー、シアンルイ・メン、ジェンウェイ・シェ、ジュン・ワン、サム・シャー、アリ・ゴドシ、パトリック・ウェンデル、マテイ・ザハリア、他。フリー ドリー: 世界初の真にオープンな命令調整された LLM の導入、2023 年。論文
[11] Chuting Zhou、Pengfei Liu、Puxin Xu、Srini Iyer、Jiao Sun、Yuning Mao、Xuezhe Ma、Avia Efrat、Ping Yu、L. Yu、Susan Zhang、Gargi Ghosh、Mike Lewis、Luke Zettlemoyer、Omer Levy。リマ: 調整には、少ないほど効果的です。 ArXiv、abs/2305.11206、2023。論文
[12] オープンAI。 chatgpt の紹介。ブログ投稿 openai.com/blog/chatgpt、2022。論文
[13] アンドレアス・コプフ、ヤニック・キルヒャー、ディミトリ・フォン・リュッテ、ソティリス・アナグノスティディス、ジー=ルイ・タム、キース・スティーブンス、アブドラ・バルフーム、グエン・ミン・ドゥク、オリバー・スタンリー、リチャード・ナジフィ、他。オープンアシスタントの会話 – 大規模な言語モデルの調整を民主化します。 arXiv プレプリント arXiv:2304.07327、2023。論文
[14] LAION.ai。 Oig: オープン インストラクション ジェネラリスト データセット、2023 年。
[15] Fuzhao Xue、Kabir Jain、Mahir Hitesh Shah、Zangwei Zheng、Yang You。実環境の命令: ユーザーベースの命令データセット。 github.com/XueFuzhao/InstructionWild,2023
。
[16] Can Xu、Qingfeng Sun、Kai Zheng、Xiubo Geng、Pu Zhao、Jiazhan Feng、Chongyang Tao、Daxin Jiang。 Wizardlm: 大規模な言語モデルが複雑な命令に従うことができるようにする、2023 年。論文
[17] Rohan Taori、Ishaan Gulrajani、Tianyi Zhang、Yann Dubois、Xuechen Li、Carlos Guestrin、Percy Liang、およびB 橋本達則。アルパカ: 強力で複製可能な指示に従うモデル。スタンフォード財団モデル研究センター。 https://crfm.stanford.edu/2023/03/13/alpaca.html
、3(6):7、2023。
[18] Hanmeng Liu、Zhiyang Teng、Leyang Cui、Chaoli Zhang、Qiji Zhou、Yue Zhang。 Logot: gpt-4 を使用した論理的思考連鎖命令チューニング データ収集。 ArXiv、abs/2305.12147、2023。論文
[19] Baolin Peng、Chunyuan Li、Pengcheng He、Michel Galley、Jianfeng Gao。 gpt-4 による命令チューニング。 arXiv プレプリント arXiv:2304.03277、2023。論文
[20] Wei-Lin Chiang、Zhuohan Li、Zi Lin、Ying Sheng、Zhanghao Wu、Hao Zhang、Lianmin Zheng、Siyuan Zhuang、Yonghao Zhuang、Joseph E Gonzalez、他。 Vicuna: gpt-4 の 90% の chatgpt 品質を誇るオープンソースのチャットボットです。 https://vicuna.lmsys.org
(2023 年 4 月 14 日にアクセス)、2023 年を参照してください。
[21] Canwen Xu、Daya Guo、Nan Duan、Julian McAuley。 Baize: セルフチャット データのパラメータ効率の高いチューニングを備えたオープンソース チャット モデル。紙
[22] Ning Ding、Yulin Chen、Bokai Xu、Yujia Qin、Zhi Zheng、Shengding Hu、Zhiyuan Liu、Maosong Sun、Bowen Zhou。高品質の教育会話を拡張することにより、チャット言語モデルを強化します。 arXiv プレプリント arXiv:2305.14233、2023。論文
[23] ジョセフス・チャン。 Guanaco: 自然言語適応型コンテキスト認識全言語出力のための生成ユニバーサル アシスタント、2021 年。
[24] スバブラタ・ムケルジー、アリンダム・ミトラ、ガネーシュ・ジャワハル、サハジ・アガルワル、ハミド・パランギ、アハメド・アワダラ。 2023. Orca: gpt-4 の複雑な説明痕跡からの漸進的学習。 arXiv プレプリント arXiv:2306.02707。紙
[25] Ziyang Luo、Can Xu、Pu Zhao、Qingfeng Sun、Xiubo Geng、Wenxiang Hu、Chongyang Tao、Jing Ma、Qingwei Lin、Daxin Jiang。 2023. Wizardcoder: evol-instruct を使用してコードの大規模言語モデルを強化します。紙
[26] Yuxiang Wei、Zhe Wang、Jiawei Liu、Yifeng Ding、Lingming Zhang。 2023b. Magicoder: 必要なのはソース コードだけです。 arXiv プレプリント arXiv:2312.02120。紙
[27] Zhaojian Yu、Xin Zhang、Ning Shang、Yangyu Huang、Can Xu、Yshujie Zhao、Wenxiang Hu、Qiufeng ying ying。 2023. Wavecoder: 洗練されたデータ生成を備えた、広範囲かつ汎用性の高い強化された命令チューニング。 arXiv プレプリント arXiv:2312.14187。紙
[28] スリヤ・グナセカール、イー・チャン、ジョティ・アネハ、カイオ・セザール・テオドロ・メンデス、アリー・デル・ジョルノ、シヴァカント・ゴピ、モジャン・ジャバヘリピ、ピエロ・カウフマン、グスタボ・デ・ローザ、オリ・サーリキヴィ、他。 2023.必要なのは教科書だけです。 arXiv プレプリント arXiv:2306.11644。紙
[29] リー・ユアンジ、セバスチャン・ビュベック、ロネン・エルダン、アリー・デル・ジョルノ、スリヤ・グナセカール、イン・タット・リー。 2023h。必要なのは教科書だけです。 ii: phi-1.5 技術レポート。 arXiv プレプリント arXiv:2309.05463。紙
[30] Banghua Zhu、Evan Frick、Tianhao Wu、Hanlin Zhu、Jiantao Jiao。 2023a. Starling-7b: rlaif による llm の有用性と無害性を改善します。紙
[31] ワン・イージョン、イェガネ・コルディ、スワループ・ミシュラ、アリサ・リュー、ノア・A・スミス、ダニエル・カシャビ、ハンナネ・ハジシルジ。自己命令: 言語モデルを自己生成命令と調整します。 arXiv プレプリント arXiv:2212.10560、2022。論文
[32] Xian Li、Ping Yu、Chunting Zhou、Timo Schick、Luke Zettlemoyer、Omer Levy、Jason Weston、Mike Lewis。 2023g。命令逆変換による自動調整。 arXiv プレプリント arXiv:2308.06259。紙
[33] 陳子祥、鄧逸和、袁恵卓、吉開軒、顧全泉。 2024.セルフプレイの微調整により、弱い言語モデルが強い言語モデルに変換されます。 arXiv プレプリント arXiv:2401.01335。紙
[34] ニクラス・ムエニホフ、トーマス・ワン、リンタン・スタウィカ、アダム・ロバーツ、ステラ・ビダーマン、テブン・ル・スカオ、M・サイフル・バーリ、シェン・シェン、ジェン・シンヨン、ヘイリー・ショールコップ、他。 2022.マルチタスクの微調整による言語を超えた一般化。 arXiv プレプリント arXiv:2211.01786。紙
[35] チョン・ヒョンウォン、レ・ホウ、S・ロンプレ、バレット・ゾフ、イー・テイ、ウィリアム・フェダス、エリック・リー、シュエジ・ワン、モスタファ・デガニ、シッダールタ・ブラフマー、アルバート・ウェブソン、シーシアン・シェーン・グ、ズユン・ダイ、ミラク・スズグン、シンユン・チェン、アーカンクシャ チョードリー、ダーシャ ヴァルター、シャラン ナラン、ガウラフミシュラ、アダムス・ウェイ・ユー、ビンセント・チャオ、ヤンピン・ファン、アンドリュー・M・ダイ、ホンクン・ユー、スラブ・ペトロフ、エド・ファイシン・チー、ジェフ・ディーン、ジェイコブ・デブリン、アダム・ロバーツ、デニー・チョウ、クオック・V・リー、ジェイソン・ウェイ。スケーリング命令で微調整された言語モデル。 ArXiv、abs/2210.11416、2022。論文
[36] トム・B・ブラウン、ベンジャミン・マン、ニック・ライダー、メラニー・サブビア、ジャレッド・カプラン、プラフラ・ダリワル、アルビンド・ニーラカンタン、プラナフ・シャム、ギリッシュ・サストリー、アマンダ・アスケル、サンディニ・アガルワル、アリエル・ハーバート・ヴォス、グレッチェン・クルーガー、TJ・ヘニハン、レウォンチャイルド、アディティア・ラメシュ、ダニエル M.ジーグラー、ジェフ・ウー、クレメンス・ウィンター、クリストファー・ヘッセ、マーク・チェン、エリック・シグラー、マテウシュ・リトウィン、スコット・グレイ、ベンジャミン・チェス、ジャック・クラーク、クリストファー・バーナー、サム・マッキャンドリッシュ、アレック・ラドフォード、イリヤ・サツケヴァー、ダリオ・アモデイ。言語モデルは少数回の学習です。 ArXiv、abs/2005.14165、2020。論文
[37] スカオ、テベン・リー、アンジェラ・ファン、クリストファー・アキキ、エリー・パブリック、スザナ・イリッチ、ダニエル・ヘスロー、ロマン・カスターニュ 他。ブルーム: 176b パラメータのオープンアクセス多言語モデル。 arXiv プレプリント arXiv:2211.05100 (2022)。紙
[38] コリン・ラフェル、ノーム・M・シャジーア、アダム・ロバーツ、キャサリン・リー、シャラン・ナラン、マイケル・マテナ、ヤンキ・ジョウ、ウェイ・リー、ピーター・J・リュー。統合されたテキストからテキストへの変換器を使用して転移学習の限界を探ります。 ArXiv、abs/1910.10683、2019。論文
[39] ユーゴ・トゥヴロン、ティボー・ラブリル、ゴーティエ・イザカール、ザビエル・マルティネ、マリー=アンヌ・ラショー、ティモシー・ラクロワ、バティスト・ロジエール、ナマン・ゴヤル、エリック・ハンブロ、ファイサル・アズハル、オーエリアン・ロドリゲス、アルマン・ジュラン、エドゥアール・グラーヴ、ギョーム・ランプル。 Llama: オープンで効率的な基礎言語モデル。 ArXiv、abs/2302.13971、2023。論文
[40] ユンタオ・バイ、サウラフ・カダバス、サンディパン・クンドゥ、アマンダ・アスケル、ジャクソン・カーニオン、アンディ・ジョーンズ、アンナ・チェン、アンナ・ゴールディ、アザリア・ミルホセイニ、キャメロン・マッキノン 他。憲法的ai:aiフィードバックによる無害化。 arXiv プレプリント arXiv:2212.08073、2022。論文
[41] Zhengxiao Du、Yujie Qian、Xiao Liu、Ming Ding、Jiezhong Qiu、Zhilin Yang、Jie Tang。 Glm: 自己回帰的な空白埋め込みを使用した一般言語モデルの事前トレーニング。計算言語学協会第 60 回年次総会議事録 (第 1 巻: 長編論文)、320 ~ 335 ページ、2022 年。
[42] スリニバス・アイヤー、シャオジュアン・リン、ラマカンス・パスヌル、トドール・ミハイロフ、ダニエル・シミグ、ピン・ユー、カート・シャスター、ティアンルー・ワン、チン・リュー、プニット・シン・コウラ、シアン・リー、ブライアン・オホロ、ガブリエル・ペレイラ、ジェフ・ワン、クリストファー・ディーワン、アスリ・チェリキルマズ、ルーク・ゼトルモイヤー、ヴェセリンストヤノフ。 Opt-iml: 一般化のレンズを通して言語モデルの命令メタ学習をスケーリングします。 ArXiv、abs/2212.12017、2022。論文
[43] スーザン・チャン、スティーブン・ローラー、ナマン・ゴヤル、ミケル・アルテクス、モヤ・チェン、シュオホイ・チェン、クリストファー・ディーワン、モナ・T・ディアブ、シアン・リー、シー・ビクトリア・リン、トドール・ミハイロフ、マイル・オット、サム・シュライファー、カート・シャスター、ダニエル・シミグ、プニット・シン・コウラ、アンジャリ・スリダール、ティアンル・ワン、ルークゼトルモイヤー。 2022a。オプション: 事前トレーニングされたトランスフォーマー言語モデルを開きます。 ArXiv、abs/2205.01068。紙
[44] マイク・コノヴァー、マット・ヘイズ、アンキット・マサー、シアンルイ・メン、ジェンウェイ・シェ、ジュン・ワン、サム・シャー、アリ・ゴドシ、パトリック・ウェンデル、マテイ・ザハリアほか。フリー ドリー: 世界初の真にオープンな命令調整された LLM を導入(2023 年)。
[45] ステラ・ローズ・ビダーマン、ヘイリー・シェルコップフ、クエンティン・G・アンソニー、ハービー・ブラッドリー、カイル・オブライエン、エリック・ハラハン、モハマド・アフラ・カーン、シヴァンシュ・プロヒト、USVSNサイ・プラシャンス、エドワード・ラフ、アヴィヤ・スクウロン、リンタン・スタウィカ、オスカー・ファン・デルウォル。 Pythia: トレーニングとスケーリングにわたって大規模な言語モデルを分析するためのスイート。 ArXiv、abs/2304.01373、2023。論文
[46] エブテサム・アルマズロウエイ、ハムザ・アロベイドリ、アブドゥルアズィズ・アルシャムシ、アレッサンドロ・カペリ、ルクサンドラ・コジョカル、メルアン・デバー、エティエンヌ・ゴフィネ、ダニエル・ヘスロー、ジュリアン・ローネイ、クエンティン・マラルティッチ、バレッディン・ヌーン、バティスト・パニエ、ギリェルメ・ペネド。 Falcon-40B: 最先端のパフォーマンスを備えたオープンな大規模言語モデル。 2023. 紙
[47] OpenAccess AI Collective 。ソフトウェア:huggingface.co/openaccess-ai-collective/minotaur- 15b、2023。
[48] レイモンド・リー、ルブナ・ベン・アラル、ヤンティアン・ジー、ニクラス・ムエニホフ、デニス・コジェトコフ、チェンハオ・モウ、マーク・マローネ、クリストファー・アキキ、ジア・リー、ジェニー・チム、他。スターコーダー: 情報源があなたのもとにありますように! arXiv プレプリント arXiv:2305.06161、2023。論文
[49]ヌースリサーチ。ソフトウェア:huggingface.co/NousResearch/Nous-Hermes-13b、2023。
[50] ワン・イーゾン、ハミッシュ・アイヴィソン、プラディープ・ダシギ、ジャック・ヘッセル、トゥシャール・コート、キャティ・ラガヴィ・チャンドゥ、デヴィッド・ワッデン、ケルシー・マクミラン、ノア・A・スミス、イズ・ベルタギー、ハンナ・ハジシルジ。ラクダはどこまで行ける?オープンリソースでの命令チューニングの状態を調査します。 ArXiv、abs/2306.04751、2023。論文
[51] YuLan-チャットチーム。 Yulan-chat: オープンソースのバイリンガル チャットボット。 github.com/RUC-GSAI/YuLan-Chat、2023 年。
[52] 孫天祥と邱西鵬。苔。ブログ投稿 txsun1997.github.io/blogs/moss.html、2023。
[53] ジョン・ダービン。アイロボロス。ソフトウェア: github.com/jondurbin/airoboros、2023。
[54] Zhiyang Xu、Ying Shen、Lifu Huang。 Multiinstruct: 命令チューニングによるマルチモーダルゼロショット学習の改善。 ArXiv、abs/2212.10773、2022。論文
[55] チャン・シャオマン、ウー・チャオイ、チャオ・ジヘン、リン・ウェイシオン、チャン・ヤー、ワン・ヤンフェン、謝・ウェイディ。 PMC-VQA: 医療用視覚的質問応答のための視覚的指示チューニング。 ArXiv、abs/2305.10415。 2023. 紙
[56] Zhenfei ying、Jiong Wang、Jianjian Cao、Zhelun Shi、Dingning Liu、Mukai Li、Lu Sheng、Lei Bai、Xiaoshui Huang、Zhiyong Wang、Wanli Ouyang、Jing Shao。 Lamm: 言語支援マルチモーダル命令チューニング データセット、フレームワーク、およびベンチマーク。 ArXiv、abs/2306.06687、2023。論文
[57] Zhiyang Xu、Chao Feng、Rulin Shao、Trevor Ashby、Ying Shen、Di Jin、Yu Cheng、Qifan Wang、Lifu Huang。 2024. Vision-flan: 視覚的な指示のチューニングにおける人間によるラベル付けされたタスクのスケーリング。 arXiv プレプリント arXiv:2402.11690。紙
[58] Guiming Hardy Chen、Shunian Chen、Ruifei Zhang、Junying Chen、Xiangbo Wu、Zhiyi Zhang Chen、Zhihong Chen、Jianquan Li、Xiang Wang、Benyou Wang。 2024a。 Allava: gpt4v で合成されたデータをライト ビジョン言語モデルに利用します。 arXiv プレプリント arXiv:2402.11684。紙
[59] リン・チェン、ジソン・リー、シャオイー・ドン、パン・ジャン、コンフイ・ホー、ジアチー・ワン、フォン・ジャオ、ダーファ・リン。 2023a. Sharegpt4v: より良いキャプションを使用して大規模なマルチモーダル モデルを改善します。 arXiv プレプリント arXiv:2311.12793。紙
[60] ティム・ブルックス、アレクサンダー・ホリンスキー、アレクセイ・A・エフロス。 Instructpix2pix: 画像編集の指示に従う方法を学習します。 ArXiv、abs/2211.09800、2022。論文
[61] ハオティアン・リウ、チュンユアン・リー、チンヤン・ウー、ヨン・ジェ・リー。視覚的な指示のチューニング。 ArXiv、abs/2304.08485、2023。論文
[62] ロビン・ロンバック、アンドレアス・ブラットマン、ドミニク・ロレンツ、パトリック・エッサー、ビョルン・オマー。潜在拡散モデルによる高解像度画像合成。コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録、10684 ~ 10695 ページ、2022 年。
[63] アレック・ラドフォード、キム・ジョンウク、クリス・ハラシー、アディティア・ラメシュ、ガブリエル・ゴー、サンディニ・アガルワル、ギリッシュ・サストリー、アマンダ・アスケル、パメラ・ミシュキン、ジャック・クラーク、グレッチェン・クルーガー、イリヤ・サツケヴァー。自然言語監視から転送可能な視覚モデルを学習します。機械学習に関する国際会議、2021 年。論文
[64] ハン・ジャン、シン・リー、リドン・ビン。 Video-llama: ビデオを理解するために、命令に合わせて調整された視聴覚言語モデル。 arXiv プレプリント arXiv:2306.02858、2023。論文
[65] ジュンナン・リー、ドンシュ・リー、シルビオ・サバレーゼ、スティーブン・ホイ。 BLIP-2: フリーズされた画像エンコーダと大規模な言語モデルを使用したブートストラップ言語画像事前トレーニング。 ICML、2023年。論文
[66] ロヒット・ギルダール、アラエルディン・エル・ヌビー、ツアン・リュー、マンナット・シン、カリヤン・ヴァスデフ・アルワラ、アルマンド・ジューリン、イシャン・ミスラ。 Imagebind: すべてをバインドするための 1 つの埋め込みスペース。 CVPR、2023年。論文
[67] ダイ・ウェンリャン、リー・ジュンナン、リー・ドンシュウ、アンソニー・メン・フア・ティオン、チャオ・ジュンチー、ワン・ウェイシェン、リー・ボーヤン、パスカル・フォン、スティーブン・ホイ。 Instructblip: 命令チューニングによる汎用ビジョン言語モデルに向けて。 ArXiv、abs/2305.06500、2023。論文
[68] ボー・リー、チャン・ユアンハン、チェン・リャンユー、王ジンハオ、楊京康、劉紫偉。 Otter: コンテキスト内での命令チューニングを備えたマルチモーダル モデル。 ArXiv、abs/2305.03726、2023。論文
[69] アナス・アワダラ、イレーナ・ガオ、ジョシュア・ガードナー、ジャック・ヘッセル、ユスフ・ハナフィ、ワンロン・ジュー、カリャニ・マラテ、ヨナタン・ビットン、サミール・ガドレ、ジェニア・ジツェフほか。オープンフラミンゴ、2023年。
[70] Tao Gong、Chengqi Lyu、Shilong Zhang、Yudong Wang、Miao Zheng、Qianmengke Zhao、Kuikun Liu、Wenwei Zhang、Ping Luo、Kai Chen。 Multimodal-gpt: 人間との対話のためのビジョンと言語モデル。 ArXiv、abs/2305.04790、2023。論文
[71] Zheng Liu、Aoxiao Zhong、Yiwei Li、Longtao Yang、Chao Ju、Zihao Wu、Chong Ma、Peng Shu、Cheng Chen、Sekeun Kim、Haixing Dai、Lin Zhao、Daziang Zhu、Jun Liu、Wei Liu、Dinggang Shen 、Xiang Li、Quanzheng Li、Tianming Liu。 Radiology-gpt: 放射線学のための大規模な言語モデル。 2023. 紙
[72] ユンシャン・リー、ジーハン・リー、カイ・チャン、ルイロン・ダン、ユー・チャン。 Chatdoctor: 医療分野の知識を使用してラマ モデルに基づいて微調整された医療チャット モデル。 ArXiv、abs/2303.14070、2023。論文
[73] センドン・チャオ・ビンチン・ティン・リウ・ハオチュン・ワン、チー・リュー。チャットグルムメッド。 github.com/SCIR-HI/Med-ChatGLM、2023 。
[74] yue Zhang、Leyang Cui、Deng Cai、Xinting Huang、Tao Fang、Wei Bi。 2023d。特定のシナリオに合わせたラマのマルチタスク命令チューニング: 執筆支援に関する予備研究。 ArXiv、abs/2305.13225。紙
[75] ヴィプル・ラヘジャ、ドゥルヴ・クマール、ライアン・クー、カン・ドンヨプ。 2023.共同編集: タスク固有の命令チューニングによるテキスト編集。 ArXiv、abs/2305.09857。紙
[76] トゥヒン・チャクラバーティ、ヴィシャフ・パドマクマル、ヘンシン・ヘ。 2022.共同で詩を書くための手段として詩の指示をチューニングするのを手伝ってください。 ArXiv、abs/2210.13669。紙
[77] シッダース・ヴァリア、シュアイ・ワン、キシャロイ・ハルダー、ロバート・ヴァカレアヌ、ミゲル・バレステロス、ヤシン・ベナジバ、ネハ・アン・ジョン、リシタ・アヌバイ、スマランダ・ムレサン、ダン・ロス。 2022.少数ショットのアスペクトベースのセンチメント分析のための命令チューニング。 ArXiv、abs/2210.06629。紙
[78] Tiedong LiuとBryan Kian Hsiang。ヤギ: 微調整されたラマは、算術タスクで gpt-4 よりも優れたパフォーマンスを発揮します。 arXiv プレプリント arXiv:2305.14201、2023。論文
[79] Xiao Wang、Wei Zhou、Can Zu、Han Xia、Tianze Chen、Yuan Zhang、Rui Zheng、Junjie Ye、Qi Zhang、Tao Gui、Jihua Kang、J. Yang、Siyuan Li、Chunsai Du。命令: 統合された情報抽出のためのマルチタスク命令のチューニング。 ArXiv、abs/2304.08085、2023。論文
[80] Edward J Hu、Yelong Shen、Phillip Wallis、Zeyuan Allen-Zhu、Yuanzhi Li、Shean Wang、Lu Wang、Weizhu Chen。 2021. Lora: 大規模言語モデルの低ランク適応。 arXiv プレプリント arXiv:2106.09685。紙
[81] ハミッシュ・アイヴィソン、アクシタ・バギア、イーゾン・ワン、ハンナネ・ハジシルジ、マシュー・E・ピーターズ。 2022.ヒント: 効率的なゼロショット汎化のためのハイパーネットワーク命令チューニング。 ArXiv、abs/2212.10315。紙
[82] ティム・デットマーズ、アルティドロ・パニョーニ、アリ・ホルツマン、ルーク・ゼトルモイヤー。 2023. Qlora: 量子化 llms の効率的な微調整。 arXiv プレプリント arXiv:2305.14314。紙
[83] Kai Lv、Yuqing Yang、Tengxiao Liu、Qi jie Gao、Qipeng Guo、Xipeng Qiu。 2023.リソースが限られている大規模な言語モデルの完全なパラメーター微調整。紙
[84] Weize Chen、Jing Yi、Weilin Zhao、Xiaozhi Wang、Zhiyuan Liu、Haitao Zheng、Jianfei Chen、Y. Liu、Jie Tang、Juanzi Li、Maosong Sun。 2023b.大規模な事前トレーニング済み言語モデルのパラメータ効率の高い微調整。 Nature Machine Intelligence、5:220–235。紙
[85] ヘンドリックス、ダンとバーンズ、コリンとバサート、スティーブンとゾウ、アンディとマゼイカ、マンタスとソング、ドーンとスタインハート、ジェイコブ。 2020a.大規模なマルチタスクの言語理解を測定します。 arXiv:2009.03300。紙
[86] ヘンドリックス、ダンとバーンズ、コリンとカダバス、サウラフとアローラ、アクールとバサート、スティーブンとタン、エリックとソング、ドーンとスタインハート、ジェイコブ。 2021.数学データセットを使用した数学的問題解決の測定。 arXiv プレプリント arXiv:2103.03874。紙
[87] カール・コッベ、ヴィニート・コサラジュ、モハマド・バイエルン、マーク・チェン、ヒウー・ジュン、ルカシュ・カイザー、マティアス・プラパート、ジェリー・トゥレク、ジェイコブ・ヒルトン、中野礼一郎、クリストファー・ヘッセ、ジョン・シュルマン。 2021.数学の文章問題を解くための検証者をトレーニングします。紙
[88] スズガン、ミラクとスケールズ、ネイサンとシャーリー、ナタナエルとゲールマン、セバスチャンとテイ、イーとチョン、ヒョンウォンとチョードリー、アーカンクシャとリー、クオック V とチー、エド H とチョウ、デニー2022a.大きなベンチの課題と思考の連鎖がそれらを解決できるかどうか。 arXiv プレプリント arXiv:2210.09261 論文
[89] チェン、マークとトゥレク、ジェリーとジュン、ヒウーとユアン、チーミンとピント、エンリケ・ポンデ・デ・オリベイラとカプラン、ジャレッドとエドワーズ、ハリとブルダ、ユーリとジョセフ、ニコラスとブロックマン、グレッグなど。 2021a。コード上でトレーニングされた大規模な言語モデルを評価します。 arXiv プレプリント arXiv:2107.03374 論文
[90] チョウ、ジェフリーとルー、ティアンジアンとミシュラ、スワループとブラフマー、シッダールタとバス、スジョイとルアン、イーとチョウ、デニーとホウ、リー。 2023b.大規模な言語モデルの命令に従う評価。 arXiv プレプリント arXiv:2311.07911 論文
[91] Xuechen Li、Tianyi Zhang、Yann Dubois、Rohan Taori、Ishaan Gulrajani、Carlos Guestrin、Percy Liang、B. 橋本辰則。 2023h。 AlpacaEval: 命令に従うモデルの自動評価器。 GitHub リポジトリ GitHub
[92] Dubois、Yann および Galambosi、Balzs および Liang、Percy および橋本、Tatsunori B. 2024.長さ制御された AlpacaEval: 自動評価器をバイアス解除する簡単な方法。 arXiv プレプリント arXiv:2404.04475 論文
[93] Zheng、LianminとChiang、Wei-LinとSheng、YingとZhuang、SiyuanとWu、ZhanghaoとZhuang、YonghaoとLin、ZiとLi、ZhuohanとLi、DachengとXing、Ericなど。 2023. mt-bench とチャットボット アリーナで llm-as-a-judge を審査します。神経情報処理システムの進歩に関する論文
[94] リン、ビル・ユーチェンとデン、ユンティアンとチャンドゥ、キャティとブラフマン、ファエゼとラヴィチャンダー、アビラシャとピャトキン、ヴァレンティーナとジリ、ヌーハとブラス、ロナン・レとチョイ、イェジン。 2024. WILDBENCH: 実際のユーザーからの挑戦的なタスクによる LLM のベンチマーク。 arXiv プレプリント arXiv:2406.04770 用紙
[95] ポー・ニエン・クンとナンユン・ペン。 2023.モデルは本当に指示に従うことを学ぶのでしょうか?命令チューニングの実証的研究。 ACL。紙
[96] チュン・周、劉鵬飛、徐プーシン、スリニ・アイヤー、ジャオ・サン、マオ・ユニン、マー・シュエゼ、アヴィア・エフラット、ピン・ユー、L・ユー、スーザン・チャン、ガルギ・ゴーシュ、マイク・ルイス、ルーク・ゼトルモイヤー、オマー・レヴィ。 2023a.リマ: 調整には少ないほど効果的です。 NeurIPS 2023. 論文
[97] リン、ビル・ユーチェンとラヴィチャンダー、アビラシャとルー、シーミンとジリ、ヌーハとスラー、メラニーとチャンドゥ、キャティとバガヴァトゥラ、チャンドラとチョイ、イェジン。 2023a.基本 llms のロックを解除する呪文: コンテキスト内学習による調整の再考。 ICLR 2024. 論文
ご質問やご提案がございましたら、お気軽に問題を作成するか、 [email protected]
に電子メールを送信してください。