霍加狓
通过人类反馈进行强化学习的多语言指令调整大型语言模型
这是 Okapi 框架的存储库,引入了针对大型语言模型 (LLM) 的指令调整的资源和模型,以及基于多种语言的人类反馈 (RLHF) 的强化学习。我们的框架支持 26 种语言,其中包括 8 种高资源语言、11 种中等资源语言和 7 种低资源语言。
Okapi 资源:我们提供使用 RLHF 对 26 种语言进行指令调优的资源,包括 ChatGPT 提示、多语言指令数据集和多语言响应排名数据。
Okapi 模型:我们在 Okapi 数据集上为 26 种语言提供基于 RLHF 的指令调整的 LLM。我们的模型包括基于 BLOOM 和基于 LLaMa 的版本。我们还提供与我们的模型交互的脚本,并使用我们的资源微调法学硕士。
多语言评估基准数据集:我们提供三个基准数据集,用于评估 26 种语言的多语言大语言模型 (LLM)。您可以访问完整的数据集和评估脚本:此处。
使用和许可声明:Okapi 仅供研究使用并获得许可。数据集为 CC BY NC 4.0(仅允许非商业用途),使用该数据集训练的模型不应在研究目的之外使用。
我们的技术论文和评估结果可以在这里找到。
我们执行全面的数据收集流程,通过四个主要步骤为我们的多语言框架 Okapi 准备必要的数据:
要下载整个数据集,您可以使用以下脚本:
bash scripts/download.sh
如果您只需要特定语言的数据,则可以将语言代码指定为脚本的参数:
bash scripts/download.sh [LANG]
# For example, to download the dataset for Vietnamese: bash scripts/download.sh vi
下载后,我们发布的数据可以在datasets目录中找到。它包括:
multilingual-alpaca-52k :Alpaca 中 52K 英文指令翻译成 26 种语言的数据。
multilingual-ranking-data-42k :26种语言的多语言响应排名数据。对于每种语言,我们提供42K指令;他们每个人都有 4 个排名响应。该数据可用于训练 26 种语言的奖励模型。
multilingual-rl-tuning-64k :RLHF 的多语言指令数据。我们为 26 种语言中的每一种提供 62K 指令。
使用我们的 Okapi 数据集和基于 RLHF 的指令调优技术,我们引入了针对 26 种语言的多语言微调 LLM,这些语言建立在 7B 版本的 LLaMA 和 BLOOM 的基础上。这些模型可以从 HuggingFace 获取。
Okapi 支持与 26 种语言的多语言指令调整的法学硕士进行交互式聊天。请按照以下步骤进行聊天:
git clone https://github.com/nlp-uoregon/Okapi.git
cd Okapi
pip install -r requirements.txt
from chat import pipeline
model_path = 'uonlp/okapi-vi-bloom'
p = pipeline ( model_path , gpu = True )
instruction = 'Dịch câu sau sang Tiếng Việt' # Translate the following sentence into Vietnamese
prompt_input = 'The City of Eugene - a great city for the arts and outdoors. '
response = p . generate ( instruction = instruction , prompt_input = prompt_input )
print ( response )
我们还提供脚本,使用 RLHF 使用我们的指令数据对 LLM 进行微调,涵盖三个主要步骤:监督微调、奖励建模和使用 RLHF 进行微调。使用以下步骤微调 LLM:
conda create -n okapi python=3.9
conda activate okapi
pip install -r requirements.txt
bash scripts/supervised_finetuning.sh [LANG]
bash scripts/reward_modeling.sh [LANG]
bash scripts/rl_training.sh [LANG]
如果您使用此存储库中的数据、模型或代码,请引用:
@article { dac2023okapi ,
title = { Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback } ,
author = { Dac Lai, Viet and Van Nguyen, Chien and Ngo, Nghia Trung and Nguyen, Thuat and Dernoncourt, Franck and Rossi, Ryan A and Nguyen, Thien Huu } ,
journal = { arXiv e-prints } ,
pages = { arXiv--2307 } ,
year = { 2023 }
}