Yi下载 - Yi源码下载

Yi

其他源码

下载

英语 | 中文

打造下一代开源双语法学硕士

？拥抱脸•？模型范围•？明智的模型

?‍ 在 GitHub 上提出问题或讨论想法

加入我们？不和谐或微信

查看易科技报告

在易学习中心成长

？在易科技博客学习

什么是易？
- 介绍
- 型号
  - 聊天模特
  - 基础型号
  - 型号信息
- 消息
如何使用易？
- 快速启动
  - 选择你的道路
  - 点
  - 泊坞窗
  - 骆驼.cpp
  - 康达洛克
  - 网络演示
- 微调
- 量化
- 部署
- 常问问题
- 学习中心
为什么是易？
- 生态系统
  - 上游
  - 下游
    - 服务
    - 量化
    - 微调
    - 应用程序编程接口
- 基准测试
  - 基础模型性能
  - 聊天模型性能
- 技术报告
  - 引文
谁可以使用易？
杂项。
- 致谢
- 免责声明
- 执照

什么是易？

介绍

？ Yi系列模型是01.AI从零开始训练的下一代开源大语言模型。
？ Yi系列模型以双语语言模型为目标，在3T多语言语料库上进行训练，成为全球最强的LLM模型之一，在语言理解、常识推理、阅读理解等方面展现出良好的前景。例如，
- Yi-34B-Chat 模型在 AlpacaEval 排行榜上排名第二（仅次于 GPT-4 Turbo） ，优于其他 LLM（例如 GPT-4、Mixtral、Claude）（基于截至 2024 年 1 月的可用数据）。
- Yi-34B模型在Hugging Face Open LLM Leaderboard（预训练）和C-Eval等各种基准测试中，在所有现有开源模型（如Falcon-180B、Llama-70B、Claude）中英文和中文排名第一（基于截至 2023 年 11 月的可用数据）。
- （感谢 Llama）感谢 Transformer 和 Llama 开源社区，因为它们减少了从头开始构建所需的工作量，并支持在 AI 生态系统中使用相同的工具。
如果您对 Yi 采用 Llama 架构和许可证使用政策感兴趣，请参阅Yi 与 Llama 的关系。
长话短说
Yi系列模型采用与Llama相同的模型架构，但不是Llama的衍生品。
- Yi和Llama都基于Transformer结构，该结构自2018年以来一直是大型语言模型的标准架构。
- Llama 基于 Transformer 架构，凭借其卓越的稳定性、可靠的收敛性和强大的兼容性，已成为大多数最先进开源模型的新基石。这使得 Llama 成为包括 Yi 在内的模型公认的基础框架。
- 得益于 Transformer 和 Llama 架构，其他模型可以利用它们的强大功能，减少从头开始构建所需的工作量，并能够在其生态系统中使用相同的工具。
- 然而，Yi 系列模型不是 Llama 的衍生品，因为它们不使用 Llama 的权重。
  - 由于大多数开源模型都采用 Llama 的结构，因此决定模型性能的关键因素是训练数据集、训练管道和训练基础设施。
  - Yi 以独特且专有的方式进行开发，完全从头开始独立创建了自己的高质量训练数据集、高效的训练管道和强大的训练基础设施。这一努力带来了优异的表现，Yi 系列模型在 2023 年 12 月的 Alpaca 排行榜上排名仅次于 GPT4，并超越 Llama。

[回到顶部⬆️]

消息

2024-07-29 : 易食谱1.0发布，包含中英文教程和示例。

2024-05-13 : Yi-1.5系列模型开源，进一步提高编码、数学、推理和指令跟踪能力。

2024-03-16 : Yi-9B-200K开源并向公众开放。

2024-03-08 ：易科技报告出炉！

？ 2024-03-07 : Yi-34B-200K 的长文本能力得到增强。

在“大海捞针”测试中，Yi-34B-200K的性能提升了10.5%，从89.3%上升到令人印象深刻的99.8%。我们继续在 5B 代币长上下文数据混合上预训练模型，并展示近乎全绿色的性能。

2024-03-06 : Yi-9B开源并向公众开放。

Yi-9B在一系列类似规模的开源模型（包括 Mistral-7B、SOLAR-10.7B、Gemma-7B、DeepSeek-Coder-7B-Base-v1.5 等）中脱颖而出，成为表现最佳的模型，尤其擅长代码、数学、常识推理和阅读理解。

2024-01-23 ：Yi-VL 模型Yi-VL-34B和Yi-VL-6B已开源并向公众开放。

Yi-VL-34B在最新基准测试中在所有现有开源模型中排名第一，包括MMMU和CMMMU（基于截至2024年1月的可用数据）。

2023-11-23 ：聊天模型开源并向公众开放。

此版本包含两个基于之前发布的基础模型的聊天模型、两个由 GPTQ 量化的 8 位模型和两个由 AWQ 量化的 4 位模型。

Yi-34B-Chat
Yi-34B-Chat-4bits
Yi-34B-Chat-8bits
Yi-6B-Chat
Yi-6B-Chat-4bits
Yi-6B-Chat-8bits

您可以在以下位置交互式地尝试其中一些：

抱脸
复制

？ 2023年11月23日：小蚁系列车型社区许可协议更新至v2.1。

2023-11-08 : Yi-34B聊天模型受邀测试。

申请表：

英语
中国人

2023-11-05 ：基础模型Yi-6B-200K和Yi-34B-200K开源并向公众开放。

此版本包含两个基本模型，其参数大小与先前版本相同，只是上下文窗口扩展至 200K。

2023-11-02 ：基础模型Yi-6B和Yi-34B已开源并向公众开放。

第一个公开版本包含两个双语（英语/中文）基础模型，参数大小为 6B 和 34B。两者都以 4K 序列长度进行训练，并且在推理期间可以扩展到 32K。

[回到顶部⬆️]

型号

Yi 型号有多种尺寸，可满足不同的用例。您还可以微调 Yi 模型以满足您的特定要求。

如果您想部署 Yi 模型，请确保满足软件和硬件要求。

聊天模特

模型	下载
Yi-34B-聊天	•？拥抱脸•？模型范围•？明智的模型
Yi-34B-聊天-4bits	•？拥抱脸•？模型范围•？明智的模型
Yi-34B-聊天-8位	•？拥抱脸•？模型范围•？明智的模型
Yi-6B-聊天	•？拥抱脸•？模型范围•？明智的模型
Yi-6B-聊天-4bits	•？拥抱脸•？模型范围•？明智的模型
Yi-6B-聊天-8bits	•？拥抱脸•？模型范围•？明智的模型

_{^{- 4 位系列模型由 AWQ 量化。
- 8位系列模型通过GPTQ量化
- 所有量化模型的使用门槛都很低，因为它们可以部署在消费级 GPU（例如 3090、4090）上。}}

基础型号

模型	下载
翼34B	•？拥抱脸•？模型范围•？明智的模型
毅-34B-200K	•？拥抱脸•？模型范围•？明智的模型
毅9B	•？拥抱脸•？模型范围•？明智的模型
毅9B-200K	•？拥抱脸•？模型范围•？明智的模型
伊6B	•？拥抱脸•？模型范围•？明智的模型
毅6B-200K	•？拥抱脸•？模型范围•？明智的模型

_{^{- 200k大约相当于40万个汉字。
- 如果您想使用Yi-34B-200K的旧版本（2023年11月5日发布），请运行git checkout 069cd341d60f4ce4b07ec394e82b79e94f656cf下载权重。}}

型号信息

对于聊天和基本模型

模型	简介	默认上下文窗口	预训练令牌	训练数据日期
6B系列机型	它们适合个人和学术用途。	4K	3T	截至 2023 年 6 月
9B系列机型	它是 Yi 系列模型中最擅长编码和数学的。		Yi-9B是在Yi-6B的基础上持续训练的，使用0.8T token。
34B系列型号	它们适合个人、学术和商业（特别是中小型企业）用途。这是一种经济高效的解决方案，价格实惠且具备应急能力。		3T

对于聊天模型
有关聊天模型限制，请参阅下面的说明。
- 幻觉：这是指模型生成事实上不正确或无意义的信息。随着模型的反应更加多样化，出现不基于准确数据或逻辑推理的幻觉的可能性更高。
- 再生中的非确定性：当尝试再生或采样响应时，结果可能会出现不一致。即使在相似的输入条件下，多样性的增加也会导致不同的结果。
- 累积误差：当模型响应中的误差随着时间的推移而复合时，就会发生这种情况。随着模型生成更加多样化的响应，小误差累积成较大误差的可能性就会增加，尤其是在扩展推理、数学问题解决等复杂任务中。
- 为了实现更加一致和一致的响应，建议调整生成配置参数，例如温度、top_p 或 top_k。这些调整有助于平衡模型输出的创造力和连贯性。

[回到顶部⬆️]

如何使用易？

快速启动
- 选择你的道路
- 点
- 泊坞窗
- 康达洛克
- 骆驼.cpp
- 网络演示
微调
量化
部署
常问问题
学习中心

快速启动

提示：如果您想开始使用 Yi 模型并探索不同的推理方法，请查看 Yi Cookbook。

选择你的道路

选择以下路径之一，开始您与 Yi 的旅程！

本地部署 Yi

如果您更喜欢在本地部署 Yi 模型，

?‍♀️并且您有足够的资源（例如NVIDIA A800 80GB），您可以选择以下方法之一：
- 点
- 码头工人
- 康达洛克
?‍♀️并且您的资源有限（例如MacBook Pro），您可以使用llama.cpp。

不在本地部署 Yi

如果您不想在本地部署 Yi 模型，则可以使用以下任一选项探索 Yi 的功能。

?‍♀️ 使用 API 运行易

如果你想探索 Yi 的更多特性，可以采用以下方法之一：

Yi API（Yi 官方）
- 一些申请人已获得早期访问权。请继续关注下一轮的访问！
Yi API（复制）

?‍♀️ 游乐场里的润怡

如果您想与 Yi 聊天时使用更多可自定义的选项（例如系统提示、温度、重复惩罚等），您可以尝试以下选项之一：

Yi-34B-Chat-Playground (Yi官方)
- 可通过白名单进行访问。欢迎申请（用英文或中文填写表格）。
Yi-34B-聊天-游乐场（复制）

?‍♀️ 与易聊天

如果您想与 Yi 聊天，您可以使用以下在线服务之一，它们提供类似的用户体验：

Yi-34B-Chat（抱脸的彝族官方）
- 无需注册。
Yi-34B-Chat（Yi 官方测试版）
- 可通过白名单进行访问。欢迎申请（用英文或中文填写表格）。

[回到顶部⬆️]

快速入门 - pip

本教程将指导您完成在 A800 (80G) 上本地运行 Yi-34B-Chat然后执行推理的每个步骤。

第 0 步：先决条件

确保安装了Python 3.10或更高版本。
如果您想运行其他 Yi 型号，请参阅软件和硬件要求。

第 1 步：准备环境

要设置环境并安装所需的软件包，请执行以下命令。

git clone https://github.com/01-ai/Yi.git
cd yi
pip install -r requirements.txt

第2步：下载Yi模型

您可以从以下来源下载 Yi 模型的权重和分词器：

抱脸
模型范围
智慧模型

第 3 步：进行推理

您可以使用 Yi chat 或基本模型进行推理，如下所示。

使用 Yi 聊天模型进行推理

创建一个名为quick_start.py的文件并将以下内容复制到其中。

 from transformers import AutoModelForCausalLM , AutoTokenizer

model_path = '<your-model-path>'

tokenizer = AutoTokenizer . from_pretrained ( model_path , use_fast = False )

# Since transformers 4.35.0, the GPT-Q/AWQ model can be loaded using AutoModelForCausalLM.
model = AutoModelForCausalLM . from_pretrained (
    model_path ,
    device_map = "auto" ,
    torch_dtype = 'auto'
). eval ()

# Prompt content: "hi"
messages = [
    { "role" : "user" , "content" : "hi" }
]

input_ids = tokenizer . apply_chat_template ( conversation = messages , tokenize = True , add_generation_prompt = True , return_tensors = 'pt' )
output_ids = model . generate ( input_ids . to ( 'cuda' ))
response = tokenizer . decode ( output_ids [ 0 ][ input_ids . shape [ 1 ]:], skip_special_tokens = True )

# Model response: "Hello! How can I assist you today?"
print ( response )

运行quick_start.py 。
```
python quick_start.py
```
然后您可以看到类似于下面的输出。？
```
Hello ! How can I assist you today ? 
```

使用 Yi 基础模型进行推理

翼34B
步骤类似于 pip - 使用 Yi 聊天模型进行推理。
您可以使用现有文件text_generation.py 。
```
python demo/text_generation.py  --model < your-model-path >
```
然后您可以看到类似于下面的输出。？
输出。

提示：让我给你讲一个关于猫汤姆和老鼠杰瑞的有趣故事，
世代：让我给你讲一个发生在我童年的关于猫汤姆和老鼠杰瑞的有趣故事。我父亲有一座大房子，里面住着两只猫，用来捕老鼠。有一天，我一个人在家玩，发现一只雄猫仰面躺在厨房门口附近，看上去很像要我们送东西，却爬不起来，因为周围人太多了！他又试了几分钟，最后还是放弃了……

毅9B

输入

from transformers import AutoModelForCausalLM, AutoTokenizer

MODEL_DIR = " 01-ai/Yi-9B "
model = AutoModelForCausalLM.from_pretrained(MODEL_DIR, torch_dtype= " auto " )
tokenizer = AutoTokenizer.from_pretrained(MODEL_DIR, use_fast=False)

input_text = " # write the quick sort algorithm "
inputs = tokenizer(input_text, return_tensors= " pt " ).to(model.device)
outputs = model.generate( ** inputs, max_length=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

输出

 # write the quick sort algorithm
def quick_sort(arr):
    if len(arr) < = 1:
        return arr
    pivot = arr[len(arr) // 2]
    left = [x for x in arr if x < pivot]
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    return quick_sort(left) + middle + quick_sort(right)

# test the quick sort algorithm
print(quick_sort([3, 6, 8, 10, 1, 2, 1]))

[回到顶部⬆️]

快速入门 - Docker

使用 Docker 在本地运行 Yi-34B-chat：分步指南。

本教程将指导您完成在 A800 GPU或4*4090本地运行 Yi-34B-Chat 并进行推理的每一步。

第 0 步：先决条件

确保您已安装 Docker 和 nvidia-container-toolkit。

第 1 步：启动 Docker

 docker run -it --gpus all 
-v <your-model-path>: /models
ghcr.io/01-ai/yi:latest

或者，您可以从registry.lingyiwanwu.com/ci/01-ai/yi:latest提取Yi Docker 镜像。

第 2 步：进行推理

您可以使用 Yi chat 或基本模型进行推理，如下所示。

使用 Yi 聊天模型进行推理

步骤类似于 pip - 使用 Yi 聊天模型进行推理。

请注意，唯一的区别是设置model_path = '<your-model-mount-path>'而不是model_path = '<your-model-path>' 。

使用 Yi 基础模型进行推理

步骤类似于 pip - 使用 Yi 基本模型进行推理。

请注意，唯一的区别是设置--model <your-model-mount-path>'而不是model <your-model-path> 。

快速入门 - conda-lock

您可以使用conda-lock为 conda 环境生成完全可重现的锁定文件。

您可以参考 conda-lock.yml 了解依赖项的确切版本。此外，您可以利用micromamba来安装这些依赖项。
要安装依赖项，请按照下列步骤操作：

按照此处提供的说明安装 micromamba。
执行micromamba install -y -n yi -f conda-lock.yml创建名为yi conda 环境并安装必要的依赖项。

快速入门 - llama.cpp

以下教程将指导您完成在本地运行量化模型（Yi-chat-6B-2bits）然后执行推理的每个步骤。

使用 llama.cpp 在本地运行 Yi-chat-6B-2bits：分步指南。

本教程将指导您完成在本地运行量化模型 (Yi-chat-6B-2bits) 然后执行推理的每个步骤。

第 0 步：先决条件
第1步：下载llama.cpp
第二步：下载Yi模型
第 3 步：进行推理

第 0 步：先决条件

本教程假设您使用配备 16GB 内存和 Apple M2 Pro 芯片的 MacBook Pro。
确保您的计算机上安装了git-lfs 。

第1步：下载`llama.cpp`

要克隆llama.cpp存储库，请运行以下命令。

git clone [email protected]:ggerganov/llama.cpp.git

第二步：下载Yi模型

2.1 要仅使用指针克隆 XeIaso/yi-chat-6B-GGUF，请运行以下命令。

GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/XeIaso/yi-chat-6B-GGUF

2.2 要下载量化的 Yi 模型（yi-chat-6b.Q2_K.gguf），请运行以下命令。

git-lfs pull --include yi-chat-6b.Q2_K.gguf

第 3 步：进行推理

要使用 Yi 模型进行推理，您可以使用以下方法之一。

方法一：在终端进行推理
方法2：在Web中进行推理

方法一：在终端进行推理

要使用 4 线程编译llama.cpp然后进行推理，请导航到llama.cpp目录，然后运行以下命令。

尖端
将/Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.gguf替换为模型的实际路径。
默认情况下，模型在完成模式下运行。
对于其他输出自定义选项（例如系统提示、温度、重复惩罚等），请运行./main -h查看详细说明和用法。

make -j4 && ./main -m /Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.gguf -p " How do you feed your pet fox? Please answer this question in 6 simple steps:nStep 1: " -n 384 -e

...

How do you feed your pet fox ? Please answer this question in 6 simple steps:

Step 1: Select the appropriate food for your pet fox. You should choose high-quality, balanced prey items that are suitable for their unique dietary needs. These could include live or frozen mice, rats, pigeons, or other small mammals, as well as fresh fruits and vegetables.

Step 2: Feed your pet fox once or twice a day, depending on the species and its individual preferences. Always ensure that they have access to fresh water throughout the day.

Step 3: Provide an appropriate environment for your pet fox. Ensure it has a comfortable place to rest, plenty of space to move around, and opportunities to play and exercise.

Step 4: Socialize your pet with other animals if possible. Interactions with other creatures can help them develop social skills and prevent boredom or stress.

Step 5: Regularly check for signs of illness or discomfort in your fox. Be prepared to provide veterinary care as needed, especially for common issues such as parasites, dental health problems, or infections.

Step 6: Educate yourself about the needs of your pet fox and be aware of any potential risks or concerns that could affect their well-being. Regularly consult with a veterinarian to ensure you are providing the best care.

...

现在你已经成功向Yi模型提问并得到了答案！？

方法2：在Web中进行推理

要初始化轻量级且快速的聊天机器人，请运行以下命令。

 cd llama.cpp
./server --ctx-size 2048 --host 0.0.0.0 --n-gpu-layers 64 --model /Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.gguf

然后你可以得到这样的输出：

...

llama_new_context_with_model: n_ctx      = 2048
llama_new_context_with_model: freq_base  = 5000000.0
llama_new_context_with_model: freq_scale = 1
ggml_metal_init: allocating
ggml_metal_init: found device: Apple M2 Pro
ggml_metal_init: picking default device: Apple M2 Pro
ggml_metal_init: ggml.metallib not found, loading from source
ggml_metal_init: GGML_METAL_PATH_RESOURCES = nil
ggml_metal_init: loading ' /Users/yu/llama.cpp/ggml-metal.metal '
ggml_metal_init: GPU name:   Apple M2 Pro
ggml_metal_init: GPU family: MTLGPUFamilyApple8 (1008)
ggml_metal_init: hasUnifiedMemory              = true
ggml_metal_init: recommendedMaxWorkingSetSize  = 11453.25 MB
ggml_metal_init: maxTransferRate               = built-in GPU
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size =   128.00 MiB, ( 2629.44 / 10922.67)
llama_new_context_with_model: KV self size  =  128.00 MiB, K (f16):   64.00 MiB, V (f16):   64.00 MiB
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size =     0.02 MiB, ( 2629.45 / 10922.67)
llama_build_graph: non-view tensors processed: 676/676
llama_new_context_with_model: compute buffer total size = 159.19 MiB
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size =   156.02 MiB, ( 2785.45 / 10922.67)
Available slots:
- > Slot 0 - max context: 2048

llama server listening at http://0.0.0.0:8080

要访问聊天机器人界面，请打开 Web 浏览器并在地址栏中输入http://0.0.0.0:8080 。
在提示窗口中输入问题，例如“您如何喂养您的宠物狐狸？请通过6个简单步骤回答这个问题”，您将收到相应的答案。

[回到顶部⬆️]

网络演示

您可以为 Yi聊天模型构建 Web UI 演示（请注意，此方案不支持 Yi 基本模型）。

步骤 1：准备环境。

第2步：下载Yi模型。

步骤 3. 要在本地启动 Web 服务，请运行以下命令。

python demo/web_demo.py -c < your-model-path >

您可以通过在浏览器中输入控制台中提供的地址来访问 Web UI。

[回到顶部⬆️]

微调

bash finetune/scripts/run_sft_Yi_6b.sh

完成后，您可以使用以下命令比较微调模型和基础模型：

bash finetune/scripts/run_eval.sh

对于高级用法（例如根据您的自定义数据进行微调），请参阅下面的说明。

Yi 6B 和 34B 的微调代码

准备

从图像

默认情况下，我们使用 BAAI/COIG 的小型数据集来微调基本模型。您还可以使用以下jsonl格式准备自定义数据集：

{ "prompt" : " Human: Who are you? Assistant: " , "chosen" : " I'm Yi. " }

然后将它们挂载到容器中以替换默认的：

docker run -it 
    -v /path/to/save/finetuned/model/:/finetuned-model 
    -v /path/to/train.jsonl:/yi/finetune/data/train.json 
    -v /path/to/eval.jsonl:/yi/finetune/data/eval.json 
    ghcr.io/01-ai/yi:latest 
    bash finetune/scripts/run_sft_Yi_6b.sh

从本地服务器

确保你有康达。如果没有，请使用

mkdir -p ~ /miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~ /miniconda3/miniconda.sh
bash ~ /miniconda3/miniconda.sh -b -u -p ~ /miniconda3
rm -rf ~ /miniconda3/miniconda.sh
~ /miniconda3/bin/conda init bash
source ~ /.bashrc

然后，创建一个 conda 环境：

conda create -n dev_env python=3.10 -y
conda activate dev_env
pip install torch==2.0.1 deepspeed==0.10 tensorboard transformers datasets sentencepiece accelerate ray==2.7

硬件设置

对于Yi-6B型号，建议使用4个GPU的节点，每个GPU显存大于60GB。

对于 Yi-34B 模型，由于使用零卸载技术会消耗大量 CPU 内存，因此在 34B Finetune 训练时请注意限制 GPU 数量。请使用CUDA_VISIBLE_DEVICES来限制GPU的数量（如scripts/run_sft_Yi_34b.sh所示）。

微调 34B 模型的典型硬件设置是具有 8 个 GPU 的节点（通过 CUDA_VISIBLE_DEVICES=0,1,2,3 限制运行中的 4 个），每个 GPU 内存大于 80GB，总 CPU 内存大于 900GB。

快速入门

将基于 LLM 的模型下载到 MODEL_PATH（6B 和 34B）。典型的模型文件夹如下：

 | -- $MODEL_PATH
|   | -- config.json
|   | -- pytorch_model-00001-of-00002.bin
|   | -- pytorch_model-00002-of-00002.bin
|   | -- pytorch_model.bin.index.json
|   | -- tokenizer_config.json
|   | -- tokenizer.model
|   | -- ...

从huggingface下载数据集到本地存储DATA_PATH，例如Dahoas/rm-static。

 | -- $DATA_PATH
|   | -- data
|   |   | -- train-00000-of-00001-2a1df75c6bce91ab.parquet
|   |   | -- test-00000-of-00001-8c7c51afc6d45980.parquet
|   | -- dataset_infos.json
|   | -- README.md

finetune/yi_example_dataset有示例数据集，修改自 BAAI/COIG

 | -- $DATA_PATH
    | --data
        | -- train.jsonl
        | -- eval.jsonl

cd进入脚本文件夹，复制并粘贴脚本，然后运行。例如：

 cd finetune/scripts

bash run_sft_Yi_6b.sh

对于Yi-6B基础模型，设置training_debug_steps=20和num_train_epochs=4可以输出聊天模型，大约需要20分钟。

对于Yi-34B基础模型来说，初始化需要相对较长的时间。请耐心等待。

评估

 cd finetune/scripts

bash run_eval.sh

然后您将看到基本模型和微调模型的答案。

[回到顶部⬆️]

量化

GPT-Q

python quantization/gptq/quant_autogptq.py 
  --model /base_model                      
  --output_dir /quantized_model            
  --trust_remote_code

完成后，您可以按如下方式评估生成的模型：

python quantization/gptq/eval_quantized_model.py 
  --model /quantized_model                       
  --trust_remote_code

详细信息请参阅下面的说明。

GPT-Q 量化

GPT-Q 是一种 PTQ（训练后量化）方法。它可以节省内存并提供潜在的加速，同时保持模型的准确性。

Yi 模型不需要太多努力就可以进行 GPT-Q 量化。我们在下面提供了分步教程。

为了运行 GPT-Q，我们将使用 AutoGPTQ 和 exllama。 Huggingface Transformer 集成了 optimization 和 auto-gptq，可以在语言模型上执行 GPTQ 量化。

进行量化

提供了quant_autogptq.py脚本供您执行 GPT-Q 量化：

python quant_autogptq.py --model /base_model 
    --output_dir /quantized_model --bits 4 --group_size 128 --trust_remote_code

运行量化模型

您可以使用eval_quantized_model.py运行量化模型：

python eval_quantized_model.py --model /quantized_model --trust_remote_code

加权平均质量

python quantization/awq/quant_autoawq.py 
  --model /base_model                      
  --output_dir /quantized_model            
  --trust_remote_code

完成后，您可以按如下方式评估生成的模型：

python quantization/awq/eval_quantized_model.py 
  --model /quantized_model                       
  --trust_remote_code

详细信息请参阅下面的说明。

AWQ 量化

AWQ 是一种 PTQ（训练后量化）方法。它是适用于 LLM 的高效且准确的低位权重量化 (INT3/4)。

Yi 模型无需太多努力即可进行 AWQ 量化。我们在下面提供了分步教程。

为了运行 AWQ，我们将使用 AutoAWQ。

进行量化

提供了quant_autoawq.py脚本供您执行 AWQ 量化：

python quant_autoawq.py --model /base_model 
    --output_dir /quantized_model --bits 4 --group_size 128 --trust_remote_code

运行量化模型

您可以使用eval_quantized_model.py运行量化模型：

python eval_quantized_model.py --model /quantized_model --trust_remote_code

[回到顶部⬆️]

部署

如果您想部署 Yi 模型，请确保满足软件和硬件要求。

软件要求

在使用 Yi 量化模型之前，请确保您已安装下列正确的软件。

模型	软件
Yi 4位量化模型	AWQ 和 CUDA
Yi 8位量化模型	GPTQ 和 CUDA

硬件要求

在您的环境中部署 Yi 之前，请确保您的硬件满足以下要求。

聊天模特

模型	最小显存	推荐的 GPU 示例
Yi-6B-聊天	15GB	1 个 RTX 3090 (24 GB) 1 个 RTX 4090 (24 GB) 1 个 A10（24 GB） 1 个 A30（24 GB）
Yi-6B-聊天-4bits	4GB	1 个 RTX 3060 (12 GB) 1 个 RTX 4060 (8 GB)
Yi-6B-聊天-8bits	8GB	1 个 RTX 3070 (8 GB) 1 个 RTX 4060 (8 GB)
Yi-34B-聊天	72GB	4 个 RTX 4090 (24 GB) 1 个 A800（80GB）
Yi-34B-聊天-4bits	20GB	1 个 RTX 3090 (24 GB) 1 个 RTX 4090 (24 GB) 1 个 A10（24 GB） 1 个 A30（24 GB） 1 个 A100（40 GB）
Yi-34B-聊天-8位	38GB	2 个 RTX 3090 (24 GB) 2 个 RTX 4090 (24 GB) 1 个 A800（40 GB）

以下是不同批次用例下详细的最低 VRAM 要求。

模型	批次=1	批次=4	批次=16	批次=32
Yi-6B-聊天	12GB	13GB	15GB	18GB
Yi-6B-聊天-4bits	4GB	5GB	7GB	10GB
Yi-6B-聊天-8bits	7GB	8GB	10GB	14GB
Yi-34B-聊天	65GB	68GB	76GB	> 80 GB
Yi-34B-聊天-4bits	19GB	20GB	30GB	40GB
Yi-34B-聊天-8位	35GB	37GB	46GB	58GB

基础型号

模型	最小显存	推荐的 GPU 示例
伊6B	15GB	1 个 RTX 3090 (24 GB) 1 个 RTX 4090 (24 GB) 1 个 A10（24 GB） 1 个 A30（24 GB）
毅6B-200K	50GB	1 个 A800（80 GB）
毅9B	20GB	1 个 RTX 4090 (24 GB)
翼34B	72GB	4 个 RTX 4090 (24 GB) 1 个 A800（80 GB）
毅-34B-200K	200GB	4 个 A800（80 GB）

[回到顶部⬆️]

常问问题

如果您在使用Yi系列机型时遇到任何疑问，下面提供的解答可以为您提供有用的参考。

微调

基本模型或聊天模型 - 哪个需要微调？
选择用于微调的预训练语言模型取决于您可以使用的计算资源以及任务的特定要求。
- 如果您正在处理大量的微调数据（例如，超过 10,000 个样本），则基本模型可能是您的首选。
- 另一方面，如果您的微调数据不是那么广泛，那么选择聊天模型可能是更合适的选择。
- 通常建议对基本模型和聊天模型进行微调，比较它们的性能，然后选择最适合您的特定要求的模型。
Yi-34B 与 Yi-34B-Chat 进行全面微调 - 有什么区别？
Yi-34B和Yi-34B-Chat上的全面微调之间的主要区别在于微调方法和结果。
- Yi-34B-Chat 采用特殊微调 (SFT) 方法，产生更接近人类对话风格的响应。
- Base模型的微调更加通用，具有相对较高的性能潜力。
- 如果您对数据质量充满信心，那么使用Yi-34B进行微调可能是您的首选。
- 如果您的目标是模型生成的响应能够更好地模仿人类对话风格，或者您对数据质量有疑问，那么Yi-34B-Chat可能是您的最佳选择。

量化

量化模型与原始模型 - 性能差距是什么？

展开

附加信息

版本
类型其他源码
更新时间 2024-11-24
大小 50MB
来自于 Github

Yi

打造下一代开源双语法学硕士

什么是易？

介绍

消息

型号

聊天模特

基础型号

型号信息

如何使用易？

快速启动

选择你的道路

本地部署 Yi

不在本地部署 Yi

?‍♀️ 使用 API 运行易

?‍♀️ 游乐场里的润怡

?‍♀️ 与易聊天

快速入门 - pip

第 0 步：先决条件

第 1 步：准备环境

第2步：下载Yi模型

第 3 步：进行推理

使用 Yi 聊天模型进行推理

使用 Yi 基础模型进行推理

快速入门 - Docker

第 0 步：先决条件

第 1 步：启动 Docker

第 2 步：进行推理

使用 Yi 聊天模型进行推理

使用 Yi 基础模型进行推理

快速入门 - conda-lock

快速入门 - llama.cpp

第 0 步：先决条件

第1步：下载llama.cpp

第二步：下载Yi模型

第 3 步：进行推理

方法一：在终端进行推理

尖端

方法2：在Web中进行推理

网络演示

微调

Yi 6B 和 34B 的微调代码

准备

从图像

从本地服务器

硬件设置

快速入门

评估

量化

GPT-Q

GPT-Q 量化

进行量化

运行量化模型

加权平均质量

AWQ 量化

进行量化

运行量化模型

部署

软件要求

硬件要求

聊天模特

基础型号

常问问题

微调

量化

第1步：下载`llama.cpp`