Yi下載 - Yi原始碼下載

Yi

其他源碼

下載

英語 | 中文

打造下一代開源雙文法碩士

？擁抱臉•？模型範圍•？明智的模型

?‍ 在 GitHub 上提出問題或討論想法

加入我們？不和諧或微信

查看易科技報告

在易學習中心成長

？在易科技部落格學習

什麼是易？
- 介紹
- 型號
  - 聊天模特兒
  - 基本型號
  - 型號資訊
- 訊息
如何使用易？
- 快速啟動
  - 選擇你的道路
  - 點
  - 泊塢窗
  - 駱駝.cpp
  - 康達洛克
  - 網路示範
- 微調
- 量化
- 部署
- 常問問題
- 學習中心
為什麼是易？
- 生態系統
  - 上游
  - 下游
    - 服務
    - 量化
    - 微調
    - 應用程式介面
- 基準測試
  - 基礎模型效能
  - 聊天模型效能
- 技術報告
  - 引文
誰可以使用易？
雜項。
- 致謝
- 免責聲明
- 執照

什麼是易？

介紹

？ Yi系列模型是01.AI從零開始訓練的下一代開源大語言模型。
？ Yi系列模型以雙語語言模型為目標，在3T多語言語料庫上進行訓練，成為全球最強的LLM模型之一，在語言理解、常識推理、閱讀理解等方面展現出良好的前景。例如，
- Yi-34B-Chat 模型在 AlpacaEval 排行榜上排名第二（僅次於 GPT-4 Turbo） ，優於其他 LLM（例如 GPT-4、Mixtral、Claude）（基於截至 2024 年 1 月的可用數據）。
- Yi-34B模型在Hugging Face Open LLM Leaderboard（預訓練）和C-Eval等各種基準測試中，在所有現有開源模型（如Falcon-180B、Llama-70B、Claude）中英文和中文排名第一（基於截至2023 年11 月的可用數據）。
- （感謝 Llama）感謝 Transformer 和 Llama 開源社區，因為它們減少了從頭開始建立所需的工作量，並支持在 AI 生態系統中使用相同的工具。
如果您對 Yi 採用 Llama 架構和許可證使用政策感興趣，請參閱Yi 與 Llama 的關係。
長話短說
Yi系列模型採用與Llama相同的模型架構，但不是Llama的衍生品。
- Yi和Llama都基於Transformer結構，自2018年以來一直是大型語言模型的標準架構。
- Llama 基於 Transformer 架構，憑藉其卓越的穩定性、可靠的收斂性和強大的兼容性，已成為大多數最先進開源模型的新基石。這使得 Llama 成為包括 Yi 在內的模型公認的基礎架構。
- 由於 Transformer 和 Llama 架構，其他模型可以利用它們的強大功能，減少從頭開始建立所需的工作量，並能夠在其生態系統中使用相同的工具。
- 然而，Yi 系列模型不是 Llama 的衍生品，因為它們不使用 Llama 的權重。
  - 由於大多數開源模型都採用 Llama 的結構，因此決定模型效能的關鍵因素是訓練資料集、訓練管道和訓練基礎設施。
  - Yi 以獨特且專有的方式進行開發，完全從頭開始獨立創建了自己的高品質訓練資料集、高效的訓練管道和強大的訓練基礎設施。這項努力帶來了優異的表現，Yi 系列車型在 2023 年 12 月的 Alpaca 排行榜上排名僅次於 GPT4，並超越 Llama。

[回到頂部⬆️]

訊息

2024-07-29 : 易食譜1.0發布，包含中英文教學和範例。

2024-05-13 : Yi-1.5系列模型開源，進一步提升編碼、數學、推理和指令追蹤能力。

2024-03-16 : Yi-9B-200K開源並向公眾開放。

2024-03-08 ：易科技報告出爐！

？ 2024-03-07 : Yi-34B-200K 的長文本能力得到增強。

在「大海撈針」測試中，Yi-34B-200K的性能提升了10.5%，從89.3%上升到令人印象深刻的99.8%。我們繼續在 5B 代幣長上下文資料混合上預訓練模型，並展示近乎全綠色的效能。

2024-03-06 : Yi-9B開源並向公眾開放。

Yi-9B在一系列類似規模的開源模型（包括 Mistral-7B、SOLAR-10.7B、Gemma-7B、DeepSeek-Coder-7B-Base-v1.5 等）中脫穎而出，成為表現最佳的模型，尤其擅長程式碼、數學、常識推理和閱讀理解。

2024-01-23 ：Yi-VL 模型Yi-VL-34B和Yi-VL-6B已開源並向公眾開放。

Yi-VL-34B在最新基準測試中在所有現有開源模型中排名第一，包括MMMU和CMMMU（基於截至2024年1月的可用數據）。

2023-11-23 ：聊天模型開源並向公眾開放。

此版本包含兩個基於先前發布的基礎模型的聊天模型、兩個由 GPTQ 量化的 8 位元模型和兩個由 AWQ 量化的 4 位元模型。

Yi-34B-Chat
Yi-34B-Chat-4bits
Yi-34B-Chat-8bits
Yi-6B-Chat
Yi-6B-Chat-4bits
Yi-6B-Chat-8bits

您可以在以下位置互動式地嘗試其中一些：

抱臉
複製

？ 2023年11月23日：小蟻系列車款社區授權協議更新至v2.1。

2023-11-08 : Yi-34B聊天模型受邀測試。

申請表：

英語
中國人

2023-11-05 ：基礎模型Yi-6B-200K和Yi-34B-200K開源並向公眾開放。

此版本包含兩個基本模型，其參數大小與先前版本相同，但上下文視窗擴展至 200K。

2023-11-02 ：基礎模型Yi-6B和Yi-34B已開源並向公眾開放。

第一個公開版本包含兩個雙語（英文/中文）基礎模型，參數大小為 6B 和 34B。兩者都以 4K 序列長度進行訓練，並且在推理期間可以擴展到 32K。

[回到頂部⬆️]

型號

Yi 型號有多種尺寸，可滿足不同的用例。您也可以微調 Yi 模型以滿足您的特定要求。

如果您想部署 Yi 模型，請確保滿足軟體和硬體要求。

聊天模特兒

模型	下載
Yi-34B-聊天	•？擁抱臉•？模型範圍•？明智的模型
Yi-34B-聊天-4bits	•？擁抱臉•？模型範圍•？明智的模型
Yi-34B-聊天-8位	•？擁抱臉•？模型範圍•？明智的模型
Yi-6B-聊天	•？擁抱臉•？模型範圍•？明智的模型
Yi-6B-聊天-4bits	•？擁抱臉•？模型範圍•？明智的模型
Yi-6B-聊天-8bits	•？擁抱臉•？模型範圍•？明智的模型

_{^{- 4 位元系列模型由 AWQ 量化。
- 8位元系列模型透過GPTQ量化
- 所有量化模型的使用門檻都很低，因為它們可以部署在消費級 GPU（例如 3090、4090）上。}}

基本型號

模型	下載
翼34B	•？擁抱臉•？模型範圍•？明智的模型
毅-34B-200K	•？擁抱臉•？模型範圍•？明智的模型
毅9B	•？擁抱臉•？模型範圍•？明智的模型
毅9B-200K	•？擁抱臉•？模型範圍•？明智的模型
伊6B	•？擁抱臉•？模型範圍•？明智的模型
毅6B-200K	•？擁抱臉•？模型範圍•？明智的模型

_{^{- 200k大約相當於40萬個漢字。
- 如果您想使用Yi-34B-200K的舊版（2023年11月5日發布），請執行git checkout 069cd341d60f4ce4b07ec394e82b79e94f656cf下載權重。}}

型號資訊

對於聊天和基本模型

模型	簡介	預設上下文視窗	預訓練令牌	訓練資料日期
6B系列機型	它們適合個人和學術用途。	4K	3T	截至 2023 年 6 月
9B系列機型	它是 Yi 系列模型中最擅長編碼和數學的。		Yi-9B是在Yi-6B的基礎上持續訓練的，使用0.8T token。
34B系列型號	它們適合個人、學術和商業（特別是中小型企業）用途。這是一種經濟高效的解決方案，價格實惠且具備應急能力。		3T

對於聊天模型
有關聊天模型限制，請參閱下面的說明。
- 幻覺：這是指模型生成事實上不正確或無意義的訊息。隨著模型的反應更加多樣化，出現不基於準確數據或邏輯推理的幻覺的可能性更高。
- 再生中的非確定性：當嘗試再生或採樣反應時，結果可能會出現不一致。即使在相似的輸入條件下，多樣性的增加也會導致不同的結果。
- 累積誤差：當模型反應中的誤差隨著時間的推移而複合時，就會發生這種情況。隨著模型產生更加多樣化的反應，小誤差累積成較大誤差的可能性就會增加，尤其是在擴展推理、數學問題解決等複雜任務中。
- 為了實現更一致且一致的回應，建議調整產生配置參數，例如溫度、top_p 或 top_k。這些調整有助於平衡模型輸出的創造力和連貫性。

[回到頂部⬆️]

如何使用易？

快速啟動
- 選擇你的道路
- 點
- 泊塢窗
- 康達洛克
- 駱駝.cpp
- 網路示範
微調
量化
部署
常問問題
學習中心

快速啟動

提示：如果您想開始使用 Yi 模型並探索不同的推理方法，請查看 Yi Cookbook。

選擇你的道路

選擇以下路徑之一，開始您與 Yi 的旅程！

本地部署 Yi

如果您喜歡在本地部署 Yi 模型，

?‍♀️並且您有足夠的資源（例如NVIDIA A800 80GB），您可以選擇以下方法之一：
- 點
- 碼頭工人
- 康達洛克
?‍♀️並且您的資源有限（例如MacBook Pro），您可以使用llama.cpp。

不在本地部署 Yi

如果您不想在本機上部署 Yi 模型，則可以使用下列任一選項來探索 Yi 的功能。

?‍♀️ 使用 API 運作易

如果你想探索 Yi 的更多特性，可以採用以下方法之一：

Yi API（Yi 官方）
- 一些申請人已獲得早期訪問權。請繼續關注下一輪的訪問！
Yi API（複製）

?‍♀️ 遊樂場裡的潤怡

如果您想與 Yi 聊天時使用更多可自訂的選項（例如係統提示、溫度、重複懲罰等），您可以嘗試以下選項之一：

Yi-34B-Chat-Playground (Yi官方)
- 可透過白名單進行存取。歡迎申請（用英文或中文填寫表格）。
Yi-34B-聊天-遊樂場（複製）

?‍♀️ 與容易聊天

如果您想與 Yi 聊天，您可以使用以下線上服務之一，它們提供類似的用戶體驗：

Yi-34B-Chat（抱臉的彝族官方）
- 無需註冊。
Yi-34B-Chat（Yi 官方測試版）
- 可透過白名單進行存取。歡迎申請（用英文或中文填寫表格）。

[回到頂部⬆️]

快速入門 - pip

本教學將引導您完成在 A800 (80G) 上本地運行 Yi-34B-Chat然後執行推理的每個步驟。

第 0 步：先決條件

確保安裝了Python 3.10或更高版本。
如果您想運行其他 Yi 型號，請參閱軟體和硬體需求。

第 1 步：準備環境

若要設定環境並安裝所需的軟體包，請執行下列命令。

git clone https://github.com/01-ai/Yi.git
cd yi
pip install -r requirements.txt

步驟2：下載Yi模型

您可以從以下來源下載 Yi 模型的權重和分詞器：

抱臉
模型範圍
智慧模型

第 3 步：進行推理

您可以使用 Yi chat 或基本模型進行推理，如下所示。

使用 Yi 聊天模型進行推理

建立一個名為quick_start.py的檔案並將以下內容複製到其中。

 from transformers import AutoModelForCausalLM , AutoTokenizer

model_path = '<your-model-path>'

tokenizer = AutoTokenizer . from_pretrained ( model_path , use_fast = False )

# Since transformers 4.35.0, the GPT-Q/AWQ model can be loaded using AutoModelForCausalLM.
model = AutoModelForCausalLM . from_pretrained (
    model_path ,
    device_map = "auto" ,
    torch_dtype = 'auto'
). eval ()

# Prompt content: "hi"
messages = [
    { "role" : "user" , "content" : "hi" }
]

input_ids = tokenizer . apply_chat_template ( conversation = messages , tokenize = True , add_generation_prompt = True , return_tensors = 'pt' )
output_ids = model . generate ( input_ids . to ( 'cuda' ))
response = tokenizer . decode ( output_ids [ 0 ][ input_ids . shape [ 1 ]:], skip_special_tokens = True )

# Model response: "Hello! How can I assist you today?"
print ( response )

運行quick_start.py 。
```
python quick_start.py
```
然後您可以看到類似下面的輸出。？
```
Hello ! How can I assist you today ? 
```

使用 Yi 基礎模型進行推理

翼34B
步驟類似於 pip - 使用 Yi 聊天模型進行推理。
您可以使用現有文件text_generation.py 。
```
python demo/text_generation.py  --model < your-model-path >
```
然後您可以看到類似下面的輸出。？
輸出。

提示：讓我告訴你一個關於貓湯姆和老鼠傑瑞的有趣故事，
世代：讓我告訴你一個發生在我童年的關於貓湯姆和老鼠傑瑞的有趣故事。我父親有一棟大房子，裡面住著兩隻貓，用來捕老鼠。有一天，我一個人在家玩，發現一隻雄貓仰躺在廚房門口附近，看上去很像要我們送東西，卻爬不起來，因為周圍人太多了！他又試了幾分鐘，最後還是放棄了…

毅9B

輸入

from transformers import AutoModelForCausalLM, AutoTokenizer

MODEL_DIR = " 01-ai/Yi-9B "
model = AutoModelForCausalLM.from_pretrained(MODEL_DIR, torch_dtype= " auto " )
tokenizer = AutoTokenizer.from_pretrained(MODEL_DIR, use_fast=False)

input_text = " # write the quick sort algorithm "
inputs = tokenizer(input_text, return_tensors= " pt " ).to(model.device)
outputs = model.generate( ** inputs, max_length=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

輸出

 # write the quick sort algorithm
def quick_sort(arr):
    if len(arr) < = 1:
        return arr
    pivot = arr[len(arr) // 2]
    left = [x for x in arr if x < pivot]
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    return quick_sort(left) + middle + quick_sort(right)

# test the quick sort algorithm
print(quick_sort([3, 6, 8, 10, 1, 2, 1]))

[回到頂部⬆️]

快速入門 - Docker

使用 Docker 在本機上運行 Yi-34B-chat：逐步指南。

本教學將引導您完成在 A800 GPU或4*4090本地運行 Yi-34B-Chat 並進行推理的每一步。

第 0 步：先決條件

確保您已安裝 Docker 和 nvidia-container-toolkit。

第 1 步：啟動 Docker

 docker run -it --gpus all 
-v <your-model-path>: /models
ghcr.io/01-ai/yi:latest

或者，您可以從registry.lingyiwanwu.com/ci/01-ai/yi:latest提取Yi Docker 映像。

第 2 步：進行推理

您可以使用 Yi chat 或基本模型進行推理，如下所示。

使用 Yi 聊天模型進行推理

步驟類似於 pip - 使用 Yi 聊天模型進行推理。

請注意，唯一的差異是設定model_path = '<your-model-mount-path>'而不是model_path = '<your-model-path>' 。

使用 Yi 基礎模型進行推理

步驟類似於 pip - 使用 Yi 基本模型進行推理。

請注意，唯一的區別是設定--model <your-model-mount-path>'而不是model <your-model-path> 。

快速入門 - conda-lock

您可以使用conda-lock為 conda 環境產生完全可重現的鎖定檔案。

您可以參考 conda-lock.yml 以了解依賴項的確切版本。此外，您可以利用micromamba來安裝這些依賴項。
若要安裝依賴項，請依照下列步驟操作：

請按照此處提供的說明安裝 micromamba。
執行micromamba install -y -n yi -f conda-lock.yml建立名為yi conda 環境並安裝必要的依賴項。

快速入門 - llama.cpp

以下教學將引導您完成在本地運行量化模型（Yi-chat-6B-2bits）然後執行推理的每個步驟。

使用 llama.cpp 在本機上執行 Yi-chat-6B-2bits：逐步指南。

本教學將引導您完成在本地運行量化模型 (Yi-chat-6B-2bits) 然後執行推理的每個步驟。

第 0 步：先決條件
步驟1：下載llama.cpp
第二步：下載Yi模型
第 3 步：進行推理

第 0 步：先決條件

本教學假設您使用配備 16GB 記憶體和 Apple M2 Pro 晶片的 MacBook Pro。
確保您的電腦上安裝了git-lfs 。

步驟1：下載`llama.cpp`

若要克隆llama.cpp儲存庫，請執行下列命令。

git clone [email protected]:ggerganov/llama.cpp.git

第二步：下載Yi模型

2.1 若要僅使用指針複製 XeIaso/yi-chat-6B-GGUF，請執行以下指令。

GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/XeIaso/yi-chat-6B-GGUF

2.2 若要下載量化的 Yi 模型（yi-chat-6b.Q2_K.gguf），請執行下列指令。

git-lfs pull --include yi-chat-6b.Q2_K.gguf

第 3 步：進行推理

要使用 Yi 模型進行推理，您可以使用以下方法之一。

方法一：在終端機進行推理
方法2：在Web中進行推理

方法一：在終端機進行推理

若要使用 4 個執行緒編譯llama.cpp然後進行推理，請導覽至llama.cpp目錄，然後執行下列命令。

尖端
將/Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.gguf替換為模型的實際路徑。
預設情況下，模型在完成模式下運行。
對於其他輸出自訂選項（例如係統提示、溫度、重複懲罰等），請執行./main -h查看詳細說明和用法。

make -j4 && ./main -m /Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.gguf -p " How do you feed your pet fox? Please answer this question in 6 simple steps:nStep 1: " -n 384 -e

...

How do you feed your pet fox ? Please answer this question in 6 simple steps:

Step 1: Select the appropriate food for your pet fox. You should choose high-quality, balanced prey items that are suitable for their unique dietary needs. These could include live or frozen mice, rats, pigeons, or other small mammals, as well as fresh fruits and vegetables.

Step 2: Feed your pet fox once or twice a day, depending on the species and its individual preferences. Always ensure that they have access to fresh water throughout the day.

Step 3: Provide an appropriate environment for your pet fox. Ensure it has a comfortable place to rest, plenty of space to move around, and opportunities to play and exercise.

Step 4: Socialize your pet with other animals if possible. Interactions with other creatures can help them develop social skills and prevent boredom or stress.

Step 5: Regularly check for signs of illness or discomfort in your fox. Be prepared to provide veterinary care as needed, especially for common issues such as parasites, dental health problems, or infections.

Step 6: Educate yourself about the needs of your pet fox and be aware of any potential risks or concerns that could affect their well-being. Regularly consult with a veterinarian to ensure you are providing the best care.

...

現在你已經成功向Yi模型提問並得到了答案！？

方法2：在Web中進行推理

若要初始化輕量級且快速的聊天機器人，請執行以下命令。

 cd llama.cpp
./server --ctx-size 2048 --host 0.0.0.0 --n-gpu-layers 64 --model /Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.gguf

然後你可以得到這樣的輸出：

...

llama_new_context_with_model: n_ctx      = 2048
llama_new_context_with_model: freq_base  = 5000000.0
llama_new_context_with_model: freq_scale = 1
ggml_metal_init: allocating
ggml_metal_init: found device: Apple M2 Pro
ggml_metal_init: picking default device: Apple M2 Pro
ggml_metal_init: ggml.metallib not found, loading from source
ggml_metal_init: GGML_METAL_PATH_RESOURCES = nil
ggml_metal_init: loading ' /Users/yu/llama.cpp/ggml-metal.metal '
ggml_metal_init: GPU name:   Apple M2 Pro
ggml_metal_init: GPU family: MTLGPUFamilyApple8 (1008)
ggml_metal_init: hasUnifiedMemory              = true
ggml_metal_init: recommendedMaxWorkingSetSize  = 11453.25 MB
ggml_metal_init: maxTransferRate               = built-in GPU
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size =   128.00 MiB, ( 2629.44 / 10922.67)
llama_new_context_with_model: KV self size  =  128.00 MiB, K (f16):   64.00 MiB, V (f16):   64.00 MiB
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size =     0.02 MiB, ( 2629.45 / 10922.67)
llama_build_graph: non-view tensors processed: 676/676
llama_new_context_with_model: compute buffer total size = 159.19 MiB
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size =   156.02 MiB, ( 2785.45 / 10922.67)
Available slots:
- > Slot 0 - max context: 2048

llama server listening at http://0.0.0.0:8080

若要存取聊天機器人介面，請開啟 Web 瀏覽器並在網址列輸入http://0.0.0.0:8080 。
在提示視窗中輸入問題，例如“您如何餵養您的寵物狐狸？請透過6個簡單步驟回答這個問題”，您將收到相應的答案。

[回到頂部⬆️]

網路示範

您可以為 Yi聊天模型建立 Web UI 演示（請注意，此方案不支援 Yi 基本模型）。

步驟 1：準備環境。

步驟2：下載Yi模型。

步驟 3. 若要在本機啟動 Web 服務，請執行下列命令。

python demo/web_demo.py -c < your-model-path >

您可以透過在瀏覽器中輸入控制台中提供的位址來存取 Web UI。

[回到頂部⬆️]

微調

bash finetune/scripts/run_sft_Yi_6b.sh

完成後，您可以使用以下命令比較微調模型和基礎模型：

bash finetune/scripts/run_eval.sh

對於進階用法（例如根據您的自訂資料進行微調），請參閱下面的說明。

Yi 6B 和 34B 的微調程式碼

準備

從影像

預設情況下，我們使用 BAAI/COIG 的小型資料集來微調基本模型。您也可以使用以下jsonl格式準備自訂資料集：

{ "prompt" : " Human: Who are you? Assistant: " , "chosen" : " I'm Yi. " }

然後將它們掛載到容器中以替換預設的：

docker run -it 
    -v /path/to/save/finetuned/model/:/finetuned-model 
    -v /path/to/train.jsonl:/yi/finetune/data/train.json 
    -v /path/to/eval.jsonl:/yi/finetune/data/eval.json 
    ghcr.io/01-ai/yi:latest 
    bash finetune/scripts/run_sft_Yi_6b.sh

從本地伺服器

確保你有康達。如果沒有，請使用

mkdir -p ~ /miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~ /miniconda3/miniconda.sh
bash ~ /miniconda3/miniconda.sh -b -u -p ~ /miniconda3
rm -rf ~ /miniconda3/miniconda.sh
~ /miniconda3/bin/conda init bash
source ~ /.bashrc

然後，創建一個 conda 環境：

conda create -n dev_env python=3.10 -y
conda activate dev_env
pip install torch==2.0.1 deepspeed==0.10 tensorboard transformers datasets sentencepiece accelerate ray==2.7

硬體設定

對於Yi-6B型號，建議使用4個GPU的節點，每個GPU顯存大於60GB。

對於 Yi-34B 模型，由於使用零卸載技術會消耗大量 CPU 內存，因此在 34B Finetune 訓練時請注意限制 GPU 數量。請使用CUDA_VISIBLE_DEVICES來限制GPU的數量（如scripts/run_sft_Yi_34b.sh所示）。

微調 34B 模型的典型硬體設定是具有 8 個 GPU 的節點（透過 CUDA_VISIBLE_DEVICES=0,1,2,3 限制運行中的 4 個），每個 GPU 記憶體大於 80GB，總 CPU 記憶體大於 900GB。

快速入門

將基於 LLM 的模型下載到 MODEL_PATH（6B 和 34B）。典型的模型資料夾如下：

 | -- $MODEL_PATH
|   | -- config.json
|   | -- pytorch_model-00001-of-00002.bin
|   | -- pytorch_model-00002-of-00002.bin
|   | -- pytorch_model.bin.index.json
|   | -- tokenizer_config.json
|   | -- tokenizer.model
|   | -- ...

從huggingface下載資料集到本機儲存DATA_PATH，例如Dahoas/rm-static。

 | -- $DATA_PATH
|   | -- data
|   |   | -- train-00000-of-00001-2a1df75c6bce91ab.parquet
|   |   | -- test-00000-of-00001-8c7c51afc6d45980.parquet
|   | -- dataset_infos.json
|   | -- README.md

finetune/yi_example_dataset有範例資料集，修改自 BAAI/COIG

 | -- $DATA_PATH
    | --data
        | -- train.jsonl
        | -- eval.jsonl

cd進入腳本資料夾，複製並貼上腳本，然後運行。例如：

 cd finetune/scripts

bash run_sft_Yi_6b.sh

對於Yi-6B基礎模型，設定training_debug_steps=20和num_train_epochs=4可以輸出聊天模型，大約需要20分鐘。

對於Yi-34B基礎模型來說，初始化需要相對較長的時間。請耐心等待。

評估

 cd finetune/scripts

bash run_eval.sh

然後您將看到基本模型和微調模型的答案。

[回到頂部⬆️]

量化

GPT-Q

python quantization/gptq/quant_autogptq.py 
  --model /base_model                      
  --output_dir /quantized_model            
  --trust_remote_code

完成後，您可以如下評估產生的模型：

python quantization/gptq/eval_quantized_model.py 
  --model /quantized_model                       
  --trust_remote_code

詳細資訊請參閱下面的說明。

GPT-Q 量化

GPT-Q 是一種 PTQ（訓練後量化）方法。它可以節省記憶體並提供潛在的加速，同時保持模型的準確性。

Yi 模型不需要太多努力就可以進行 GPT-Q 量化。我們在下面提供了逐步教程。

為了運行 GPT-Q，我們將使用 AutoGPTQ 和 exllama。 Huggingface Transformer 整合了 optimization 和 auto-gptq，可以在語言模型上執行 GPTQ 量化。

進行量化

提供了quant_autogptq.py腳本供您執行 GPT-Q 量化：

python quant_autogptq.py --model /base_model 
    --output_dir /quantized_model --bits 4 --group_size 128 --trust_remote_code

運行量化模型

您可以使用eval_quantized_model.py運行量化模型：

python eval_quantized_model.py --model /quantized_model --trust_remote_code

加權平均質量

python quantization/awq/quant_autoawq.py 
  --model /base_model                      
  --output_dir /quantized_model            
  --trust_remote_code

完成後，您可以如下評估產生的模型：

python quantization/awq/eval_quantized_model.py 
  --model /quantized_model                       
  --trust_remote_code

詳細資訊請參閱下面的說明。

AWQ 量化

AWQ 是一種 PTQ（訓練後量化）方法。它是適用於 LLM 的高效且準確的低位權重量化 (INT3/4)。

Yi 模型無需太多努力即可進行 AWQ 量化。我們在下面提供了逐步教程。

為了運行 AWQ，我們將使用 AutoAWQ。

進行量化

提供了quant_autoawq.py腳本供您執行 AWQ 量化：

python quant_autoawq.py --model /base_model 
    --output_dir /quantized_model --bits 4 --group_size 128 --trust_remote_code

運行量化模型

您可以使用eval_quantized_model.py運行量化模型：

python eval_quantized_model.py --model /quantized_model --trust_remote_code

[回到頂部⬆️]

部署

如果您想部署 Yi 模型，請確保滿足軟體和硬體要求。

軟體需求

在使用 Yi 量化模型之前，請確保您已安裝下列正確的軟體。

模型	軟體
Yi 4位元量化模型	AWQ 和 CUDA
Yi 8位元量化模型	GPTQ 和 CUDA

硬體需求

在您的環境中部署 Yi 之前，請確保您的硬體符合以下要求。

聊天模特兒

模型	最小顯存	推薦的 GPU 範例
Yi-6B-聊天	15GB	1 個 RTX 3090 (24 GB) 1 個 RTX 4090 (24 GB) 1 個 A10（24 GB） 1 個 A30（24 GB）
Yi-6B-聊天-4bits	4GB	1 個 RTX 3060 (12 GB) 1 個 RTX 4060 (8 GB)
Yi-6B-聊天-8bits	8GB	1 個 RTX 3070 (8 GB) 1 個 RTX 4060 (8 GB)
Yi-34B-聊天	72GB	4 個 RTX 4090 (24 GB) 1 個 A800（80GB）
Yi-34B-聊天-4bits	20GB	1 個 RTX 3090 (24 GB) 1 個 RTX 4090 (24 GB) 1 個 A10（24 GB） 1 個 A30（24 GB） 1 個 A100（40 GB）
Yi-34B-聊天-8位	38GB	2 個 RTX 3090 (24 GB) 2 個 RTX 4090 (24 GB) 1 個 A800（40 GB）

以下是不同批次用例下詳細的最低 VRAM 要求。

模型	批次=1	批次=4	批次=16	批次=32
Yi-6B-聊天	12GB	13GB	15GB	18GB
Yi-6B-聊天-4bits	4GB	5GB	7GB	10GB
Yi-6B-聊天-8bits	7GB	8GB	10GB	14GB
Yi-34B-聊天	65GB	68GB	76GB	> 80 GB
Yi-34B-聊天-4bits	19GB	20GB	30GB	40GB
Yi-34B-聊天-8位	35GB	37GB	46GB	58GB

基本型號

模型	最小顯存	推薦的 GPU 範例
伊6B	15GB	1 個 RTX 3090 (24 GB) 1 個 RTX 4090 (24 GB) 1 個 A10（24 GB） 1 個 A30（24 GB）
毅6B-200K	50GB	1 個 A800（80 GB）
毅9B	20GB	1 個 RTX 4090 (24 GB)
翼34B	72GB	4 個 RTX 4090 (24 GB) 1 個 A800（80 GB）
毅-34B-200K	200GB	4 個 A800（80 GB）

[回到頂部⬆️]

常問問題

如果您在使用Yi系列機型時遇到任何疑問，以下提供的解答可以提供您有用的參考。

微調

基本模型或聊天模型 - 哪個需要微調？
選擇用於微調的預訓練語言模型取決於您可以使用的運算資源以及任務的特定要求。
- 如果您正在處理大量的微調資料（例如，超過 10,000 個樣本），則基本模型可能是您的首選。
- 另一方面，如果您的微調資料不是那麼廣泛，那麼選擇聊天模型可能是更合適的選擇。
- 通常建議對基本模型和聊天模型進行微調，比較它們的性能，然後選擇最適合您的特定要求的模型。
Yi-34B 與 Yi-34B-Chat 進行全面微調 - 有什麼不同？
Yi-34B和Yi-34B-Chat上的全面微調之間的主要區別在於微調方法和結果。
- Yi-34B-Chat 採用特殊微調 (SFT) 方法，產生更接近人類對話風格的反應。
- Base模型的微調更加通用，具有相對較高的效能潛力。
- 如果您對數據品質充滿信心，那麼使用Yi-34B進行微調可能是您的首選。
- 如果您的目標是模型產生的回應能夠更好地模仿人類對話風格，或者您對資料品質有疑問，那麼Yi-34B-Chat可能是您的最佳選擇。

量化

量化模型與原始模型 - 效能差距是什麼？

展開

附加信息

版本
類型其他源碼
更新時間 2024-11-24
大小 50MB
來自於 Github

相關應用

Yi聊軟體

2023-07-19
靈易商家app

2023-06-12
Ling YI軟體

2023-06-09
java post代理商ip模擬請求提交搶購監控唯yi藝術theoneart二級科技原始碼

2022-09-22

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
waymo open dataset

其他源碼

December 2023 Update
SmartTube

其他源碼

24.71 Stable
Sunamu

其他源碼

Release 2.2.0
waymo open dataset

其他源碼

December 2023 Update
wp functions

其他類別

1.0.0
termwind

其他類別

v2.3.0

相關資訊全部

Yi

打造下一代開源雙文法碩士

什麼是易？

介紹

訊息

型號

聊天模特兒

基本型號

型號資訊

如何使用易？

快速啟動

選擇你的道路

本地部署 Yi

不在本地部署 Yi

?‍♀️ 使用 API 運作易

?‍♀️ 遊樂場裡的潤怡

?‍♀️ 與容易聊天

快速入門 - pip

第 0 步：先決條件

第 1 步：準備環境

步驟2：下載Yi模型

第 3 步：進行推理

使用 Yi 聊天模型進行推理

使用 Yi 基礎模型進行推理

快速入門 - Docker

第 0 步：先決條件

第 1 步：啟動 Docker

第 2 步：進行推理

使用 Yi 聊天模型進行推理

使用 Yi 基礎模型進行推理

快速入門 - conda-lock

快速入門 - llama.cpp

第 0 步：先決條件

步驟1：下載llama.cpp

第二步：下載Yi模型

第 3 步：進行推理

方法一：在終端機進行推理

尖端

方法2：在Web中進行推理

網路示範

微調

Yi 6B 和 34B 的微調程式碼

準備

從影像

從本地伺服器

硬體設定

快速入門

評估

量化

GPT-Q

GPT-Q 量化

進行量化

運行量化模型

加權平均質量

AWQ 量化

進行量化

運行量化模型

部署

軟體需求

硬體需求

聊天模特兒

基本型號

常問問題

微調

量化

步驟1：下載`llama.cpp`