genai ko LLM
1.0.0
最近,作為生成式人工智慧大腦的各種基礎模型已經發布,許多公司正在審查或開發利用基礎模型的應用程式。然而,大規模模型不容易在單一 GPU 上進行推理,並且將其用於生產或微調並不容易。
本實踐是為想要快速回顧生成式 AI 並將其應用於生產的人編寫的,提供了有關如何在 AWS 基礎設施上高效服務和微調大型韓國模型的逐步指南。
1_prepare-dataset-alpaca-method.ipynb
:從指令資料集中準備訓練資料集。此方法對每個樣本進行標記。1_prepare-dataset-chunk-method.ipynb
:從指令資料集中準備訓練資料集。此方法將所有樣本連接起來並根據區塊大小進行劃分。2_local-train-debug-lora.ipynb
:在認真執行訓練實例之前,在開發環境中使用一些範例資料進行偵錯。如果您已經熟悉微調,請跳過此操作並繼續進行 3_sm-train-lora.ipynb。3_sm-train-lora.ipynb
:對 SageMaker 訓練實例執行微調。 1_local-inference.ipynb
:從 Hugging Face Hub 載入模型並執行簡單的推理。儘管不是必需的,但如果您想嘗試模型,我們建議您從本課程開始。2_local-inference-deepspeed.py
& 2_run.sh
:實驗 DeepSpeed 分佈式推理。建議使用配備多個GPU的實例或伺服器。 (例如ml.g5.12xlarge
)3_sm-serving-djl-deepspeed-from-hub.ipynb
:使用 SageMaker DJL(深度 Java 函式庫)服務容器(DeepSpeed 分散式推理)執行 SageMaker 模型服務。託管伺服器直接從 Hugging Face Hub 下載模型。3_sm-serving-djl-deepspeed-from-hub.ipynb
:使用 SageMaker DJL(深度 Java 函式庫)服務容器(DeepSpeed 分散式推理)執行 SageMaker 模型服務。託管伺服器從 S3 下載模型。下載速度非常快,因為檔案是由 s5cmd 內部並行下載的。3_sm-serving-tgi-from-hub.ipynb
:使用 SageMaker TGI(文字產生介面)服務容器執行 SageMaker 模型服務。 TGI是Hugging Face開發的分散式推理伺服器,具有非常快速的推理速度。3_sm-serving-djl-fastertransformer-nocode.ipynb
:使用 SageMaker DJL(深度 Java 函式庫)服務容器(NVIDIA FasterTransformer 分散式推理)執行 SageMaker 模型服務。僅對於支援的型號,它顯示出比 DeepSpeed 更快的速度。 要親自執行此操作,我們建議準備一個具有以下規格的實例。
或者,您可以使用 SageMaker Studio Lab 或 SageMaker Studio。
ml.t3.medium
(最低規格)ml.m5.xlarge
(推薦)ml.g5.2xlarge
(最小規格)ml.g5.12xlarge
(推薦)ml.g5.2xlarge
:具有 7B 參數或更少的模型ml.g5.12xlarge
(推薦) 此範例程式碼是根據 MIT-0 許可證提供的。請參閱許可證文件。