genai ko LLM
1.0.0
最近,作为生成式人工智能大脑的各种基础模型已经发布,许多公司正在审查或开发利用基础模型的应用程序。然而,大规模模型不容易在单个 GPU 上进行推理,并且将其用于生产或微调也并不容易。
本实践是为那些想要快速回顾生成式 AI 并将其应用于生产的人编写的,提供了有关如何在 AWS 基础设施上高效服务和微调大型韩国模型的分步指南。
1_prepare-dataset-alpaca-method.ipynb
:从指令数据集中准备训练数据集。该方法对每个样本进行标记。1_prepare-dataset-chunk-method.ipynb
:从指令数据集中准备训练数据集。该方法将所有样本连接起来并根据块大小进行划分。2_local-train-debug-lora.ipynb
:在认真执行训练实例之前,在开发环境中使用一些示例数据进行调试。如果您已经熟悉微调,请跳过此操作并继续进行 3_sm-train-lora.ipynb。3_sm-train-lora.ipynb
:对 SageMaker 训练实例执行微调。 1_local-inference.ipynb
:从 Hugging Face Hub 加载模型并执行简单的推理。尽管不是必需的,但如果您想尝试该模型,我们建议您从本课程开始。2_local-inference-deepspeed.py
& 2_run.sh
:实验 DeepSpeed 分布式推理。建议使用配备多个GPU的实例或服务器。 (例如ml.g5.12xlarge
)3_sm-serving-djl-deepspeed-from-hub.ipynb
:使用 SageMaker DJL(深度 Java 库)服务容器(DeepSpeed 分布式推理)执行 SageMaker 模型服务。托管服务器直接从 Hugging Face Hub 下载模型。3_sm-serving-djl-deepspeed-from-hub.ipynb
:使用 SageMaker DJL(深度 Java 库)服务容器(DeepSpeed 分布式推理)执行 SageMaker 模型服务。托管服务器从 S3 下载模型。下载速度非常快,因为文件是由 s5cmd 内部并行下载的。3_sm-serving-tgi-from-hub.ipynb
:使用 SageMaker TGI(文本生成接口)服务容器执行 SageMaker 模型服务。 TGI是Hugging Face开发的分布式推理服务器,具有非常快的推理速度。3_sm-serving-djl-fastertransformer-nocode.ipynb
:使用 SageMaker DJL(深度 Java 库)服务容器(NVIDIA FasterTransformer 分布式推理)执行 SageMaker 模型服务。仅对于支持的型号,它显示出比 DeepSpeed 更快的速度。 要亲自执行此操作,我们建议准备一个具有以下规格的实例。
或者,您可以使用 SageMaker Studio Lab 或 SageMaker Studio。
ml.t3.medium
(最低规格)ml.m5.xlarge
(推荐)ml.g5.2xlarge
(最小规格)ml.g5.12xlarge
(推荐)ml.g5.2xlarge
:具有 7B 参数或更少的模型ml.g5.12xlarge
(推荐) 此示例代码是根据 MIT-0 许可证提供的。请参阅许可证文件。