genai ko LLM下载 - genai ko LLM源代码下载

下载

韩国法学硕士（大语言模型）实践实验室

最近，作为生成式人工智能大脑的各种基础模型已经发布，许多公司正在审查或开发利用基础模型的应用程序。然而，大规模模型不容易在单个 GPU 上进行推理，并且将其用于生产或微调也并不容易。

本实践是为那些想要快速回顾生成式 AI 并将其应用于生产的人编写的，提供了有关如何在 AWS 基础设施上高效服务和微调大型韩国模型的分步指南。

1_prepare-dataset-alpaca-method.ipynb ：从指令数据集中准备训练数据集。该方法对每个样本进行标记。
1_prepare-dataset-chunk-method.ipynb ：从指令数据集中准备训练数据集。该方法将所有样本连接起来并根据块大小进行划分。
2_local-train-debug-lora.ipynb ：在认真执行训练实例之前，在开发环境中使用一些示例数据进行调试。如果您已经熟悉微调，请跳过此操作并继续进行 3_sm-train-lora.ipynb。
3_sm-train-lora.ipynb ：对 SageMaker 训练实例执行微调。

1_local-inference.ipynb ：从 Hugging Face Hub 加载模型并执行简单的推理。尽管不是必需的，但如果您想尝试该模型，我们建议您从本课程开始。
2_local-inference-deepspeed.py & 2_run.sh ：实验 DeepSpeed 分布式推理。建议使用配备多个GPU的实例或服务器。（例如ml.g5.12xlarge ）
3_sm-serving-djl-deepspeed-from-hub.ipynb ：使用 SageMaker DJL（深度 Java 库）服务容器（DeepSpeed 分布式推理）执行 SageMaker 模型服务。托管服务器直接从 Hugging Face Hub 下载模型。
3_sm-serving-djl-deepspeed-from-hub.ipynb ：使用 SageMaker DJL（深度 Java 库）服务容器（DeepSpeed 分布式推理）执行 SageMaker 模型服务。托管服务器从 S3 下载模型。下载速度非常快，因为文件是由 s5cmd 内部并行下载的。
3_sm-serving-tgi-from-hub.ipynb ：使用 SageMaker TGI（文本生成接口）服务容器执行 SageMaker 模型服务。 TGI是Hugging Face开发的分布式推理服务器，具有非常快的推理速度。
3_sm-serving-djl-fastertransformer-nocode.ipynb ：使用 SageMaker DJL（深度 Java 库）服务容器（NVIDIA FasterTransformer 分布式推理）执行 SageMaker 模型服务。仅对于支持的型号，它显示出比 DeepSpeed 更快的速度。