重要的
NeMo Framework Launcher 仅与 NeMo 1.0 版本兼容。
NeMo Framework Launcher 是一个云原生工具,用于启动端到端 NeMo Framework 训练作业。
请参阅 NeMo 启动器指南了解更多信息。
NeMo 框架专注于生成式 AI 模型的基础模型训练。大型语言模型 (LLM) 预训练通常需要大量计算和模型并行性才能有效扩展训练。 NeMo 框架包含最新的大规模训练技术,包括:
NeMo Framework 模型训练可扩展到 1000 个 GPU,可用于在数万亿个代币上训练 LLM。
Launcher 被设计为一个简单易用的工具,用于在 CSP 或本地集群上启动 NeMo FW 训练作业。启动器通常从头节点使用,只需要最少的 python 安装。
启动器将为集群调度程序生成并启动提交脚本,还将组织和存储作业结果。启动器中包含经过测试的配置文件,但用户可以轻松修改配置文件中的任何内容。
NeMo FW Launcher 使用 NeMo FW Container 进行了测试,可以在此处申请。访问是自动的。用户还可以轻松配置启动器以使用他们想要提供的任何容器映像。
NeMo FW 启动器支持:
我们支持的一些模型包括:
有关更多详细信息,请参阅功能矩阵。
NeMo Framework Launcher 应安装在虚拟 Python 环境中的头节点或本地计算机上。
git clone https://github.com/NVIDIA/NeMo-Framework-Launcher.git
cd NeMo-Framework-Launcher
pip install -r requirements.txt
开始使用 NeMo Framework Launcher 的最佳方法是浏览 NeMo Framework Playbooks
在.yaml
文件中配置完所有内容后,可以使用以下命令运行启动器:
python main.py
由于启动器使用 Hydra,因此可以直接在.yaml
文件中或通过命令行覆盖任何配置。有关详细信息,请参阅 Hydra 的覆盖语法。
欢迎贡献!
要为 NeMo Framework Launcher 做出贡献,只需在 GitHub 上创建包含更改的拉取请求即可。在拉取请求经过 NeMo FW 开发人员审核、批准并通过单元和 CI 测试后,它将被合并。
NeMo Framework Launcher 根据 Apache 2.0 许可证获得许可