llama下载 - llama代码下载

llama

其他源码

下载

贬值注释

感谢您使用美洲驼模型开发。作为Llama 3.1版本的一部分，我们已经合并了GitHub存储库，并增加了一些其他存储库，因为我们将Llama的功能扩展到了E2E Llama堆栈。请使用以下存储库：

Llama -Models-基础模型的中央仓库，包括基本公用事业，型号卡，许可证和使用政策
Purplellama-专注于安全风险和推理时间缓解的关键组成部分
Llama-Toolchain-模型开发（推理/微调/安全保护/合成数据生成）界面和规范实现
Llama-Antentic-System-E2E独立的Llama堆栈系统以及自以为是的基础接口，可以创建代理应用程序
Llama -Recipes-社区驱动的脚本和集成

如果您有任何疑问，请随时在上述任何一个存储库上提出问题，我们将尽力及时做出回应。

谢谢你！

（已弃用）骆驼2

我们正在解锁大型语言模型的力量。现在，各种规模的个人，创作者，研究人员和企业都可以使用Llama 2，以便他们可以负责任地试验，创新和扩展自己的想法。

该版本包括用于预训练和微调的Llama语言模型的模型权重和启动代码 - 范围从7B到70B参数。

该存储库旨在作为加载Llama 2模型并运行推理的最小示例。有关利用拥抱脸的更详细的例子，请参见Llama-Recipes。

更新后发布

请参阅更新。同样，有关常见问题的运行列表，请参见此处。

下载

为了下载模型权重和令牌，请访问Meta网站并接受我们的许可证。

批准您的请求后，您将通过电子邮件收到签名的URL。然后运行下载脚本，通过提示开始下载时提供的URL。

先决条件：确保已安装wget和md5sum 。然后运行脚本： ./download.sh 。

请记住，链接在24小时后和一定量的下载量过期。如果您开始看到诸如403: Forbidden错误，则可以随时重新重新征用链接。

进入拥抱的脸

我们还在拥抱脸上提供下载。您可以通过确认许可证并填写回购模型卡中的表格来要求访问模型。这样做之后，您应该在1小时内访问所有版本（代码美洲驼，骆驼2或骆驼警卫）的所有美洲驼模型。

快速开始

您可以按照下面的步骤快速使用Llama 2型号开始运行。这些步骤将使您在本地快速推断。有关更多示例，请参见Llama 2食谱存储库。

在带有Pytorch / Cuda的Conda Env中，可用克隆并下载此存储库。
在顶级目录运行中：
```
pip install -e .
```
访问META网站并注册以下载模型。
注册后，您将收到带有URL的电子邮件以下载模型。运行下载脚本时，您将需要此URL。
收到电子邮件后，请导航到下载的Llama存储库并运行下载。SH脚本。
- 确保将执行权限授予下载。SH脚本
- 在此过程中，将提示您从电子邮件中输入URL。
- 请勿使用“复制链接”选项，而是确保从电子邮件中手动复制链接。
一旦下载了要下载的模型，就可以使用以下命令在本地运行该模型：

torchrun --nproc_per_node 1 example_chat_completion.py 
    --ckpt_dir llama-2-7b-chat/ 
    --tokenizer_path tokenizer.model 
    --max_seq_len 512 --max_batch_size 6

笔记

将llama-2-7b-chat/用通往检查点目录和tokenizer.model路径替换为您的令牌模型的路径。
应将–nproc_per_node设置为您正在使用的模型的MP值。
根据需要调整max_seq_len和max_batch_size参数。
此示例运行该存储库中找到的示例_chat_completion.py，但是您可以将其更改为其他.py文件。

推理

不同的模型需要不同的模型并联（MP）值：

模型	MP
7b	1
13b	2
70B	8

所有模型都支持序列长度高达4096代币，但是我们根据max_seq_len和max_batch_size values值将缓存预先分配。因此，根据您的硬件设置这些设置。

预验证的模型

这些型号没有用于聊天或问答。应该提示它们，以便预期的答案是提示的自然延续。

有关一些示例，请参见example_text_completion.py 。为了说明说明，请参见下面的命令以使用Llama-2-7b模型运行（ nproc_per_node需要将其设置为MP值）：

 torchrun --nproc_per_node 1 example_text_completion.py 
    --ckpt_dir llama-2-7b/ 
    --tokenizer_path tokenizer.model 
    --max_seq_len 128 --max_batch_size 4

微调聊天模型

对对话应用的微调模型进行了培训。为了获得他们的预期功能和性能，需要遵循chat_completion中定义的特定格式，包括INST和<<SYS>>标签， BOS和EOS令牌，以及介于两者之间的Whitespaces和Breakline（我们建议调用strip()在输入上以避免双空间）。

您还可以部署其他分类器，以滤除被认为不安全的输入和输出。有关如何在推理代码的输入和输出中添加安全检查器的示例，请参见Llama-Recipes Repo。

使用Llama-2-7b-chat的示例：

 torchrun --nproc_per_node 1 example_chat_completion.py 
    --ckpt_dir llama-2-7b-chat/ 
    --tokenizer_path tokenizer.model 
    --max_seq_len 512 --max_batch_size 6

Llama 2是一项新技术，具有潜在的使用风险。迄今为止进行的测试尚未（也无法）涵盖所有场景。为了帮助开发人员解决这些风险，我们创建了负责任的使用指南。还可以在我们的研究论文中找到更多细节。

问题

请通过以下一种方式报告任何软件“错误”或模型中的其他问题：

报告模型的报告：github.com/facebookresearch/llama
报告模型生成的风险内容：developer.facebook.com/llama_output_feedback
报告错误和安全问题：facebook.com/whitehat/info

型号卡

请参阅model_card.md。

执照

我们的模型和权重已获得研究人员和商业实体的许可，并坚持开放性的原则。我们的任务是通过这个机会赋予个人和行业能力，同时促进发现和道德AI进步的环境。

请参阅许可证文件以及我们随附的可接受使用政策

参考

研究论文
Llama 2技术概述
开放创新AI研究社区

对于常见问题，可以在这里找到常见问题解答，随着新问题的出现，随着时间的流逝，它将随着时间的推移而保持最新。

原始的骆驼

原始骆驼发行的仓库在llama_v1分支中。

展开

附加信息

版本
类型其他源码
更新时间 2025-02-01
大小 983.73KB
来自于 Github

llama

贬值注释

（已弃用）骆驼2

更新后发布

下载

进入拥抱的脸

快速开始

推理

预验证的模型

微调聊天模型

问题

型号卡

执照

参考

原始的骆驼

node llama cpp

llama models

LLaMA Factory

代码骆驼

Code Llama大模型

骆驼2

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind