llama下載 - llama代碼下載

llama

其他源碼

下載

貶值註釋

感謝您使用美洲駝模型開發。作為Llama 3.1版本的一部分，我們已經合併了GitHub存儲庫，並增加了一些其他存儲庫，因為我們將Llama的功能擴展到了E2E Llama堆棧。請使用以下存儲庫：

Llama -Models-基礎模型的中央倉庫，包括基本公用事業，型號卡，許可證和使用政策
Purplellama-專注於安全風險和推理時間緩解的關鍵組成部分
Llama-Toolchain-模型開發（推理/微調/安全保護/合成數據生成）界面和規範實現
Llama-Antentic-System-E2E獨立的Llama堆棧系統以及自以為是的基礎接口，可以創建代理應用程序
Llama -Recipes-社區驅動的腳本和集成

如果您有任何疑問，請隨時在上述任何一個存儲庫上提出問題，我們將盡力及時做出回應。

謝謝你！

（已棄用）駱駝2

我們正在解鎖大型語言模型的力量。現在，各種規模的個人，創作者，研究人員和企業都可以使用Llama 2，以便他們可以負責任地試驗，創新和擴展自己的想法。

該版本包括用於預訓練和微調的Llama語言模型的模型權重和啟動代碼 - 範圍從7B到70B參數。

該存儲庫旨在作為加載Llama 2模型並運行推理的最小示例。有關利用擁抱臉的更詳細的例子，請參見Llama-Recipes。

更新後發布

請參閱更新。同樣，有關常見問題的運行列表，請參見此處。

下載

為了下載模型權重和令牌，請訪問Meta網站並接受我們的許可證。

批准您的請求後，您將通過電子郵件收到簽名的URL。然後運行下載腳本，通過提示開始下載時提供的URL。

先決條件：確保已安裝wget和md5sum 。然後運行腳本： ./download.sh 。

請記住，鏈接在24小時後和一定量的下載量過期。如果您開始看到諸如403: Forbidden錯誤，則可以隨時重新重新徵用鏈接。

進入擁抱的臉

我們還在擁抱臉上提供下載。您可以通過確認許可證並填寫回購模型卡中的表格來要求訪問模型。這樣做之後，您應該在1小時內訪問所有版本（代碼美洲駝，駱駝2或駱駝警衛）的所有美洲駝模型。

快速開始

您可以按照下面的步驟快速使用Llama 2型號開始運行。這些步驟將使您在本地快速推斷。有關更多示例，請參見Llama 2食譜存儲庫。

在帶有Pytorch / Cuda的Conda Env中，可用克隆並下載此存儲庫。
在頂級目錄運行中：
```
pip install -e .
```
訪問META網站並註冊以下載模型。
註冊後，您將收到帶有URL的電子郵件以下載模型。運行下載腳本時，您將需要此URL。
收到電子郵件後，請導航到下載的Llama存儲庫並運行下載。SH腳本。
- 確保將執行權限授予下載。SH腳本
- 在此過程中，將提示您從電子郵件中輸入URL。
- 請勿使用“複製鏈接”選項，而是確保從電子郵件中手動複製鏈接。
一旦下載了要下載的模型，就可以使用以下命令在本地運行該模型：

torchrun --nproc_per_node 1 example_chat_completion.py 
    --ckpt_dir llama-2-7b-chat/ 
    --tokenizer_path tokenizer.model 
    --max_seq_len 512 --max_batch_size 6

筆記

將llama-2-7b-chat/用通往檢查點目錄和tokenizer.model路徑替換為您的令牌模型的路徑。
應將–nproc_per_node設置為您正在使用的模型的MP值。
根據需要調整max_seq_len和max_batch_size參數。
此示例運行該存儲庫中找到的示例_chat_completion.py，但是您可以將其更改為其他.py文件。

推理

不同的模型需要不同的模型並聯（MP）值：

模型	MP
7b	1
13b	2
70B	8

所有模型都支持序列長度高達4096代幣，但是我們根據max_seq_len和max_batch_size values值將緩存預先分配。因此，根據您的硬件設置這些設置。

預驗證的模型

這些型號沒有用於聊天或問答。應該提示它們，以便預期的答案是提示的自然延續。

有關一些示例，請參見example_text_completion.py 。為了說明說明，請參見下面的命令以使用Llama-2-7b模型運行（ nproc_per_node需要將其設置為MP值）：

 torchrun --nproc_per_node 1 example_text_completion.py 
    --ckpt_dir llama-2-7b/ 
    --tokenizer_path tokenizer.model 
    --max_seq_len 128 --max_batch_size 4

微調聊天模型

對對話應用的微調模型進行了培訓。為了獲得他們的預期功能和性能，需要遵循chat_completion中定義的特定格式，包括INST和<<SYS>>標籤， BOS和EOS令牌，以及介於兩者之間的Whitespaces和Breakline（我們建議調用strip()在輸入上以避免雙空間）。

您還可以部署其他分類器，以濾除被認為不安全的輸入和輸出。有關如何在推理代碼的輸入和輸出中添加安全檢查器的示例，請參見Llama-Recipes Repo。

使用Llama-2-7b-chat的示例：

 torchrun --nproc_per_node 1 example_chat_completion.py 
    --ckpt_dir llama-2-7b-chat/ 
    --tokenizer_path tokenizer.model 
    --max_seq_len 512 --max_batch_size 6

Llama 2是一項新技術，具有潛在的使用風險。迄今為止進行的測試尚未（也無法）涵蓋所有場景。為了幫助開發人員解決這些風險，我們創建了負責任的使用指南。還可以在我們的研究論文中找到更多細節。