? 擁抱臉的模特兒| 部落格 | 網站 |開始使用
感謝您使用 Llama 模型進行開發。作為 Llama 3.1 版本的一部分,我們整合了 GitHub 儲存庫並添加了一些額外的儲存庫,因為我們將 Llama 的功能擴展為 e2e Llama Stack。請繼續使用以下儲存庫:
llama-models - 基礎模型的中央儲存庫,包括基本實用程式、模型卡、許可證和使用政策
PurpleLlama - Llama Stack 的關鍵元件,專注於安全風險和推理時間緩解
llama-toolchain - 模型開發(推理/微調/安全防護/合成資料產生)介面和規格實現
llama-agentic-system - E2E 獨立 Llama Stack 系統以及固定的底層接口,可以創建代理應用程式
llama-recipes - 社區驅動的腳本和集成
如果您有任何疑問,請隨時就上述任何儲存庫提出問題,我們將盡力及時回覆。
謝謝你!
我們正在釋放大型語言模型的力量。我們最新版本的 Llama 現在可供個人、創作者、研究人員和各種規模的企業使用,以便他們能夠負責任地實驗、創新和擴展他們的想法。
此版本包括預先訓練和指令調整的 Llama 3 語言模型的模型權重和起始代碼 - 包括 8B 到 70B 參數的大小。
此儲存庫是載入 Llama 3 模型和運行推理的最小範例。有關更詳細的範例,請參閱 llama-recipes。
要下載模型權重和分詞器,請訪問 Meta Llama 網站並接受我們的許可證。
一旦您的請求獲得批准,您將透過電子郵件收到簽署的 URL。然後,執行 download.sh 腳本,並在提示開始下載時傳遞提供的 URL。
先決條件:確保已安裝wget
和md5sum
。然後執行腳本: ./download.sh
。
請記住,連結將在 24 小時和一定下載量後過期。如果您開始看到諸如403: Forbidden
類的錯誤,您可以隨時重新要求連結。
我們也提供 Hugging Face 的下載,包括 Transformer 和原生llama3
格式。若要從 Hugging Face 下載權重,請依照以下步驟操作:
存取其中一個儲存庫,例如 meta-llama/Meta-Llama-3-8B-Instruct。
閱讀並接受許可證。一旦您的請求獲得批准,您將有權存取所有 Llama 3 模型。請注意,過去請求最多需要一小時才能處理。
若要下載原始本機權重以與此儲存庫一起使用,請按一下「檔案和版本」標籤並下載original
資料夾的內容。如果您pip install huggingface-hub
您也可以從命令列下載它們:
Huggingface-cli 下載meta-llama/Meta-Llama-3-8B-Instruct --include "original/*" --local-dir meta-llama/Meta-Llama-3-8B-Instruct
若要與轉換器一起使用,以下管道片段將下載並快取權重:
導入transformers導入torchmodel_id =“meta-llama/Meta-Llama-3-8B-Instruct”pipeline = Transformers.pipeline(“文字產生”,model =“meta-llama/Meta-Llama-3-8B-Instruct”,model_kwargs ={"torch_dtype": torch.bfloat16}, device="cuda", )
您可以按照以下步驟快速啟動並執行 Llama 3 模型。這些步驟將讓您在本地運行快速推理。有關更多範例,請參閱 Llama 食譜儲存庫。
使用 PyTorch / CUDA 在 conda 環境中複製並下載此儲存庫。
在頂級目錄中運行:
pip install -e 。
造訪 Meta Llama 網站並註冊以下載模型。
註冊後,您將收到一封電子郵件,其中包含下載模型的 URL。執行 download.sh 腳本時您將需要此 URL。
收到電子郵件後,導覽至下載的 llama 儲存庫並執行 download.sh 腳本。
確保授予 download.sh 腳本執行權限
在此過程中,系統將提示您輸入電子郵件中的 URL。
不要使用“複製連結”選項;手動複製電子郵件中的連結。
下載所需的模型後,您可以使用以下命令在本地運行該模型:
torchrun --nproc_per_node 1 example_chat_completion.py --ckpt_dir Meta-Llama-3-8B-Instruct/ --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model --max_seq_len 512 --max_batch_size 6
筆記
將Meta-Llama-3-8B-Instruct/
替換為檢查點目錄的路徑,將Meta-Llama-3-8B-Instruct/tokenizer.model
替換為標記生成器模型的路徑。
–nproc_per_node
應設定為您正在使用的模型的 MP 值。
依需求調整max_seq_len
和max_batch_size
參數。
此範例運行在此儲存庫中找到的 example_chat_completion.py,但您可以將其變更為不同的 .py 檔案。
不同的模型需要不同的模型並行 (MP) 值:
模型 | 國會議員 |
---|---|
8B | 1 |
70B | 8 |
所有模型都支援高達 8192 個 token 的序列長度,但我們根據max_seq_len
和max_batch_size
值預先分配快取。因此,請根據您的硬體進行設定。
這些模型未針對聊天或問答進行微調。應該提示他們,以便預期的答案成為提示的自然延續。
有關一些範例,請參閱example_text_completion.py
。為了說明這一點,請參閱下面的命令以使用 llama-3-8b 模型運行它( nproc_per_node
需要設定為MP
值):
torchrun --nproc_per_node 1 example_text_completion.py --ckpt_dir Meta-Llama-3-8B/ --tokenizer_path Meta-Llama-3-8B/tokenizer.model --max_seq_len 128 --max_batch_size 4
經過微調的模型針對對話應用進行了訓練。為了獲得預期的功能和效能,需要遵循ChatFormat
中定義的特定格式:提示以<|begin_of_text|>
特殊標記開始,後面跟著一條或多條訊息。每條訊息均以<|start_header_id|>
標籤、角色system
、 user
或assistant
以及<|end_header_id|>
標籤開頭。在雙換行符nn
之後,後面是訊息的內容。每條訊息的結尾均由<|eot_id|>
標記標記。
您也可以部署其他分類器來過濾掉被視為不安全的輸入和輸出。請參閱 llama-recipes 儲存庫,以了解如何在推理程式碼的輸入和輸出中新增安全檢查器的範例。
使用 llama-3-8b-chat 的範例:
torchrun --nproc_per_node 1 example_chat_completion.py --ckpt_dir Meta-Llama-3-8B-Instruct/ --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model --max_seq_len 512 --max_batch_size 6
Llama 3 是一項新技術,使用時有潛在風險。迄今為止進行的測試尚未(也不可能)涵蓋所有場景。為了幫助開發人員解決這些風險,我們創建了負責任的使用指南。
請透過以下方式之一回報模型的任何軟體「錯誤」或其他問題:
報告模型問題:https://github.com/meta-llama/llama3/issues
報告模型產生的有風險內容:developers.facebook.com/llama_output_feedback
回報錯誤和安全問題:facebook.com/whitehat/info
請參閱 MODEL_CARD.md。
我們的模型和權重已獲得研究人員和商業實體的許可,秉持開放原則。我們的使命是透過這個機會為個人和產業賦能,同時創造一個發現和道德人工智慧進步的環境。
請參閱許可證文件以及我們隨附的可接受使用政策
對於常見問題,可以在此處找到常見問題解答,此常見問題解答將隨著新問題的出現而不斷更新。