Llama Modelsで開発していただきありがとうございます。 Llama 3.1リリースの一環として、GitHub Reposを統合し、Llamaの機能をE2E Llamaスタックに拡張したため、いくつかの追加レポを追加しました。今後の次のリポジトリを使用してください。
ご質問がある場合は、上記のリポジトリのいずれかに問題を提出してください。タイムリーに対応するために最善を尽くします。
ありがとう!
大規模な言語モデルの力を解き放ちます。 Llama 2は、あらゆる規模の個人、クリエイター、研究者、およびビジネスにアクセスできるようになりました。そのため、アイデアを責任を持って実験、革新し、拡大できるようになりました。
このリリースには、モデルの重みと、7Bから70Bのパラメーターの範囲の事前訓練および微調整されたLlama言語モデルの開始コードが含まれます。
このリポジトリは、Llama 2モデルをロードして推論を実行するための最小限の例として意図されています。抱き合った顔を活用するより詳細な例については、Llama-Recipesを参照してください。
updates.mdを参照してください。また、よくある質問の実行リストについては、こちらをご覧ください。
モデルの重みとトークンザーをダウンロードするには、Meta Webサイトにアクセスしてライセンスを受け入れてください。
リクエストが承認されると、電子メールで署名されたURLが届きます。次に、download.shスクリプトを実行し、ダウンロードを開始するように求められたときに提供されたURLを渡します。
前提条件: wget
とmd5sum
インストールされていることを確認してください。次に、スクリプトを実行します: ./download.sh
。
リンクは24時間後に期限切れになり、一定量のダウンロードが期限切れになることに注意してください。 403: Forbidden
などのエラーが表示されている場合は、いつでもリンクを再度リケートできます。
また、顔を抱き締めるダウンロードも提供しています。ライセンスを確認し、レポのモデルカードのフォームに記入することにより、モデルへのアクセスをリクエストできます。その後、1時間以内にバージョンのすべてのラマモデル(コードLlama、Llama 2、またはLlama Guard)にアクセスできるようになります。
以下の手順に従って、Llama 2モデルをすばやく起動して実行できます。これらの手順を使用すると、ローカルでクイック推論を実行できます。その他の例については、llama 2レシピリポジトリを参照してください。
pytorch / cudaを使用してクローンを使用してコンドラに囲まれ、このリポジトリをダウンロードします。
トップレベルのディレクトリの実行:
pip install -e .
Meta Webサイトにアクセスして登録してモデルをダウンロードします。
登録されると、モデルをダウンロードするためのURLを含むメールが表示されます。 download.shスクリプトを実行するときに、このURLが必要になります。
電子メールを取得したら、ダウンロードしたLlamaリポジトリに移動し、ダウンロードScriptを実行します。
必要なモデルがダウンロードされたら、以下のコマンドを使用してモデルをローカルに実行できます。
torchrun --nproc_per_node 1 example_chat_completion.py
--ckpt_dir llama-2-7b-chat/
--tokenizer_path tokenizer.model
--max_seq_len 512 --max_batch_size 6
注記
llama-2-7b-chat/
チェックポイントディレクトリへのパスとtokenizer.model
を、トークネイザーモデルへのパスに置き換えます。–nproc_per_node
は、使用しているモデルのMP値に設定する必要があります。max_seq_len
とmax_batch_size
パラメーターを調整します。モデルが異なるには、異なるモデル平行(MP)値が必要です。
モデル | MP |
---|---|
7b | 1 |
13b | 2 |
70b | 8 |
すべてのモデルは、最大4096トークンまでのシーケンス長をサポートしていますが、 max_seq_len
およびmax_batch_size
値に従ってキャッシュを事前に割り当てます。ハードウェアに従ってそれらを設定してください。
これらのモデルは、チャットやQ&AのためにFinetunedではありません。予想される答えがプロンプトの自然な継続であるように、それらを促す必要があります。
いくつかの例については、 example_text_completion.py
参照してください。説明するには、以下のコマンドを参照して、llama-2-7bモデルで実行してください( nproc_per_node
MP
値に設定する必要があります):
torchrun --nproc_per_node 1 example_text_completion.py
--ckpt_dir llama-2-7b/
--tokenizer_path tokenizer.model
--max_seq_len 128 --max_batch_size 4
微調整されたモデルは、ダイアログアプリケーションのためにトレーニングされました。 INST
される機能とパフォーマンスEOS
取得するBOS
は、 chat_completion
で定義されて<<SYS>>
strip()
のフォーマットに従う必要があります。 strip()
二重スペースを避けるための入力)。
また、安全でないとみなされる入力と出力をフィルタリングするために、追加の分類子を展開することもできます。推論コードの入力と出力に安全チェッカーを追加する方法の例については、Llama-Recipes Repoを参照してください。
llama-2-7b-chatを使用した例:
torchrun --nproc_per_node 1 example_chat_completion.py
--ckpt_dir llama-2-7b-chat/
--tokenizer_path tokenizer.model
--max_seq_len 512 --max_batch_size 6
Llama 2は、潜在的なリスクを使用する新しいテクノロジーです。これまでに実施されたテストは、すべてのシナリオをカバーすることはできませんでした。開発者がこれらのリスクに対処するのを支援するために、責任ある使用ガイドを作成しました。詳細については、研究論文もご覧ください。
次のいずれかの手段を使用して、モデルに関するソフトウェアの「バグ」またはその他の問題を報告してください。
model_card.mdを参照してください。
私たちのモデルと重量は、研究者と商業体の両方に対してライセンスされており、開放性の原則を支持しています。私たちの使命は、この機会を通じて個人と産業に力を与え、発見と倫理的なAIの進歩の環境を促進することです。
ライセンスファイルと、伴う許容可能な使用ポリシーを参照してください
一般的な質問のために、FAQはここにあります。これは、新しい質問が発生するにつれて、時間の経過とともに最新の状態に保たれます。
元のLlamaリリースのレポはllama_v1
ブランチにあります。