Llama は、開発者、研究者、企業が生成 AI アイデアを構築、実験し、責任を持って拡張できるように設計された、アクセスしやすいオープンな大規模言語モデル (LLM) です。これは基礎的なシステムの一部であり、グローバル コミュニティにおけるイノベーションの基盤として機能します。いくつかの重要な側面:
オープンアクセス: 最先端の大規模言語モデルに簡単にアクセスでき、開発者、研究者、組織間のコラボレーションと進歩を促進します。
幅広いエコシステム: Llama モデルは何億回もダウンロードされ、Llama 上に構築されたコミュニティ プロジェクトが数千あり、プラットフォームのサポートはクラウド プロバイダーからスタートアップまで幅広く、世界は Llama で構築されています。
信頼と安全性: Llama モデルは信頼性と安全性への包括的なアプローチの一部であり、コミュニティのコラボレーションを可能にし、生成 AI の信頼性と安全性ツールの開発と使用の標準化を促進するように設計されたモデルとツールをリリースします。
私たちの使命は、発見と倫理的な AI の進歩の環境を促進しながら、この機会を通じて個人と業界に力を与えることです。モデルの重みは研究者と営利団体にライセンスされており、公開性の原則を維持しています。
モデル | 発売日 | モデルサイズ | コンテキストの長さ | トークナイザー | 利用規約 | ライセンス | モデルカード |
---|---|---|---|---|---|---|---|
ラマ2 | 2023 年 7 月 18 日 | 7B、13B、70B | 4K | 例文 | 使用ポリシー | ライセンス | モデルカード |
ラマ 3 | 2024 年 4 月 18 日 | 8B、70B | 8K | TikTokenベース | 使用ポリシー | ライセンス | モデルカード |
ラマ 3.1 | 2024 年 7 月 23 日 | 8B、70B、405B | 128K | TikTokenベース | 使用ポリシー | ライセンス | モデルカード |
ラマ 3.2 | 2024 年 9 月 25 日 | 1B、3B | 128K | TikTokenベース | 使用ポリシー | ライセンス | モデルカード |
ラマ 3.2-ビジョン | 2024 年 9 月 25 日 | 11B、90B | 128K | TikTokenベース | 使用ポリシー | ライセンス | モデルカード |
モデルの重みとトークナイザーをダウンロードするには:
メタ・ラマのウェブサイトにアクセスしてください。
ライセンスを読んで同意します。
リクエストが承認されると、署名付き URL が電子メールで届きます。
Llama CLI をインストールします: pip install llama-stack
。 ( <-- すでにメールを受信している場合は、ここから始めてください。 )
llama model list
を実行して、利用可能な最新のモデルを表示し、ダウンロードするモデル ID を決定します。注: 古いバージョンのモデルが必要な場合は、 llama model list --show-all
を実行して、利用可能なすべての Llama モデルを表示します。
実行: llama download --source meta --model-id CHOSEN_MODEL_ID
ダウンロードを開始するように求められたら、指定された URL を渡します。
リンクは 24 時間および一定量のダウンロード後に期限切れになることに注意してください。 403: Forbidden
などのエラーが表示され始めた場合は、いつでもリンクを再リクエストできます。
モデルを実行するには、(このリポジトリのルート ディレクトリにあるrequirements.txt
に加えて) 次の依存関係をインストールする必要があります。
pip install torch fairscale fire blobfile
依存関係をインストールした後、次のようにサンプル スクリプトを ( llama_models/scripts/
サブディレクトリ内で) 実行できます。
#!/bin/bashCHECKPOINT_DIR=~/.llama/checkpoints/Meta-Llama3.1-8B-Instruct PYTHONPATH=$(git rev-parse --show-toplevel) torchrun llama_models/scripts/example_chat_completion.py $CHECKPOINT_DIR
上記のスクリプトは、指示 (チャット) モデルで使用する必要があります。基本モデルの場合は、スクリプトllama_models/scripts/example_text_completion.py
を使用します。これらのスクリプトは、Llama3 および Llama3.1 シリーズのモデルの両方で使用できることに注意してください。
テンソル並列処理を使用して大規模なモデルを実行するには、次のように変更する必要があります。
#!/bin/bashNGPS=8 PYTHONPATH=$(git rev-parse --show-toplevel) トーチラン --nproc_per_node=$NGPS llama_models/scripts/example_chat_completion.py $CHECKPOINT_DIR --model_Parallel_size $NGPS
推論の実行 (FP8 推論の実行を含む) の柔軟性をさらに高めるには、 Llama Stack
リポジトリを参照してください。
また、Hugging Face では、トランスフォーマーとネイティブllama3
形式の両方でダウンロードも提供しています。 Hugging Face からウェイトをダウンロードするには、次の手順に従ってください。
いずれかのリポジトリ (例: metal-llama/Meta-Llama-3.1-8B-Instruct) にアクセスします。
ライセンスを読んで同意します。リクエストが承認されると、すべての Llama 3.1 モデルと以前のバージョンへのアクセスが許可されます。リクエストの処理には最大 1 時間かかっていたことに注意してください。
このリポジトリで使用する元のネイティブ ウェイトをダウンロードするには、[ファイルとバージョン] タブをクリックし、 original
フォルダーの内容をダウンロードします。 pip install huggingface-hub
実行すると、コマンド ラインからダウンロードすることもできます。
ハグフェイス-cli ダウンロード metal-llama/Meta-Llama-3.1-8B-Instruct --include "original/*" --local-dir metal-llama/Meta-Llama-3.1-8B-Instruct
注: metal-llama/Meta-Llama-3.1-405B の元のネイティブ ウェイトは、この HugginFace リポジトリからは入手できません。
トランスフォーマーで使用するために、次のパイプライン スニペットは重みをダウンロードしてキャッシュします。
importtransformersimport torchmodel_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"pipeline =Transformers.pipeline( "text-generation", model="meta-llama/Meta-Llama-3.1-8B-Instruct", model_kwargs ={"torch_dtype": torch.bfloat16}、デバイス="cuda", )
pip install llama-models
実行するだけで、このリポジトリをパッケージとしてインストールできます。
ラマ モデルは、使用すると潜在的なリスクを伴う新しいテクノロジーです。これまでに実施されたテストでは、すべてのシナリオをカバーできていませんし、カバーできませんでした。開発者がこれらのリスクに対処できるように、私たちは責任ある使用ガイドを作成しました。
よくある質問については、FAQ をここでご覧ください。FAQ は、新しい質問が発生するたびに更新されます。