英語 | 中国語
?ハグ顔•?モデルスコープ • ?ワイズモデル
? GitHub で質問したり、アイデアについて話し合ったりする
参加してみませんか? Discord または WeChat
Yi Techレポートをご覧ください
Yi ラーニング ハブで成長する
? Yi Tech ブログで学ぶ
? Yi シリーズ モデルは、01.AI によってゼロからトレーニングされた次世代のオープンソースの大規模言語モデルです。
?バイリンガル言語モデルとしてターゲットにされ、3T 多言語コーパスでトレーニングされた Yi シリーズ モデルは、世界中で最も強力な LLM の 1 つとなり、言語理解、常識的推論、読解などにおいて期待を示します。例えば、
Yi-34B-Chat モデルは、AlpacaEval Leaderboard (2024 年 1 月までに入手可能なデータに基づく) で他の LLM (GPT-4、Mixtral、Claude など) を上回り、 2 位 (GPT-4 Turbo に続く) にランクインしました。
Yi-34B モデルは、Hugging Face Open LLM Leaderboard (トレーニング済み) や C-Eval などのさまざまなベンチマークで、英語と中国語の両方で既存のすべてのオープンソース モデル(Falcon-180B、Llama-70B、Claude など) の中で 1 位にランクされました。 (2023 年 11 月までに入手可能なデータに基づいています)。
(Llama の功績) Transformer と Llama のオープンソース コミュニティのおかげで、ゼロから構築するのに必要な労力が軽減され、AI エコシステム内で同じツールを利用できるようになりました。
TL;DR
Yi シリーズ モデルは Llama と同じモデル アーキテクチャを採用していますが、Llama の派生モデルではありません。
Yi と Llama はどちらも、2018 年以来大規模言語モデルの標準アーキテクチャとなっている Transformer 構造に基づいています。
Transformer アーキテクチャに基づいた Llama は、その優れた安定性、信頼性の高いコンバージェンス、および堅牢な互換性により、ほとんどの最先端のオープンソース モデルの新たな基盤となっています。これにより、Llama は Yi を含むモデルの基礎フレームワークとして認識されています。
Transformer および Llama アーキテクチャのおかげで、他のモデルでもその能力を活用できるため、最初から構築するのに必要な労力が軽減され、エコシステム内で同じツールを利用できるようになります。
ただし、Yi シリーズ モデルは Llama のウェイトを使用しないため、Llama の派生モデルではありません。
Llama の構造は大部分のオープンソース モデルで採用されているため、モデルのパフォーマンスを決定する重要な要素はトレーニング データセット、トレーニング パイプライン、トレーニング インフラストラクチャです。
Yi は独自の独自の方法で開発し、独自の高品質トレーニング データセット、効率的なトレーニング パイプライン、堅牢なトレーニング インフラストラクチャを完全にゼロから独自に作成しました。この取り組みは、2023 年 12 月の Alpaca Leaderboard で Yi シリーズ モデルが GPT4 のすぐ後ろにランクされ、Llama を上回る優れたパフォーマンスにつながりました。
[ トップに戻る ⬆️ ]
Yi-9B-200K
がオープンソース化され、一般公開されています。Yi-9B
がオープンソース化され、一般公開されました。Yi-9B
、同様のサイズの一連のオープンソース モデル (Mistral-7B、SOLAR-10.7B、Gemma-7B、DeepSeek-Coder-7B-Base-v1.5 などを含む) の中でトップパフォーマンスとして際立っています。特にコード、数学、常識的推論、読解力に優れています。Yi-VL-34B
およびYi-VL-6B
がオープンソース化され、一般公開されています。Yi-VL-34B
、MMMU や CMMMU を含む最新のベンチマークにおいて、既存のすべてのオープンソース モデルの中で第 1 位にランクされています (2024 年 1 月までに入手可能なデータに基づく)。Yi-34B-Chat
Yi-34B-Chat-4bits
Yi-34B-Chat-8bits
Yi-6B-Chat
Yi-6B-Chat-4bits
Yi-6B-Chat-8bits
それらのいくつかは、次の場所で対話的に試すことができます。
Yi-6B-200K
およびYi-34B-200K
がオープンソース化され、一般公開されています。Yi-6B
およびYi-34B
がオープンソース化され、一般公開されています。[ トップに戻る ⬆️ ]
Yi モデルには複数のサイズがあり、さまざまな使用例に対応します。特定の要件に合わせて Yi モデルを微調整することもできます。
Yi モデルを展開する場合は、ソフトウェアとハードウェアの要件を満たしていることを確認してください。
モデル | ダウンロード |
---|---|
Yi-34B-チャット | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
Yi-34B-チャット-4bits | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
Yi-34B-チャット-8bits | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
Yi-6B-チャット | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
Yi-6B-チャット-4bits | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
Yi-6B-チャット-8bits | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
- 4 ビット シリーズ モデルは AWQ によって量子化されます。
- 8 ビット シリーズ モデルは GPTQ によって量子化されます
- すべての量子化モデルは、コンシューマ グレードの GPU (例: 3090、4090) に展開できるため、使用の障壁が低くなります。
モデル | ダウンロード |
---|---|
Yi-34B | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
Yi-34B-200K | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
Yi-9B | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
Yi-9B-200K | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
Yi-6B | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
Yi-6B-200K | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
- 200k は、中国語の 400,000 文字にほぼ相当します。
- Yi-34B-200K の前のバージョン (2023 年 11 月 5 日にリリース) を使用する場合は、 git checkout 069cd341d60f4ce4b07ec394e82b79e94f656cf
を実行して重量をダウンロードします。
モデル | イントロ | デフォルトのコンテキストウィンドウ | 事前トレーニングされたトークン | トレーニングデータの日付 |
---|---|---|---|---|
6Bシリーズモデル | これらは個人的および学術的な使用に適しています。 | 4K | 3T | 2023年6月まで |
9Bシリーズモデル | Yi シリーズ モデルの中でコーディングと数学の能力が最も優れています。 | Yi-9B は、0.8T トークンを使用して、Yi-6B に基づいて継続的にトレーニングされます。 | ||
34Bシリーズモデル | これらは、個人、学術、商業 (特に中小企業) の目的に適しています。これは、手頃な価格で緊急機能を備えた、コスト効率の高いソリューションです。 | 3T |
チャットモデルの場合
ただし、この多様性の高さにより、次のような特定の既存の問題が増幅される可能性があります。
[ トップに戻る ⬆️ ]
ヒント: Yi モデルを使い始めて、さまざまな推論方法を検討したい場合は、Yi Cookbook を確認してください。
次のいずれかのパスを選択して、Yi との旅を始めましょう。
Yi モデルをローカルにデプロイすることを希望する場合は、
?♀️十分なリソース (NVIDIA A800 80GB など) がある場合は、次のいずれかの方法を選択できます。
?♀️ リソースが限られている場合 (MacBook Pro など)、llama.cpp を使用できます。
Yi モデルをローカルにデプロイしたくない場合は、次のオプションのいずれかを使用して Yi の機能を調べることができます。
Yi の機能をさらに詳しく調べたい場合は、次のいずれかの方法を採用できます。
Yi API (Yi 公式)
Yi API (レプリケート)
よりカスタマイズ可能なオプション (システム プロンプト、温度、繰り返しペナルティなど) を使用して Yi とチャットしたい場合は、次のオプションのいずれかを試すことができます。
Yi-34B-Chat-Playground (Yi 公式)
Yi-34B-チャット-プレイグラウンド (複製)
Yi とチャットしたい場合は、同様のユーザー エクスペリエンスを提供する次のオンライン サービスのいずれかを使用できます。
Yi-34B-Chat (ハグフェイスの Yi 担当者)
Yi-34B-Chat (Yi 公式ベータ版)
[ トップに戻る ⬆️ ]
このチュートリアルでは、Yi-34B-Chat を A800 (80G) 上でローカルに実行し、推論を実行するすべての手順を説明します。
Python 3.10 以降のバージョンがインストールされていることを確認してください。
他の Yi モデルを実行する場合は、ソフトウェアとハードウェアの要件を参照してください。
環境を設定し、必要なパッケージをインストールするには、次のコマンドを実行します。
git clone https://github.com/01-ai/Yi.git
cd yi
pip install -r requirements.txt
Yi モデルの重みとトークナイザーは、次のソースからダウンロードできます。
以下のように Yi チャットまたはベースモデルを使用して推論を実行できます。
quick_start.py
という名前のファイルを作成し、次の内容をそこにコピーします。
from transformers import AutoModelForCausalLM , AutoTokenizer
model_path = '<your-model-path>'
tokenizer = AutoTokenizer . from_pretrained ( model_path , use_fast = False )
# Since transformers 4.35.0, the GPT-Q/AWQ model can be loaded using AutoModelForCausalLM.
model = AutoModelForCausalLM . from_pretrained (
model_path ,
device_map = "auto" ,
torch_dtype = 'auto'
). eval ()
# Prompt content: "hi"
messages = [
{ "role" : "user" , "content" : "hi" }
]
input_ids = tokenizer . apply_chat_template ( conversation = messages , tokenize = True , add_generation_prompt = True , return_tensors = 'pt' )
output_ids = model . generate ( input_ids . to ( 'cuda' ))
response = tokenizer . decode ( output_ids [ 0 ][ input_ids . shape [ 1 ]:], skip_special_tokens = True )
# Model response: "Hello! How can I assist you today?"
print ( response )
quick_start.py
を実行します。
python quick_start.py
すると、以下のような出力が表示されます。 ?
Hello ! How can I assist you today ?
Yi-34B
この手順は、「pip - Yi チャット モデルを使用した推論の実行」に似ています。
既存のファイルtext_generation.py
を使用できます。
python demo/text_generation.py --model < your-model-path >
すると、以下のような出力が表示されます。 ?
プロンプト: 猫のトムとネズミのジェリーについての興味深い話をさせてください。
世代: 私の子供の頃に起こった、猫のトムとネズミのジェリーについての興味深い話をさせてください。私の父は大きな家を持っていて、その中にネズミを殺すために2匹の猫が住んでいた。ある日、私が家で一人で遊んでいたとき、雄猫の一匹がキッチンのドアの近くで仰向けに横たわっているのを見つけました。まるで私たちに何かを求めているようでしたが、周りに人が多すぎて起き上がることができませんでした。彼は数分間努力を続けましたが、最終的には諦めました...
Yi-9B
入力
from transformers import AutoModelForCausalLM, AutoTokenizer
MODEL_DIR = " 01-ai/Yi-9B "
model = AutoModelForCausalLM.from_pretrained(MODEL_DIR, torch_dtype= " auto " )
tokenizer = AutoTokenizer.from_pretrained(MODEL_DIR, use_fast=False)
input_text = " # write the quick sort algorithm "
inputs = tokenizer(input_text, return_tensors= " pt " ).to(model.device)
outputs = model.generate( ** inputs, max_length=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
出力
# write the quick sort algorithm
def quick_sort(arr):
if len(arr) < = 1:
return arr
pivot = arr[len(arr) // 2]
left = [x for x in arr if x < pivot]
middle = [x for x in arr if x == pivot]
right = [x for x in arr if x > pivot]
return quick_sort(left) + middle + quick_sort(right)
# test the quick sort algorithm
print(quick_sort([3, 6, 8, 10, 1, 2, 1]))
[ トップに戻る ⬆️ ]
Docker と nvidia-container-toolkit がインストールされていることを確認してください。
docker run -it --gpus all
-v <your-model-path>: /models
ghcr.io/01-ai/yi:latest
あるいは、 registry.lingyiwanwu.com/ci/01-ai/yi:latest
から Yi Docker イメージをプルすることもできます。
以下のように Yi チャットまたはベースモデルを使用して推論を実行できます。
この手順は、「pip - Yi チャット モデルを使用した推論の実行」に似ています。
唯一の違いは、 model_path = '<your-model-mount-path>'
model_path = '<your-model-path>'
を設定することであることに注意してください。
この手順は、「pip - Yi 基本モデルで推論を実行する」と似ています。
唯一の違いは、 model <your-model-path>
の代わりに--model <your-model-mount-path>'
設定することであることに注意してください。
conda-lock
使用すると、conda 環境用に完全に再現可能なロック ファイルを生成できます。micromamba
利用できます。こちらの手順に従って micromamba をインストールしてください。
micromamba install -y -n yi -f conda-lock.yml
を実行して、 yi
という名前の conda 環境を作成し、必要な依存関係をインストールします。
次のチュートリアルでは、量子化モデル (Yi-chat-6B-2bits) をローカルで実行して推論を実行するすべての手順を説明します。
このチュートリアルは、16 GB のメモリと Apple M2 Pro チップを搭載した MacBook Pro を使用することを前提としています。
git-lfs
がマシンにインストールされていることを確認してください。
llama.cpp
をダウンロードするllama.cpp
リポジトリのクローンを作成するには、次のコマンドを実行します。
git clone [email protected]:ggerganov/llama.cpp.git
2.1 ポインターのみを使用して XeIaso/yi-chat-6B-GGUF のクローンを作成するには、次のコマンドを実行します。
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/XeIaso/yi-chat-6B-GGUF
2.2 量子化された Yi モデル (yi-chat-6b.Q2_K.gguf) をダウンロードするには、次のコマンドを実行します。
git-lfs pull --include yi-chat-6b.Q2_K.gguf
Yi モデルを使用して推論を実行するには、次のいずれかの方法を使用できます。
方法 1: 端末で推論を実行する
方法 2: Web で推論を実行する
4 つのスレッドを使用してllama.cpp
をコンパイルし、推論を実行するには、 llama.cpp
ディレクトリに移動し、次のコマンドを実行します。
ヒント
/Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.gguf
モデルの実際のパスに置き換えます。デフォルトでは、モデルは完了モードで動作します。
追加の出力カスタマイズ オプション (システム プロンプト、温度、反復ペナルティなど) については、
./main -h
を実行して詳細な説明と使用法を確認してください。
make -j4 && ./main -m /Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.gguf -p " How do you feed your pet fox? Please answer this question in 6 simple steps:nStep 1: " -n 384 -e
...
How do you feed your pet fox ? Please answer this question in 6 simple steps:
Step 1: Select the appropriate food for your pet fox. You should choose high-quality, balanced prey items that are suitable for their unique dietary needs. These could include live or frozen mice, rats, pigeons, or other small mammals, as well as fresh fruits and vegetables.
Step 2: Feed your pet fox once or twice a day, depending on the species and its individual preferences. Always ensure that they have access to fresh water throughout the day.
Step 3: Provide an appropriate environment for your pet fox. Ensure it has a comfortable place to rest, plenty of space to move around, and opportunities to play and exercise.
Step 4: Socialize your pet with other animals if possible. Interactions with other creatures can help them develop social skills and prevent boredom or stress.
Step 5: Regularly check for signs of illness or discomfort in your fox. Be prepared to provide veterinary care as needed, especially for common issues such as parasites, dental health problems, or infections.
Step 6: Educate yourself about the needs of your pet fox and be aware of any potential risks or concerns that could affect their well-being. Regularly consult with a veterinarian to ensure you are providing the best care.
...
これで、Yi モデルに質問し、回答を得ることができました。 ?
軽量で迅速なチャットボットを初期化するには、次のコマンドを実行します。
cd llama.cpp
./server --ctx-size 2048 --host 0.0.0.0 --n-gpu-layers 64 --model /Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.gguf
次に、次のような出力を取得できます。
...
llama_new_context_with_model: n_ctx = 2048
llama_new_context_with_model: freq_base = 5000000.0
llama_new_context_with_model: freq_scale = 1
ggml_metal_init: allocating
ggml_metal_init: found device: Apple M2 Pro
ggml_metal_init: picking default device: Apple M2 Pro
ggml_metal_init: ggml.metallib not found, loading from source
ggml_metal_init: GGML_METAL_PATH_RESOURCES = nil
ggml_metal_init: loading ' /Users/yu/llama.cpp/ggml-metal.metal '
ggml_metal_init: GPU name: Apple M2 Pro
ggml_metal_init: GPU family: MTLGPUFamilyApple8 (1008)
ggml_metal_init: hasUnifiedMemory = true
ggml_metal_init: recommendedMaxWorkingSetSize = 11453.25 MB
ggml_metal_init: maxTransferRate = built-in GPU
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size = 128.00 MiB, ( 2629.44 / 10922.67)
llama_new_context_with_model: KV self size = 128.00 MiB, K (f16): 64.00 MiB, V (f16): 64.00 MiB
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size = 0.02 MiB, ( 2629.45 / 10922.67)
llama_build_graph: non-view tensors processed: 676/676
llama_new_context_with_model: compute buffer total size = 159.19 MiB
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size = 156.02 MiB, ( 2785.45 / 10922.67)
Available slots:
- > Slot 0 - max context: 2048
llama server listening at http://0.0.0.0:8080
チャットボット インターフェイスにアクセスするには、Web ブラウザを開いてアドレス バーにhttp://0.0.0.0:8080
と入力します。
「ペットのキツネにどのように餌を与えますか?この質問に 6 つの簡単なステップで答えてください」などの質問をプロンプト ウィンドウに入力すると、対応する回答が表示されます。
[ トップに戻る ⬆️ ]
Yiチャットモデルの Web UI デモを構築できます (このシナリオでは Yi ベース モデルがサポートされていないことに注意してください)。
ステップ 1: 環境を準備します。
ステップ 2: Yi モデルをダウンロードします。
ステップ 3. Web サービスをローカルで開始するには、次のコマンドを実行します。
python demo/web_demo.py -c < your-model-path >
コンソールに表示されたアドレスをブラウザに入力すると、Web UI にアクセスできます。
[ トップに戻る ⬆️ ]
bash finetune/scripts/run_sft_Yi_6b.sh
完了したら、次のコマンドを使用して、微調整されたモデルとベース モデルを比較できます。
bash finetune/scripts/run_eval.sh
デフォルトでは、BAAI/COIG の小規模なデータセットを使用して基本モデルを微調整します。カスタマイズしたデータセットを次のjsonl
形式で準備することもできます。
{ "prompt" : " Human: Who are you? Assistant: " , "chosen" : " I'm Yi. " }
次に、それらをコンテナーにマウントして、デフォルトのものを置き換えます。
docker run -it
-v /path/to/save/finetuned/model/:/finetuned-model
-v /path/to/train.jsonl:/yi/finetune/data/train.json
-v /path/to/eval.jsonl:/yi/finetune/data/eval.json
ghcr.io/01-ai/yi:latest
bash finetune/scripts/run_sft_Yi_6b.sh
condaがあることを確認してください。そうでない場合は、使用してください
mkdir -p ~ /miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~ /miniconda3/miniconda.sh
bash ~ /miniconda3/miniconda.sh -b -u -p ~ /miniconda3
rm -rf ~ /miniconda3/miniconda.sh
~ /miniconda3/bin/conda init bash
source ~ /.bashrc
次に、conda 環境を作成します。
conda create -n dev_env python=3.10 -y
conda activate dev_env
pip install torch==2.0.1 deepspeed==0.10 tensorboard transformers datasets sentencepiece accelerate ray==2.7
Yi-6B モデルの場合は、それぞれ 60 GB を超える GPU メモリを搭載した 4 つの GPU を備えたノードが推奨されます。
Yi-34B モデルの場合、ゼロ オフロード技術の使用により大量の CPU メモリが消費されるため、34B 微調整トレーニングでは GPU の数を制限するように注意してください。 CUDA_VISIBLE_DEVICES を使用して GPU の数を制限してください (scripts/run_sft_Yi_34b.sh に示されているように)。
34B モデルを微調整するための一般的なハードウェア セットアップは、8 つの GPU (CUDA_VISIBLE_DEVICES=0,1,2,3 による実行では 4 つに制限される) を備えたノードで、それぞれの GPU メモリは 80 GB を超え、合計 CPU メモリは 900 GB を超えます。
LLM ベースのモデルを MODEL_PATH (6B および 34B) にダウンロードします。モデルの一般的なフォルダーは次のようなものです。
| -- $MODEL_PATH
| | -- config.json
| | -- pytorch_model-00001-of-00002.bin
| | -- pytorch_model-00002-of-00002.bin
| | -- pytorch_model.bin.index.json
| | -- tokenizer_config.json
| | -- tokenizer.model
| | -- ...
データセットを、huggingface からローカル ストレージ DATA_PATH (Dahoas/rm-static など) にダウンロードします。
| -- $DATA_PATH
| | -- data
| | | -- train-00000-of-00001-2a1df75c6bce91ab.parquet
| | | -- test-00000-of-00001-8c7c51afc6d45980.parquet
| | -- dataset_infos.json
| | -- README.md
finetune/yi_example_dataset
には、BAAI/COIG から変更されたサンプル データセットが含まれています
| -- $DATA_PATH
| --data
| -- train.jsonl
| -- eval.jsonl
cd
script フォルダーに移動し、スクリプトをコピーして貼り付け、実行します。例えば:
cd finetune/scripts
bash run_sft_Yi_6b.sh
Yi-6B ベース モデルの場合、training_debug_steps=20 および num_train_epochs=4 を設定すると、チャット モデルを出力できます。これには約 20 分かかります。
Yi-34Bベースモデルの場合、初期化に比較的時間がかかります。しばらくお待ちください。
cd finetune/scripts
bash run_eval.sh
その後、基本モデルと微調整モデルの両方からの答えが表示されます。
[ トップに戻る ⬆️ ]
python quantization/gptq/quant_autogptq.py
--model /base_model
--output_dir /quantized_model
--trust_remote_code
完了したら、結果のモデルを次のように評価できます。
python quantization/gptq/eval_quantized_model.py
--model /quantized_model
--trust_remote_code
GPT-Q は PTQ (Post-Training Quantization) 方式です。メモリを節約し、モデルの精度を維持しながら高速化の可能性をもたらします。
Yi モデルは、多くの労力をかけずに GPT-Q 量子化できます。以下に段階的なチュートリアルを提供します。
GPT-Q を実行するには、AutoGPTQ と exllama を使用します。また、huggingface トランスフォーマーには、言語モデルで GPTQ 量子化を実行するための最適化および自動 gptq が統合されています。
GPT-Q 量子化を実行するために、 quant_autogptq.py
スクリプトが提供されています。
python quant_autogptq.py --model /base_model
--output_dir /quantized_model --bits 4 --group_size 128 --trust_remote_code
eval_quantized_model.py
使用して量子化モデルを実行できます。
python eval_quantized_model.py --model /quantized_model --trust_remote_code
python quantization/awq/quant_autoawq.py
--model /base_model
--output_dir /quantized_model
--trust_remote_code
完了したら、結果のモデルを次のように評価できます。
python quantization/awq/eval_quantized_model.py
--model /quantized_model
--trust_remote_code
AWQ は PTQ (Post-Training Quantization) 方式です。これは、LLM 用の効率的かつ正確な低ビット重み量子化 (INT3/4) です。
Yi モデルは、多くの労力をかけずに AWQ 量子化できます。以下に段階的なチュートリアルを提供します。
AWQ を実行するには、AutoAWQ を使用します。
AWQ 量子化を実行するために、 quant_autoawq.py
スクリプトが提供されています。
python quant_autoawq.py --model /base_model
--output_dir /quantized_model --bits 4 --group_size 128 --trust_remote_code
eval_quantized_model.py
使用して量子化モデルを実行できます。
python eval_quantized_model.py --model /quantized_model --trust_remote_code
[ トップに戻る ⬆️ ]
Yi モデルを展開する場合は、ソフトウェアとハードウェアの要件を満たしていることを確認してください。
Yi 量子化モデルを使用する前に、以下にリストされている正しいソフトウェアがインストールされていることを確認してください。
モデル | ソフトウェア |
---|---|
Yi 4 ビット量子化モデル | AWQ と CUDA |
Yi 8 ビット量子化モデル | GPTQ と CUDA |
Yi を環境に展開する前に、ハードウェアが次の要件を満たしていることを確認してください。
モデル | 最小 VRAM | 推奨GPUの例 |
---|---|---|
Yi-6B-チャット | 15GB | 1×RTX 3090 (24 GB) 1×RTX 4090 (24 GB) 1×A10(24GB) 1×A30(24GB) |
Yi-6B-チャット-4bits | 4ギガバイト | 1×RTX 3060 (12 GB) 1×RTX 4060 (8 GB) |
Yi-6B-チャット-8bits | 8GB | 1×RTX 3070 (8 GB) 1×RTX 4060 (8 GB) |
Yi-34B-チャット | 72GB | 4 x RTX 4090 (24 GB) 1×A800(80GB) |
Yi-34B-チャット-4bits | 20GB | 1×RTX 3090 (24 GB) 1×RTX 4090 (24 GB) 1×A10(24GB) 1×A30(24GB) 1×A100(40GB) |
Yi-34B-チャット-8bits | 38GB | 2×RTX 3090 (24 GB) 2×RTX 4090 (24 GB) 1×A800(40GB) |
以下は、さまざまなバッチの使用例における VRAM の最小要件の詳細です。
モデル | バッチ=1 | バッチ=4 | バッチ=16 | バッチ=32 |
---|---|---|---|---|
Yi-6B-チャット | 12GB | 13GB | 15GB | 18GB |
Yi-6B-チャット-4bits | 4ギガバイト | 5GB | 7GB | 10GB |
Yi-6B-チャット-8bits | 7GB | 8GB | 10GB | 14GB |
Yi-34B-チャット | 65GB | 68GB | 76GB | > 80GB |
Yi-34B-チャット-4bits | 19GB | 20GB | 30GB | 40GB |
Yi-34B-チャット-8bits | 35GB | 37GB | 46GB | 58GB |
モデル | 最小 VRAM | 推奨GPUの例 |
---|---|---|
Yi-6B | 15GB | 1×RTX 3090 (24 GB) 1×RTX 4090 (24 GB) 1×A10(24GB) 1×A30(24GB) |
Yi-6B-200K | 50GB | 1×A800(80GB) |
Yi-9B | 20GB | 1×RTX 4090 (24 GB) |
Yi-34B | 72GB | 4 x RTX 4090 (24 GB) 1×A800(80GB) |
Yi-34B-200K | 200GB | 4×A800(80GB) |
[ トップに戻る ⬆️ ]
Yi-34B
での本格的な微調整とYi-34B-Chat
の主な違いは、微調整のアプローチと結果にあります。Yi-34B
を使用した微調整が最適です。Yi-34B-Chat
最善の策かもしれません。