英語 | 中国語
?ハグ顔•?モデルスコープ • ?ワイズモデル
? GitHub で質問したり、アイデアについて話し合ったりする
参加してみませんか? Discord または WeChat
Yi Techレポートをご覧ください
Yi ラーニング ハブで成長する
? Yi Tech ブログで学ぶ
? Yi シリーズ モデルは、01.AI によってゼロからトレーニングされた次世代のオープンソースの大規模言語モデルです。
?バイリンガル言語モデルとしてターゲットにされ、3T 多言語コーパスでトレーニングされた Yi シリーズ モデルは、世界中で最も強力な LLM の 1 つとなり、言語理解、常識的推論、読解などにおいて期待を示します。例えば、
Yi-34B-Chat モデルは、AlpacaEval Leaderboard (2024 年 1 月までに入手可能なデータに基づく) で他の LLM (GPT-4、Mixtral、Claude など) を上回り、 2 位 (GPT-4 Turbo に続く) にランクインしました。
Yi-34B モデルは、Hugging Face Open LLM Leaderboard (トレーニング済み) や C-Eval などのさまざまなベンチマークで、英語と中国語の両方で既存のすべてのオープンソース モデル(Falcon-180B、Llama-70B、Claude など) の中で 1 位にランクされました。 (2023 年 11 月までに入手可能なデータに基づいています)。
(Llama の功績) Transformer と Llama のオープンソース コミュニティのおかげで、ゼロから構築するのに必要な労力が軽減され、AI エコシステム内で同じツールを利用できるようになりました。
TL;DR
Yi シリーズ モデルは Llama と同じモデル アーキテクチャを採用していますが、Llama の派生モデルではありません。
Yi と Llama はどちらも、2018 年以来大規模言語モデルの標準アーキテクチャとなっている Transformer 構造に基づいています。
Transformer アーキテクチャに基づいた Llama は、その優れた安定性、信頼性の高いコンバージェンス、および堅牢な互換性により、ほとんどの最先端のオープンソース モデルの新たな基盤となっています。これにより、Llama は Yi を含むモデルの基礎フレームワークとして認識されています。
Transformer および Llama アーキテクチャのおかげで、他のモデルでもその能力を活用できるため、最初から構築するのに必要な労力が軽減され、エコシステム内で同じツールを利用できるようになります。
ただし、Yi シリーズ モデルは Llama のウェイトを使用しないため、Llama の派生モデルではありません。
Llama の構造は大部分のオープンソース モデルで採用されているため、モデルのパフォーマンスを決定する重要な要素はトレーニング データセット、トレーニング パイプライン、トレーニング インフラストラクチャです。
Yi は独自の独自の方法で開発し、独自の高品質トレーニング データセット、効率的なトレーニング パイプライン、堅牢なトレーニング インフラストラクチャを完全にゼロから独自に作成しました。この取り組みは、2023 年 12 月の Alpaca Leaderboard で Yi シリーズ モデルが GPT4 のすぐ後ろにランクされ、Llama を上回る優れたパフォーマンスにつながりました。
[ トップに戻る ⬆️ ]
Yi-9B-200K
がオープンソース化され、一般公開されています。Yi-9B
がオープンソース化され、一般公開されました。Yi-9B
、同様のサイズの一連のオープンソース モデル (Mistral-7B、SOLAR-10.7B、Gemma-7B、DeepSeek-Coder-7B-Base-v1.5 などを含む) の中でトップパフォーマンスとして際立っています。特にコード、数学、常識的推論、読解力に優れています。Yi-VL-34B
およびYi-VL-6B
がオープンソース化され、一般公開されています。Yi-VL-34B
、MMMU や CMMMU を含む最新のベンチマークにおいて、既存のすべてのオープンソース モデルの中で第 1 位にランクされています (2024 年 1 月までに入手可能なデータに基づく)。Yi-34B-Chat
Yi-34B-Chat-4bits
Yi-34B-Chat-8bits
Yi-6B-Chat
Yi-6B-Chat-4bits
Yi-6B-Chat-8bits
それらのいくつかは、次の場所で対話的に試すことができます。
Yi-6B-200K
およびYi-34B-200K
がオープンソース化され、一般公開されています。Yi-6B
およびYi-34B
がオープンソース化され、一般公開されています。[ トップに戻る ⬆️ ]
Yi モデルには複数のサイズがあり、さまざまな使用例に対応します。特定の要件に合わせて Yi モデルを微調整することもできます。
Yi モデルを展開する場合は、ソフトウェアとハードウェアの要件を満たしていることを確認してください。
モデル | ダウンロード |
---|---|
Yi-34B-チャット | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
Yi-34B-チャット-4bits | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
Yi-34B-チャット-8bits | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
Yi-6B-チャット | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
Yi-6B-チャット-4bits | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
Yi-6B-チャット-8bits | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
- 4 ビット シリーズ モデルは AWQ によって量子化されます。
- 8 ビット シリーズ モデルは GPTQ によって量子化されます
- すべての量子化モデルは、コンシューマ グレードの GPU (例: 3090、4090) に展開できるため、使用の障壁が低くなります。
モデル | ダウンロード |
---|---|
Yi-34B | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
Yi-34B-200K | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
Yi-9B | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
Yi-9B-200K | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
Yi-6B | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
Yi-6B-200K | • ?ハグ顔•?モデルスコープ • ?ワイズモデル |
- 200k は、中国語の 400,000 文字にほぼ相当します。
- Yi-34B-200K の前のバージョン (2023 年 11 月 5 日にリリース) を使用する場合は、 git checkout 069cd341d60f4ce4b07ec394e82b79e94f656cf
を実行して重量をダウンロードします。
モデル | イントロ | デフォルトのコンテキストウィンドウ | 事前トレーニングされたトークン | トレーニングデータの日付 |
---|---|---|---|---|
6Bシリーズモデル | これらは個人的および学術的な使用に適しています。 | 4K | 3T | 2023年6月まで |
9Bシリーズモデル | Yi シリーズ モデルの中でコーディングと数学の能力が最も優れています。 | Yi-9B は、0.8T トークンを使用して、Yi-6B に基づいて継続的にトレーニングされます。 | ||
34Bシリーズモデル | これらは、個人、学術、商業 (特に中小企業) の目的に適しています。これは、手頃な価格で緊急機能を備えた、コスト効率の高いソリューションです。 | 3T |
チャットモデルの場合
ただし、この多様性の高さにより、次のような特定の既存の問題が増幅される可能性があります。
[ トップに戻る ⬆️ ]
ヒント: Yi モデルを使い始めて、さまざまな推論方法を検討したい場合は、Yi Cookbook を確認してください。
次のいずれかのパスを選択して、Yi との旅を始めましょう。
Yi モデルをローカルにデプロイすることを希望する場合は、
?♀️十分なリソース (NVIDIA A800 80GB など) がある場合は、次のいずれかの方法を選択できます。
?♀️ リソースが限られている場合 (MacBook Pro など)、llama.cpp を使用できます。
Yi モデルをローカルにデプロイしたくない場合は、次のオプションのいずれかを使用して Yi の機能を調べることができます。
Yi の機能をさらに詳しく調べたい場合は、次のいずれかの方法を採用できます。
Yi API (Yi 公式)
Yi API (レプリケート)
よりカスタマイズ可能なオプション (システム プロンプト、温度、繰り返しペナルティなど) を使用して Yi とチャットしたい場合は、次のオプションのいずれかを試すことができます。
Yi-34B-Chat-Playground (Yi 公式)
Yi-34B-チャット-プレイグラウンド (複製)
Yi とチャットしたい場合は、同様のユーザー エクスペリエンスを提供する次のオンライン サービスのいずれかを使用できます。
Yi-34B-Chat (ハグフェイスの Yi 担当者)
Yi-34B-Chat (Yi 公式ベータ版)
[ トップに戻る ⬆️ ]
このチュートリアルでは、Yi-34B-Chat を A800 (80G) 上でローカルに実行し、推論を実行するすべての手順を説明します。
Python 3.10 以降のバージョンがインストールされていることを確認してください。
他の Yi モデルを実行する場合は、ソフトウェアとハードウェアの要件を参照してください。
環境を設定し、必要なパッケージをインストールするには、次のコマンドを実行します。
git clone https://github.com/01-ai/Yi.git
cd yi
pip install -r requirements.txt
Yi モデルの重みとトークナイザーは、次のソースからダウンロードできます。
以下のように Yi チャットまたはベースモデルを使用して推論を実行できます。
quick_start.py
という名前のファイルを作成し、次の内容をそこにコピーします。
from transformers import AutoModelForCausalLM , AutoTokenizer
model_path = ''
tokenizer = AutoTokenizer . from_pretrained ( model_path , use_fast = False )
# Since transformers 4.35.0, the GPT-Q/AWQ model can be loaded using AutoModelForCausalLM.
model = AutoModelForCausalLM . from_pretrained (
model_path ,
device_map = "auto" ,
torch_dtype = 'auto'
). eval ()
# Prompt content: "hi"
messages = [
{ "role" : "user" , "content" : "hi" }
]
input_ids = tokenizer . apply_chat_template ( conversation = messages , tokenize = True , add_generation_prompt = True , return_tensors = 'pt' )
output_ids = model . generate ( input_ids . to ( 'cuda' ))
response = tokenizer . decode ( output_ids [ 0 ][ input_ids . shape [ 1 ]:], skip_special_tokens = True )
# Model response: "Hello! How can I assist you today?"
print ( response )
quick_start.py
を実行します。
python quick_start.py
すると、以下のような出力が表示されます。 ?
Hello ! How can I assist you today ?
Yi-34B
この手順は、「pip - Yi チャット モデルを使用した推論の実行」に似ています。
既存のファイルtext_generation.py
を使用できます。
python demo/text_generation.py --model < your-model-path >
すると、以下のような出力が表示されます。 ?
プロンプト: 猫のトムとネズミのジェリーについての興味深い話をさせてください。
世代: 私の子供の頃に起こった、猫のトムとネズミのジェリーについての興味深い話をさせてください。私の父は大きな家を持っていて、その中にネズミを殺すために2匹の猫が住んでいた。ある日、私が家で一人で遊んでいたとき、雄猫の一匹がキッチンのドアの近くで仰向けに横たわっているのを見つけました。まるで私たちに何かを求めているようでしたが、周りに人が多すぎて起き上がることができませんでした。彼は数分間努力を続けましたが、最終的には諦めました...
Yi-9B
入力
from transformers import AutoModelForCausalLM, AutoTokenizer
MODEL_DIR = " 01-ai/Yi-9B "
model = AutoModelForCausalLM.from_pretrained(MODEL_DIR, torch_dtype= " auto " )
tokenizer = AutoTokenizer.from_pretrained(MODEL_DIR, use_fast=False)
input_text = " # write the quick sort algorithm "
inputs = tokenizer(input_text, return_tensors= " pt " ).to(model.device)
outputs = model.generate( ** inputs, max_length=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
出力
# write the quick sort algorithm
def quick_sort(arr):
if len(arr) < = 1:
return arr
pivot = arr[len(arr) // 2]
left = [x for x in arr if x < pivot]
middle = [x for x in arr if x == pivot]
right = [x for x in arr if x > pivot]
return quick_sort(left) + middle + quick_sort(right)
# test the quick sort algorithm
print(quick_sort([3, 6, 8, 10, 1, 2, 1]))
[ トップに戻る ⬆️ ]
Docker と nvidia-container-toolkit がインストールされていることを確認してください。
docker run -it --gpus all
-v : /models
ghcr.io/01-ai/yi:latest
あるいは、 registry.lingyiwanwu.com/ci/01-ai/yi:latest
から Yi Docker イメージをプルすることもできます。
以下のように Yi チャットまたはベースモデルを使用して推論を実行できます。
この手順は、「pip - Yi チャット モデルを使用した推論の実行」に似ています。
唯一の違いは、 model_path = '
model_path = '
を設定することであることに注意してください。
この手順は、「pip - Yi 基本モデルで推論を実行する」と似ています。
唯一の違いは、 model
の代わりに--model
設定することであることに注意してください。
conda-lock
使用すると、conda 環境用に完全に再現可能なロック ファイルを生成できます。micromamba
利用できます。こちらの手順に従って micromamba をインストールしてください。
micromamba install -y -n yi -f conda-lock.yml
を実行して、 yi
という名前の conda 環境を作成し、必要な依存関係をインストールします。
次のチュートリアルでは、量子化モデル (Yi-chat-6B-2bits) をローカルで実行して推論を実行するすべての手順を説明します。
このチュートリアルは、16 GB のメモリと Apple M2 Pro チップを搭載した MacBook Pro を使用することを前提としています。
git-lfs
がマシンにインストールされていることを確認してください。
llama.cpp
をダウンロードするllama.cpp
リポジトリのクローンを作成するには、次のコマンドを実行します。
git clone [email protected]:ggerganov/llama.cpp.git
2.1 ポインターのみを使用して XeIaso/yi-chat-6B-GGUF のクローンを作成するには、次のコマンドを実行します。
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/XeIaso/yi-chat-6B-GGUF
2.2 量子化された Yi モデル (yi-chat-6b.Q2_K.gguf) をダウンロードするには、次のコマンドを実行します。
git-lfs pull --include yi-chat-6b.Q2_K.gguf
Yi モデルを使用して推論を実行するには、次のいずれかの方法を使用できます。
方法 1: 端末で推論を実行する
方法 2: Web で推論を実行する
4 つのスレッドを使用してllama.cpp
をコンパイルし、推論を実行するには、 llama.cpp
ディレクトリに移動し、次のコマンドを実行します。
ヒント
/Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.gguf
モデルの実際のパスに置き換えます。デフォルトでは、モデルは完了モードで動作します。
追加の出力カスタマイズ オプション (システム プロンプト、温度、反復ペナルティなど) については、
./main -h
を実行して詳細な説明と使用法を確認してください。
make -j4 && ./main -m /Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.gguf -p " How do you feed your pet fox? Please answer this question in 6 simple steps:nStep 1: " -n 384 -e
...
How do you feed your pet fox ? Please answer this question in 6 simple steps:
Step 1: Select the appropriate food for your pet fox. You should choose high-quality, balanced prey items that are suitable for their unique dietary needs. These could include live or frozen mice, rats, pigeons, or other small mammals, as well as fresh fruits and vegetables.
Step 2: Feed your pet fox once or twice a day, depending on the species and its individual preferences. Always ensure that they have access to fresh water throughout the day.
Step 3: Provide an appropriate environment for your pet fox. Ensure it has a comfortable place to rest, plenty of space to move around, and opportunities to play and exercise.
Step 4: Socialize your pet with other animals if possible. Interactions with other creatures can help them develop social skills and prevent boredom or stress.
Step 5: Regularly check for signs of illness or discomfort in your fox. Be prepared to provide veterinary care as needed, especially for common issues such as parasites, dental health problems, or infections.
Step 6: Educate yourself about the needs of your pet fox and be aware of any potential risks or concerns that could affect their well-being. Regularly consult with a veterinarian to ensure you are providing the best care.
...
これで、Yi モデルに質問し、回答を得ることができました。 ?
軽量で迅速なチャットボットを初期化するには、次のコマンドを実行します。
cd llama.cpp
./server --ctx-size 2048 --host 0.0.0.0 --n-gpu-layers 64 --model /Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.gguf
次に、次のような出力を取得できます。
...
llama_new_context_with_model: n_ctx = 2048
llama_new_context_with_model: freq_base = 5000000.0
llama_new_context_with_model: freq_scale = 1
ggml_metal_init: allocating
ggml_metal_init: found device: Apple M2 Pro
ggml_metal_init: picking default device: Apple M2 Pro
ggml_metal_init: ggml.metallib not found, loading from source
ggml_metal_init: GGML_METAL_PATH_RESOURCES = nil
ggml_metal_init: loading ' /Users/yu/llama.cpp/ggml-metal.metal '
ggml_metal_init: GPU name: Apple M2 Pro
ggml_metal_init: GPU family: MTLGPUFamilyApple8 (1008)
ggml_metal_init: hasUnifiedMemory = true
ggml_metal_init: recommendedMaxWorkingSetSize = 11453.25 MB
ggml_metal_init: maxTransferRate = built-in GPU
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size = 128.00 MiB, ( 2629.44 / 10922.67)
llama_new_context_with_model: KV self size = 128.00 MiB, K (f16): 64.00 MiB, V (f16): 64.00 MiB
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size = 0.02 MiB, ( 2629.45 / 10922.67)
llama_build_graph: non-view tensors processed: 676/676
llama_new_context_with_model: compute buffer total size = 159.19 MiB
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size = 156.02 MiB, ( 2785.45 / 10922.67)
Available slots:
- > Slot 0 - max context: 2048
llama server listening at http://0.0.0.0:8080
チャットボット インターフェイスにアクセスするには、Web ブラウザを開いてアドレス バーにhttp://0.0.0.0:8080
と入力します。
「ペットのキツネにどのように餌を与えますか?この質問に 6 つの簡単なステップで答えてください」などの質問をプロンプト ウィンドウに入力すると、対応する回答が表示されます。
[ トップに戻る ⬆️ ]
Yiチャットモデルの Web UI デモを構築できます (このシナリオでは Yi ベース モデルがサポートされていないことに注意してください)。
ステップ 1: 環境を準備します。
ステップ 2: Yi モデルをダウンロードします。
ステップ 3. Web サービスをローカルで開始するには、次のコマンドを実行します。
python demo/web_demo.py -c < your-model-path >
コンソールに表示されたアドレスをブラウザに入力すると、Web UI にアクセスできます。
[ トップに戻る ⬆️ ]
bash finetune/scripts/run_sft_Yi_6b.sh
完了したら、次のコマンドを使用して、微調整されたモデルとベース モデルを比較できます。
bash finetune/scripts/run_eval.sh
デフォルトでは、BAAI/COIG の小規模なデータセットを使用して基本モデルを微調整します。カスタマイズしたデータセットを次のjsonl
形式で準備することもできます。
{ "prompt" : " Human: Who are you? Assistant: " , "chosen" : " I'm Yi. " }
次に、それらをコンテナーにマウントして、デフォルトのものを置き換えます。
docker run -it
-v /path/to/save/finetuned/model/:/finetuned-model
-v /path/to/train.jsonl:/yi/finetune/data/train.json
-v /path/to/eval.jsonl:/yi/finetune/data/eval.json
ghcr.io/01-ai/yi:latest
bash finetune/scripts/run_sft_Yi_6b.sh
condaがあることを確認してください。そうでない場合は、使用してください
mkdir -p ~ /miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~ /miniconda3/miniconda.sh
bash ~ /miniconda3/miniconda.sh -b -u -p ~ /miniconda3
rm -rf ~ /miniconda3/miniconda.sh
~ /miniconda3/bin/conda init bash
source ~ /.bashrc
次に、conda 環境を作成します。
conda create -n dev_env python=3.10 -y
conda activate dev_env
pip install torch==2.0.1 deepspeed==0.10 tensorboard transformers datasets sentencepiece accelerate ray==2.7
Yi-6B モデルの場合は、それぞれ 60 GB を超える GPU メモリを搭載した 4 つの GPU を備えたノードが推奨されます。
Yi-34B モデルの場合、ゼロ オフロード技術の使用により大量の CPU メモリが消費されるため、34B 微調整トレーニングでは GPU の数を制限するように注意してください。 CUDA_VISIBLE_DEVICES を使用して GPU の数を制限してください (scripts/run_sft_Yi_34b.sh に示されているように)。
34B モデルを微調整するための一般的なハードウェア セットアップは、8 つの GPU (CUDA_VISIBLE_DEVICES=0,1,2,3 による実行では 4 つに制限される) を備えたノードで、それぞれの GPU メモリは 80 GB を超え、合計 CPU メモリは 900 GB を超えます。
LLM ベースのモデルを MODEL_PATH (6B および 34B) にダウンロードします。モデルの一般的なフォルダーは次のようなものです。
| -- $MODEL_PATH
| | -- config.json
| | -- pytorch_model-00001-of-00002.bin
| | -- pytorch_model-00002-of-00002.bin
| | -- pytorch_model.bin.index.json
| | -- tokenizer_config.json
| | -- tokenizer.model
| | -- ...
データセットを、huggingface からローカル ストレージ DATA_PATH (Dahoas/rm-static など) にダウンロードします。
| -- $DATA_PATH
| | -- data
| | | -- train-00000-of-00001-2a1df75c6bce91ab.parquet
| | | -- test-00000-of-00001-8c7c51afc6d45980.parquet
| | -- dataset_infos.json
| | -- README.md
finetune/yi_example_dataset
には、BAAI/COIG から変更されたサンプル データセットが含まれています
| -- $DATA_PATH
| --data
| -- train.jsonl
| -- eval.jsonl
cd
script フォルダーに移動し、スクリプトをコピーして貼り付け、実行します。例えば:
cd finetune/scripts
bash run_sft_Yi_6b.sh
Yi-6B ベース モデルの場合、training_debug_steps=20 および num_train_epochs=4 を設定すると、チャット モデルを出力できます。これには約 20 分かかります。
Yi-34Bベースモデルの場合、初期化に比較的時間がかかります。しばらくお待ちください。
cd finetune/scripts
bash run_eval.sh
その後、基本モデルと微調整モデルの両方からの答えが表示されます。
[ トップに戻る ⬆️ ]
python quantization/gptq/quant_autogptq.py
--model /base_model
--output_dir /quantized_model
--trust_remote_code
完了したら、結果のモデルを次のように評価できます。
python quantization/gptq/eval_quantized_model.py
--model /quantized_model
--trust_remote_code
GPT-Q は PTQ (Post-Training Quantization) 方式です。メモリを節約し、モデルの精度を維持しながら高速化の可能性をもたらします。
Yi モデルは、多くの労力をかけずに GPT-Q 量子化できます。以下に段階的なチュートリアルを提供します。
GPT-Q を実行するには、AutoGPTQ と exllama を使用します。また、huggingface トランスフォーマーには、言語モデルで GPTQ 量子化を実行するための最適化および自動 gptq が統合されています。
GPT-Q 量子化を実行するために、 quant_autogptq.py
スクリプトが提供されています。
python quant_autogptq.py --model /base_model
--output_dir /quantized_model --bits 4 --group_size 128 --trust_remote_code
eval_quantized_model.py
使用して量子化モデルを実行できます。
python eval_quantized_model.py --model /quantized_model --trust_remote_code
python quantization/awq/quant_autoawq.py
--model /base_model
--output_dir /quantized_model
--trust_remote_code
完了したら、結果のモデルを次のように評価できます。
python quantization/awq/eval_quantized_model.py
--model /quantized_model
--trust_remote_code
AWQ は PTQ (Post-Training Quantization) 方式です。これは、LLM 用の効率的かつ正確な低ビット重み量子化 (INT3/4) です。
Yi モデルは、多くの労力をかけずに AWQ 量子化できます。以下に段階的なチュートリアルを提供します。
AWQ を実行するには、AutoAWQ を使用します。
AWQ 量子化を実行するために、 quant_autoawq.py
スクリプトが提供されています。
python quant_autoawq.py --model /base_model
--output_dir /quantized_model --bits 4 --group_size 128 --trust_remote_code
eval_quantized_model.py
使用して量子化モデルを実行できます。
python eval_quantized_model.py --model /quantized_model --trust_remote_code
[ トップに戻る ⬆️ ]
Yi モデルを展開する場合は、ソフトウェアとハードウェアの要件を満たしていることを確認してください。
Yi 量子化モデルを使用する前に、以下にリストされている正しいソフトウェアがインストールされていることを確認してください。
モデル | ソフトウェア |
---|---|
Yi 4 ビット量子化モデル | AWQ と CUDA |
Yi 8 ビット量子化モデル | GPTQ と CUDA |
Yi を環境に展開する前に、ハードウェアが次の要件を満たしていることを確認してください。
モデル | 最小 VRAM | 推奨GPUの例 |
---|---|---|
Yi-6B-チャット | 15GB | 1×RTX 3090 (24 GB) 1×RTX 4090 (24 GB) 1×A10(24GB) 1×A30(24GB) |
Yi-6B-チャット-4bits | 4ギガバイト | 1×RTX 3060 (12 GB) 1×RTX 4060 (8 GB) |
Yi-6B-チャット-8bits | 8GB | 1×RTX 3070 (8 GB) 1×RTX 4060 (8 GB) |
Yi-34B-チャット | 72GB | 4 x RTX 4090 (24 GB) 1×A800(80GB) |
Yi-34B-チャット-4bits | 20GB | 1×RTX 3090 (24 GB) 1×RTX 4090 (24 GB) 1×A10(24GB) 1×A30(24GB) 1×A100(40GB) |
Yi-34B-チャット-8bits | 38GB | 2×RTX 3090 (24 GB) 2×RTX 4090 (24 GB) 1×A800(40GB) |
以下は、さまざまなバッチの使用例における VRAM の最小要件の詳細です。
モデル | バッチ=1 | バッチ=4 | バッチ=16 | バッチ=32 |
---|---|---|---|---|
Yi-6B-チャット | 12GB | 13GB | 15GB | 18GB |
Yi-6B-チャット-4bits | 4ギガバイト | 5GB | 7GB | 10GB |
Yi-6B-チャット-8bits | 7GB | 8GB | 10GB | 14GB |
Yi-34B-チャット | 65GB | 68GB | 76GB | > 80 GB |
Yi-34B-チャット-4bits | 19GB | 20GB | 30GB | 40GB |
Yi-34B-チャット-8bits | 35GB | 37GB | 46GB | 58GB |
モデル | 最小 VRAM | 推奨GPUの例 |
---|---|---|
Yi-6B | 15GB | 1×RTX 3090 (24 GB) 1×RTX 4090 (24 GB) 1×A10(24GB) 1×A30(24GB) |
Yi-6B-200K | 50GB | 1×A800(80GB) |
Yi-9B | 20GB | 1×RTX 4090 (24 GB) |
Yi-34B | 72GB | 4 x RTX 4090 (24 GB) 1×A800(80GB) |
Yi-34B-200K | 200GB | 4×A800(80GB) |
[ トップに戻る ⬆️ ]
Yi-34B
での本格的な微調整とYi-34B-Chat
の主な違いは、微調整のアプローチと結果にあります。Yi-34B
を使用した微調整が最適です。Yi-34B-Chat
最善の策かもしれません。 微調整用の質問応答データセットはどこから入手できますか?
Yi-34B FP16 を微調整するための GPU メモリ要件はどれくらいですか?
34B FP16 の微調整に必要な GPU メモリは、使用される特定の微調整方法によって異なります。パラメーターを完全に微調整するには、それぞれ 80 GB の 8 つの GPU が必要です。ただし、Lora のようなより経済的なソリューションでは、必要なものは少なくなります。詳しくはhiyouga/LLaMA-Factoryをご覧ください。また、パフォーマンスを最適化するための微調整には、FP16 の代わりに BF16 を使用することを検討してください。
Yi-34b-200k モデルのチャット機能をサポートするサードパーティ プラットフォームはありますか?
サードパーティのチャットを探している場合は、fireworks.ai などのオプションがあります。
Yi 学習ハブへようこそ!
経験豊富な開発者であっても、初心者であっても、Yi モデルの理解とスキルを高めるための役立つ教育リソースが豊富にあります。これには、洞察力に富んだブログ投稿、包括的なビデオ チュートリアル、実践ガイドなどが含まれます。
ここにあるコンテンツは、知識豊富なイーの専門家や熱心な愛好家によって惜しみなく寄稿されたものです。皆様の貴重なご貢献に心から感謝いたします。
同時に、Yi に貢献して私たちの共同作業に参加していただけることを心より歓迎いたします。すでに Yi に貢献している場合は、下の表であなたの注目すべき成果を遠慮なく紹介してください。
これらすべてのリソースをすぐに利用できるので、Yi とのエキサイティングな旅を始める準備が整いました。楽しく学習しましょう! ?
成果物 | 日付 | 著者 |
---|---|---|
使用 Dify、Meilisearch、零一万物モデル实现最简单的 RAG 应用(三):AI 電影推荐 | 2024-05-20 | 苏洋 |
autodl サーバーを使用、A40 上で実行、Yi-34B-Chat-int4 モデル、vllm 高速化、保存占有 42G、速度 18 ワード秒を使用 | 2024-05-20 | フライIoT |
Yi-VL 最高实練習 | 2024-05-20 | モデルスコープ |
一键行零一万物新鲜出炉Yi-1.5-9B-Chat大模型 | 2024-05-13 | 第 2 状態 |
零一万物开源Yi-1.5系列大模型 | 2024-05-13 | 刘聪 |
零一万物Yi-1.5系列モデル发布并开源! 34B-9B-6B 多尺寸,魔橋社区割り当て微调最佳实練習教程来啦! | 2024-05-13 | モデルスコープ |
Yi-34B 本地配備简单测试 | 2024-05-13 | 漆妮妮 |
驾辰龙跨Llama持Wasm,玩转Yiモデル迎新春过大年(上) | 2024-05-13 | 言葉に値する |
驾辰龙跨Llama持Wasm,玩转Yiモデル迎新春过大年(下篇) | 2024-05-13 | 言葉に値する |
Ollama新增两个コマンド,開始サポート零一万物Yi-1.5系列モデル | 2024-05-13 | AI工場师笔记 |
零一万物 200K モデルと Dify 高速ボストン構築モデルを使用 | 2024-05-13 | 苏洋 |
(持更) 零一万物モデル折腾笔记:社区 Yi-34B 微调モデル使用 | 2024-05-13 | 苏洋 |
Python+ERNIE-4.0-8K-Yi-34B-Chat大モデル初探 | 2024-05-11 | 江湖评谈 |
技術布道 VueおよびPython调用零一万物モデルとプロンプトモジュール(百度千帆大モデル平台経由) | 2024-05-11 | マムラボ |
多模态大模型Yi-VL-plus体验 效果很棒 | 2024-04-27 | 大家好我是愛因 |
autodl サービスを使用、2 つの 3090 上で実行、Yi-34B-Chat-int4 モデル、使用 vllm 加速化、显存占用 42G、速度 23 ワード秒 | 2024-04-27 | フライIoT |
Yi-1.5-9B-Chat 入門 | 2024-04-27 | 第 2 状態 |
零一万物yi-vl-plus大模型简单几步就能批量生成Anki图片笔记に基づく | 2024-04-24 | 正经人王同学 |
【AI开发:语言】一、Yi-34B超大モデル本地配備CPU及びGPU版 | 2024-04-21 | 私の梦想已实现 |
【Yi-34B-Chat-Int4】4 つの 2080Ti 显卡 11G バージョンを使用、Yi-34B モデルを実行、5 年前の老显卡がサポートされ、正常に実行可能、速度 21 ワード - 秒、vllm 要求計算力 7 以上显卡就可以 | 2024-03-22 | フライIoT |
零一万物大模型配置+微调总结 | 2024-03-22 | v_wus |
零一万物Yi大模型vllm暇時Yi-34BまたはYi-6bチャット再出の解決案 | 2024-03-02 | 郝铠锋 |
Yi-34B微调训练 | 2024-03-02 | lsjlnd |
实测零一万物Yi-VL多模态语言モデル:能標準确“识图吃瓜” | 2024-02-02 | 苏洋 |
零一万物开源Yi-VL多模态大模型,魔橋社区滞&微调最佳实慣来啦! | 2024-01-26 | モデルスコープ |
单卡 3 時間训练 Yi-6B 大模型エージェント:ラマ工場ベース 实战 | 2024-01-22 | 郑耀威 |
零一科技Yi-34B チャット大模型环境ポンド建&駐在 | 2024-01-15 | 要养家の程序员 |
LLaMA Factoryに基づいて、一卡3時間训属大モデルエージェント | 2024-01-15 | 机器学习社区 |
双卡 3080ti 配置 Yi-34B 大模型 - Gradio + vLLM 踩坑全记录 | 2024-01-02 | 漆妮妮 |
【大モデル配備実践-3】3090上で動作する3つの4ビット量化チャットモデル(baichuan2-13b、InternLM-20b、Yi-34b) | 2024-01-02 | aq_シービスケット |
ただ必要な 24G 显存,用 vllm 跑起来 Yi-34B 中英双语大モデル | 2023-12-28 | 漆妮妮 |
零一万物モデル官方 Yi-34B モデル本地离線运行配置使用笔记(物理机とドッカー双种配置方式),200K 超長文本内容,34B 干翻一众 70B モデル,打唱分数那么高,このモデルを底に行かない? | 2023-12-28 | 代幣讲故事 |
LLM - 大模型速递之 Yi-34B 入门と LoRA 微調整 | 2023-12-18 | BIT_666 |
vllm框架を通って大模型任務 | 2023-12-18 | 土山炮 |
CPU 混合余裕,非常に大きなモデル量化方案:“二三五六” 位量化方案 | 2023-12-12 | 苏洋 |
零一万物模型折腾笔记:官方 Yi-34B 模型基础使用 | 2023-12-10 | 苏洋 |
LlamaEdge を使用して Yi-34B-Chat をローカルで実行する | 2023-11-30 | 第 2 状態 |
本地行零一万物 34B 大模型,使用 Llama.cpp & 21G 显存 | 2023-11-26 | 苏洋 |
成果物 | 日付 | 著者 |
---|---|---|
yi-openai-プロキシ | 2024-05-11 | 苏洋 |
零一万物 Yi モデルと B 站構築大语言モデル高质量训练データ集に基づく | 2024-04-29 | 正经人王同学 |
動画網站と零一万物大モデル構築大语言モデル高质量训练データ集に基づく | 2024-04-25 | 正经人王同学 |
零一万物yi-34b-chat-200k入力文章址に基づいて、点击按钮即時無告または推广内容の简要笔记を生成し、分享图给好友を生成 | 2024-04-24 | 正经人王同学 |
食品 GPT Yi モデル | 2024-04-21 | ヒューバート・S |
成果物 | 日付 | 著者 |
---|---|---|
IoT デバイスで dolphin-2.2-yi-34b を実行する | 2023-11-30 | 第 2 状態 |
必要な 24G 显存,用 vllm 跑起来 Yi-34B 中英双语大モデル | 2023-12-28 | 漆妮妮 |
Yi 34B をローカルにインストール - 中国語英語バイリンガル LLM | 2023-11-05 | ファハド・ミルザ |
Dolphin Yi 34b - テスト済みの真新しい基礎モデル | 2023-11-27 | マシュー・バーマン |
Yi-VL-34B 多模态大モデル - 用两张 A40 显卡跑起来 | 2024-01-28 | 漆妮妮 |
4060Ti 16G显卡安装零一万物最新开源的Yi-1.5版大语言モデル | 2024-05-14 | タイタン909 |
Yi-1.5: LLAMA-3 の真の Apache 2.0 競合製品 | 2024-05-13 | 迅速なエンジニアリング |
Yi-1.5 モデルをローカルにインストール - さまざまなベンチマークで Llama 3 を上回る | 2024-05-13 | ファハド・ミルザ |
Ollama をインストールして Yi 6B を実行する方法 | 2024-05-13 | リダー・デイビッツ |
地表最强混合智能AI助手:llama3_70B+Yi_34B+Qwen1.5_110B | 2024-05-04 | 朱扎特 |
ChatDoc 学术论文辅助 -- Yi-34B と langchain に基づいて PDF 知识问答を実行 | 2024-05-03 | 朱扎特 |
Yi-34B の分野の知識に基づく応答の演目 | 2024-05-02 | 朱扎特 |
RTX4090+GaLore算法全参微调Yi-6B大モデル使用 | 2024-03-24 | 小工蚂创始人 |
無内容审查NSFW大语言モデルYi-34B-Chat蒸馏版测试、ロールプレイ、《天龙八部》马夫人康敏、本地GPU、CPU运行 | 2024-03-20 | 刘悦的技术博客 |
無内容审查NSFW大语言モデル統合包,Yi-34B-Chat,本地CPU运行,角色扮演潘金莲 | 2024-03-16 | 刘悦的技术博客 |
量化 Yi-34B-Chat 并在单卡 RTX 4090 vLLM 配置を使用 | 2024-03-05 | 白鸽巢 |
Yi-VL-34B(5):3090 バージョン 24G を使用し、Yi-VL-34B モデルを実行し、コマンド行と Web インターフェイス方式をサポートし、画像の内容を理解します | 2024-02-27 | フライIoT |
Win环境KoboldCpp本地配置大语言モデル进行各种角色扮演游戏 | 2024-02-25 | 魚蟲蟲 |
不要显卡本地配置Yi-34B-Chat进行角色扮演游戏 P2 | 2024-02-23 | 魚蟲虫 |
【嘆き】(2):go-llama.cppを使用してyi-01-6b大モデルを実行、本地CPUを使用して実行、速度も可、等次のバージョン更新を待つ | 2024-02-20 | フライIoT |
【xinference】(6):autodl 上で、xinference 配置 yi-vl-chat と qwen-vl-chat モデルを使用し、openai を使用して成功することができます | 2024-02-06 | フライIoT |
不要显卡本地配置Yi-34B-Chat进行角色扮演游戏 P1 | 2024-02-05 | 魚蟲虫 |
2080Ti配置YI-34B大モデルxinference-oneapi-fastGPT本地知识库使用指南 | 2024-01-30 | 小饭护法要转码 |
ベスト ストーリー ライティング AI モデル - Yi 6B 200K を Windows にローカルにインストール | 2024-01-22 | ファハド・ミルザ |
Mac は現在大语言モデル方法と常藮题指南を実行しています(Yi 34B モデル + 32 GB 内部保存) | 2024-01-21 | 小吴苹果机人 |
【Dify知识库】(11):Dify0.4.9改造サポートMySQL,成功接诹yi-6b做对话,本地使用fastchat启动,占8G显存,完了知识库配置 | 2024-01-21 | フライIoT |
この位LLM先生有点暴躁、用有是YI-6B的某量化版、#LLM #大语言モデル #暴躁老哥 | 2024-01-20 | 晓漫吧 |
大模型海上 NvLink 桥接器有用吗|双卡 A6000 测试一下 | 2024-01-17 | 漆妮妮 |
大模型 滞空 A40 vs A6000 对比 Yi-34B の单、双卡滞空性能 | 2024-01-15 | 漆妮妮 |
C-Eval 大语言モデル跑起来 - LM 評価ハーネス + vLLM を使用 | 2024-01-11 | 漆妮妮 |
双显卡部署YI -34B大模型 -VLLM + GRADIO踩坑记录 | 2024-01-01 | 漆妮妮 |
手把手教学!使用 Vllm yi-34b-chat | 2023-12-26 | 白鸽巢 |
如何训练企业自己的大语言模型? YI-6Bロラ##小工蚁 | 2023-12-21 | 小工蚂创始人 |
Yi-34b (4):使用4个2080ti显卡11g版本、运行yi-34b模型、5年前老显卡是支持的、可以正常运行、速度21ワード/s | 2023-12-02 | フライオイオツ |
使用autodl | 2023-12-01 | フライオイオツ |
使用autodl服务器、两个3090显卡上运行、yi-34b-chat-int4模型、用vllm优化、增加-num-gpu 2、速度23ワード/s | 2023-12-01 | フライオイオツ |
yi大模型一键本地部署ai | 2023-12-01 | ai |
01.AIのYI-6B:概要と微調整 | 2023-11-28 | AI MakerSpace |
yi 34bチャットllmはラマ70bを上回ります | 2023-11-27 | dlexplorer |
Mac Yi 34bでM3 Maxでオープンソースモデルを実行する方法 | 2023-11-26 | テクノプレミアム |
YI -34B -200K-最高&新しいコンテキストウィンドウキング | 2023-11-24 | 迅速なエンジニアリング |
YI 34B:強力な中型モデルの台頭 - ベース、200k&チャット | 2023-11-24 | サム・ウィッテヴィーン |
在IoT设备运行破解版李开复大模型イルフィン-2.2-YI-34B | 2023-11-15 | 第二州 |
IoTデバイスでDolphin-2.2-Yi-34Bを実行します(プライベートOpenai APIサーバーとしても機能します) | 2023-11-14 | 第二州 |
WindowsラップトップにYi 34b 200k llamafiedをインストールする方法 | 2023-11-11 | ファード・ミルザ |
YIには包括的なエコシステムがあり、さまざまなツール、サービス、モデルを提供して、経験を豊かにし、生産性を最大化します。
Yiシリーズモデルは、Llamaと同じモデルアーキテクチャに従います。 YIを選択することにより、Llama Ecosystem内の既存のツール、ライブラリ、リソースを活用して、新しいツールを作成し、開発効率を高める必要性を排除できます。
たとえば、Yiシリーズモデルは、Llamaモデルの形式で保存されます。 LlamaForCausalLM
とLlamaTokenizer
を使用してモデルをロードできます。詳細については、チャットモデルを使用してください。
from transformers import AutoModelForCausalLM , AutoTokenizer
tokenizer = AutoTokenizer . from_pretrained ( "01-ai/Yi-34b" , use_fast = False )
model = AutoModelForCausalLM . from_pretrained ( "01-ai/Yi-34b" , device_map = "auto" )
[トップに戻る⬆️]
ヒント
PRを自由に作成し、YIシリーズモデルを使用して構築した素晴らしい作品を共有してください。
他の人があなたの仕事をすばやく理解できるようにするには、
の形式を使用することをお勧めします。
: +
数分でYiを起きたい場合は、Yi上に構築された以下のサービスを使用できます。
YI-34B-CHAT:次のプラットフォームのいずれかを使用してYIとチャットできます。
YI-6B-chat(Replicate):追加のパラメーターを設定してAPIを呼び出すことにより、このモデルをより多くのオプションで使用できます。
Scalellm:このサービスを使用して、柔軟性とカスタマイズを追加してYIモデルをローカルに実行できます。
計算機能が限られている場合は、次のようにYiの量子モデルを使用できます。
これらの量子化されたモデルは精度が低下しましたが、推論速度の速度やRAMの使用量が小さいなど、効率が向上します。
Yiの繁栄している家族内の多様な能力を探求しようとしている場合は、以下のようにYiの微調整されたモデルを掘り下げることができます。
TheBloke Models:このサイトには、Yiを含むさまざまなLLMに由来する多数の微調整モデルがホストされています。
これはYIの網羅的なリストではなく、ダウンロードに並べ替えられたいくつかの名前を記載するために:
Sustech/SUS-Chat-34B:このモデルは、70B未満のすべてのモデルの中で最初にランク付けされ、2倍のDeepSeek-llm-67B-chatを上回りました。 Open LLMリーダーボードで結果を確認できます。
OrionStarai/OrionStar-Yi-34B-chat-lama:このモデルは、他のモデル(GPT-4、QWEN-14B-chat、baichuan2-13b-chatなど、c-valおよびcmmlu評価のCMMLU評価を超えて優れていました。
nousearch/nous-capybara-34b:このモデルは、Capybaraデータセットで200kのコンテキスト長と3つのエポックでトレーニングされています。
[トップに戻る⬆️]
Yiシリーズモデルの詳細な機能については、01.AIをご覧ください。
@misc{ai2024yi,
title={Yi: Open Foundation Models by 01.AI},
author={01. AI and : and Alex Young and Bei Chen and Chao Li and Chengen Huang and Ge Zhang and Guanwei Zhang and Heng Li and Jiangcheng Zhu and Jianqun Chen and Jing Chang and Kaidong Yu and Peng Liu and Qiang Liu and Shawn Yue and Senbin Yang and Shiming Yang and Tao Yu and Wen Xie and Wenhao Huang and Xiaohui Hu and Xiaoyi Ren and Xinyao Niu and Pengcheng Nie and Yuchi Xu and Yudong Liu and Yue Wang and Yuxuan Cai and Zhenyu Gu and Zhiyuan Liu and Zonghong Dai},
year={2024},
eprint={2403.04652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
YI-34B-Chatモデルは、MMLU、CMMLU、BBH、GSM8Kなどを含むベンチマーク内のすべての既存のオープンソースモデルの中で最初にランキングを行い、例外的なパフォーマンスを示します。
* :C-Valの結果は、検証データセットで評価されます
YI-34BおよびYI-34B-200Kモデルは、特にMMLU、CMMLU、一般的な推論、読解などで優れているオープンソースモデルのトップパフォーマーとして際立っています。
YI-9Bは、さまざまなサイズのオープンソースモデル(Mistral-7B、Solar-10.7B、Gemma-7B、Deepseek-Coder-7B-Base-V1.5など)の中でほぼ最高です。コード、数学、一般的な推論、および読解。
全体的な能力(平均すべて)の観点から、YI-9Bは、Deepseek-Math、Mistral-7B、Solar-10.7B、およびGemma-7Bを超える、同様にサイズのオープンソースモデルの中で最高のパフォーマンスを発揮します。
コーディング能力(平均コード)に関しては、YI-9BのパフォーマンスはDeepSeek-Coder-7Bに次ぐもので、YI-34B、Solar-10.7B、Mistral-7B、およびGemma-7Bを上回ります。
数学能力(平均-MATH)に関しては、YI-9BのパフォーマンスはDeepSeek-Math-7Bに次ぐ2番目であり、太陽10.7b、Mistral-7b、およびGemma-7bを超えています。
常識と推論能力(意味のテキスト)の観点から、YI-9BのパフォーマンスはMistral-7B、Solar-10.7B、およびGemma-7Bと同等です。
[トップに戻る⬆️]
みんな! ? ✅
YIシリーズモデルのコードと重みは、Apache 2.0ライセンスの下で配布されています。つまり、YIシリーズモデルは、個人的な使用、学術的目的、および商業利用のために無料です。
[トップに戻る⬆️]
YIコミュニティに貢献してくれた皆さんに心から感謝します!あなたはYIがプロジェクトだけでなく、革新のための活気に満ちた、成長している家を助けました。
[トップに戻る⬆️]
トレーニングプロセス中にデータコンプライアンスチェックアルゴリズムを使用して、訓練されたモデルの能力を最大限に活用することを保証します。複雑なデータと言語モデルの使用シナリオの多様性により、すべてのシナリオでモデルが正しい、合理的な出力を生成することを保証することはできません。モデルが問題のある出力を生成するリスクがまだあることに注意してください。当社は、誤用、誤用、違法使用、および関連する誤った情報、および関連するデータセキュリティの懸念に起因するリスクや問題について責任を負いません。
[トップに戻る⬆️]
Yi-1.5シリーズモデルのコードと重みは、Apache 2.0ライセンスの下で配布されます。
このモデルに基づいてデリバティブ作業を作成する場合は、デリバティブ作業に次の帰属を含めてください。
This work is a derivative of [The Yi Series Model You Base On] by 01.AI, used under the Apache 2.0 License.
[トップに戻る⬆️]