Yiダウンロード - Yiソースコードのダウンロード

Yi

その他のソースコード

ダウンロード

英語 | 中国語

次世代のオープンソースおよびバイリンガル LLM の構築

?ハグ顔•？モデルスコープ • ?ワイズモデル

?‍ GitHub で質問したり、アイデアについて話し合ったりする

参加してみませんか？ Discord または WeChat

Yi Techレポートをご覧ください

Yi ラーニングハブで成長する

? Yi Tech ブログで学ぶ

イーとは何ですか？
- 導入
- モデル
  - チャットモデル
  - ベースモデル
  - モデル情報
- ニュース
イーの使い方は？
- クイックスタート
  - 自分の道を選択してください
  - ピップ
  - 港湾労働者
  - ラマ.cpp
  - コンダロック
  - ウェブデモ
- 微調整
- 量子化
- 導入
- よくある質問
- 学習ハブ
なぜイー?
- 生態系
  - 上流
  - 下流
    - 給仕
    - 量子化
    - 微調整
    - API
- ベンチマーク
  - ベースモデルの性能
  - チャットモデルのパフォーマンス
- 技術レポート
  - 引用
イーを使用できるのは誰ですか?
その他
- 謝辞
- 免責事項
- ライセンス

イーとは何ですか？

導入

? Yi シリーズモデルは、01.AI によってゼロからトレーニングされた次世代のオープンソースの大規模言語モデルです。
?バイリンガル言語モデルとしてターゲットにされ、3T 多言語コーパスでトレーニングされた Yi シリーズモデルは、世界中で最も強力な LLM の 1 つとなり、言語理解、常識的推論、読解などにおいて期待を示します。例えば、
- Yi-34B-Chat モデルは、AlpacaEval Leaderboard (2024 年 1 月までに入手可能なデータに基づく) で他の LLM (GPT-4、Mixtral、Claude など) を上回り、 2 位 (GPT-4 Turbo に続く) にランクインしました。
- Yi-34B モデルは、Hugging Face Open LLM Leaderboard (トレーニング済み) や C-Eval などのさまざまなベンチマークで、英語と中国語の両方で既存のすべてのオープンソースモデル(Falcon-180B、Llama-70B、Claude など) の中で 1 位にランクされました。 (2023 年 11 月までに入手可能なデータに基づいています)。
- (Llama の功績) Transformer と Llama のオープンソースコミュニティのおかげで、ゼロから構築するのに必要な労力が軽減され、AI エコシステム内で同じツールを利用できるようになりました。
Yi による Llama アーキテクチャの採用とライセンス使用ポリシーに興味がある場合は、「Yi と Llama の関係」を参照してください。
TL;DR
Yi シリーズモデルは Llama と同じモデルアーキテクチャを採用していますが、Llama の派生モデルではありません。
- Yi と Llama はどちらも、2018 年以来大規模言語モデルの標準アーキテクチャとなっている Transformer 構造に基づいています。
- Transformer アーキテクチャに基づいた Llama は、その優れた安定性、信頼性の高いコンバージェンス、および堅牢な互換性により、ほとんどの最先端のオープンソースモデルの新たな基盤となっています。これにより、Llama は Yi を含むモデルの基礎フレームワークとして認識されています。
- Transformer および Llama アーキテクチャのおかげで、他のモデルでもその能力を活用できるため、最初から構築するのに必要な労力が軽減され、エコシステム内で同じツールを利用できるようになります。
- ただし、Yi シリーズモデルは Llama のウェイトを使用しないため、Llama の派生モデルではありません。
  - Llama の構造は大部分のオープンソースモデルで採用されているため、モデルのパフォーマンスを決定する重要な要素はトレーニングデータセット、トレーニングパイプライン、トレーニングインフラストラクチャです。
  - Yi は独自の独自の方法で開発し、独自の高品質トレーニングデータセット、効率的なトレーニングパイプライン、堅牢なトレーニングインフラストラクチャを完全にゼロから独自に作成しました。この取り組みは、2023 年 12 月の Alpaca Leaderboard で Yi シリーズモデルが GPT4 のすぐ後ろにランクされ、Llama を上回る優れたパフォーマンスにつながりました。

[ トップに戻る ⬆️ ]

ニュース

2024-07-29 : Yi Cookbook 1.0 がリリースされ、中国語と英語の両方でチュートリアルと例が掲載されています。

2024-05-13 : Yi-1.5 シリーズモデルがオープンソース化され、コーディング、数学、推論、指示に従う能力がさらに向上しました。

2024-03-16 : Yi-9B-200Kがオープンソース化され、一般公開されています。

2024-03-08 : Yi Tech Report が発行されました。

? 2024-03-07 : Yi-34B-200K の長文機能が強化されました。

「干し草の中の針」テストでは、Yi-34B-200K のパフォーマンスは 10.5% 向上し、89.3% から 99.8% まで上昇しました。私たちは 5B トークンのロングコンテキストデータ混合物でモデルの事前トレーニングを継続し、ほぼオールグリーンのパフォーマンスを実証しています。

2024-03-06 : Yi-9Bがオープンソース化され、一般公開されました。

Yi-9B 、同様のサイズの一連のオープンソースモデル (Mistral-7B、SOLAR-10.7B、Gemma-7B、DeepSeek-Coder-7B-Base-v1.5 などを含む) の中でトップパフォーマンスとして際立っています。特にコード、数学、常識的推論、読解力に優れています。

2024-01-23 : Yi-VL モデルYi-VL-34BおよびYi-VL-6Bがオープンソース化され、一般公開されています。

Yi-VL-34B 、MMMU や CMMMU を含む最新のベンチマークにおいて、既存のすべてのオープンソースモデルの中で第 1 位にランクされています (2024 年 1 月までに入手可能なデータに基づく)。

2023-11-23 : チャットモデルがオープンソース化され、一般公開されています。

このリリースには、以前にリリースされたベースモデルに基づく 2 つのチャットモデル、GPTQ によって量子化された 2 つの 8 ビットモデル、および AWQ によって量子化された 2 つの 4 ビットモデルが含まれています。

Yi-34B-Chat
Yi-34B-Chat-4bits
Yi-34B-Chat-8bits
Yi-6B-Chat
Yi-6B-Chat-4bits
Yi-6B-Chat-8bits

それらのいくつかは、次の場所で対話的に試すことができます。

ハグフェイス
複製する

? 2023-11-23 : Yi シリーズモデルのコミュニティライセンス契約が v2.1 に更新されました。

2023-11-08 : Yi-34B チャットモデルの招待テスト。

申請フォーム:

英語
中国語

2023-11-05 : 基本モデルYi-6B-200KおよびYi-34B-200Kがオープンソース化され、一般公開されています。

このリリースには、コンテキストウィンドウが 200K に拡張されていることを除き、前のリリースと同じパラメータサイズを持つ 2 つの基本モデルが含まれています。

2023-11-02 : 基本モデルYi-6BおよびYi-34Bがオープンソース化され、一般公開されています。

最初の公開リリースには、パラメータサイズが 6B と 34B の 2 つのバイリンガル (英語/中国語) ベースモデルが含まれています。どちらも 4K シーケンス長でトレーニングされており、推論時間中に 32K まで拡張できます。

[ トップに戻る ⬆️ ]

モデル

Yi モデルには複数のサイズがあり、さまざまな使用例に対応します。特定の要件に合わせて Yi モデルを微調整することもできます。

Yi モデルを展開する場合は、ソフトウェアとハードウェアの要件を満たしていることを確認してください。

チャットモデル

モデル	ダウンロード
Yi-34B-チャット	• ?ハグ顔•？モデルスコープ • ?ワイズモデル
Yi-34B-チャット-4bits	• ?ハグ顔•？モデルスコープ • ?ワイズモデル
Yi-34B-チャット-8bits	• ?ハグ顔•？モデルスコープ • ?ワイズモデル
Yi-6B-チャット	• ?ハグ顔•？モデルスコープ • ?ワイズモデル
Yi-6B-チャット-4bits	• ?ハグ顔•？モデルスコープ • ?ワイズモデル
Yi-6B-チャット-8bits	• ?ハグ顔•？モデルスコープ • ?ワイズモデル

_{^{- 4 ビットシリーズモデルは AWQ によって量子化されます。
- 8 ビットシリーズモデルは GPTQ によって量子化されます
- すべての量子化モデルは、コンシューマグレードの GPU (例: 3090、4090) に展開できるため、使用の障壁が低くなります。}}

ベースモデル

モデル	ダウンロード
Yi-34B	• ?ハグ顔•？モデルスコープ • ?ワイズモデル
Yi-34B-200K	• ?ハグ顔•？モデルスコープ • ?ワイズモデル
Yi-9B	• ?ハグ顔•？モデルスコープ • ?ワイズモデル
Yi-9B-200K	• ?ハグ顔•？モデルスコープ • ?ワイズモデル
Yi-6B	• ?ハグ顔•？モデルスコープ • ?ワイズモデル
Yi-6B-200K	• ?ハグ顔•？モデルスコープ • ?ワイズモデル

_{^{- 200k は、中国語の 400,000 文字にほぼ相当します。
- Yi-34B-200K の前のバージョン (2023 年 11 月 5 日にリリース) を使用する場合は、 git checkout 069cd341d60f4ce4b07ec394e82b79e94f656cfを実行して重量をダウンロードします。}}

モデル情報

チャットおよびベースモデルの場合

モデル	イントロ	デフォルトのコンテキストウィンドウ	事前トレーニングされたトークン	トレーニングデータの日付
6Bシリーズモデル	これらは個人的および学術的な使用に適しています。	4K	3T	2023年6月まで
9Bシリーズモデル	Yi シリーズモデルの中でコーディングと数学の能力が最も優れています。		Yi-9B は、0.8T トークンを使用して、Yi-6B に基づいて継続的にトレーニングされます。
34Bシリーズモデル	これらは、個人、学術、商業 (特に中小企業) の目的に適しています。これは、手頃な価格で緊急機能を備えた、コスト効率の高いソリューションです。		3T

チャットモデルの場合
チャットモデルの制限については、以下の説明を参照してください。
- 幻覚: これは、事実に誤りがある、または無意味な情報を生成するモデルを指します。モデルの反応がより多様になると、正確なデータや論理的推論に基づいていない幻覚が発生する可能性が高くなります。
- 再生成における非決定性: 応答を再生成またはサンプリングしようとすると、結果に不一致が発生する可能性があります。多様性が高まると、同様の入力条件下でも結果が変化する可能性があります。
- 累積誤差: これは、モデルの応答における誤差が時間の経過とともに増大する場合に発生します。モデルがより多様な応答を生成するにつれて、特に拡張推論や数学的問題解決などの複雑なタスクにおいて、小さな不正確さが積み重なって大きなエラーになる可能性が高まります。
- より一貫性のある一貫した応答を実現するには、温度、top_p、top_k などの生成構成パラメーターを調整することをお勧めします。これらの調整は、モデルの出力における創造性と一貫性の間のバランスをとるのに役立ちます。

[ トップに戻る ⬆️ ]

イーの使い方は？

クイックスタート
- 自分の道を選択してください
- ピップ
- 港湾労働者
- コンダロック
- ラマ.cpp
- ウェブデモ
微調整
量子化
導入
よくある質問
学習ハブ

クイックスタート

ヒント: Yi モデルを使い始めて、さまざまな推論方法を検討したい場合は、Yi Cookbook を確認してください。

自分の道を選択してください

次のいずれかのパスを選択して、Yi との旅を始めましょう。

Yi をローカルにデプロイする

Yi モデルをローカルにデプロイすることを希望する場合は、

?‍♀️十分なリソース (NVIDIA A800 80GB など) がある場合は、次のいずれかの方法を選択できます。
- ピップ
- ドッカー
- コンダロック
?‍♀️ リソースが限られている場合 (MacBook Pro など)、llama.cpp を使用できます。

Yi をローカルに展開しない

Yi モデルをローカルにデプロイしたくない場合は、次のオプションのいずれかを使用して Yi の機能を調べることができます。

?‍♀️ API を使用して Yi を実行する

Yi の機能をさらに詳しく調べたい場合は、次のいずれかの方法を採用できます。

Yi API (Yi 公式)
- 一部の応募者に早期アクセスが許可されました。次回のアクセスにご期待ください。
Yi API (レプリケート)

?‍♀️ 遊び場でイーを実行します。

よりカスタマイズ可能なオプション (システムプロンプト、温度、繰り返しペナルティなど) を使用して Yi とチャットしたい場合は、次のオプションのいずれかを試すことができます。

Yi-34B-Chat-Playground (Yi 公式)
- ホワイトリストを通じてアクセスが可能です。ご応募お待ちしております（英語または中国語でフォームにご記入ください）。
Yi-34B-チャット-プレイグラウンド (複製)

?‍♀️ Yi とチャット

Yi とチャットしたい場合は、同様のユーザーエクスペリエンスを提供する次のオンラインサービスのいずれかを使用できます。

Yi-34B-Chat (ハグフェイスの Yi 担当者)
- 登録は必要ありません。
Yi-34B-Chat (Yi 公式ベータ版)
- ホワイトリストを通じてアクセスが可能です。ご応募お待ちしております（英語または中国語でフォームにご記入ください）。

[ トップに戻る ⬆️ ]

クイックスタート - ピップ

このチュートリアルでは、Yi-34B-Chat を A800 (80G) 上でローカルに実行し、推論を実行するすべての手順を説明します。

ステップ 0: 前提条件

Python 3.10 以降のバージョンがインストールされていることを確認してください。
他の Yi モデルを実行する場合は、ソフトウェアとハードウェアの要件を参照してください。

ステップ 1: 環境を準備する

環境を設定し、必要なパッケージをインストールするには、次のコマンドを実行します。

git clone https://github.com/01-ai/Yi.git
cd yi
pip install -r requirements.txt

ステップ 2: Yi モデルをダウンロードする

Yi モデルの重みとトークナイザーは、次のソースからダウンロードできます。

ハグフェイス
モデルスコープ
ワイズモデル

ステップ 3: 推論を実行する

以下のように Yi チャットまたはベースモデルを使用して推論を実行できます。

Yi チャットモデルで推論を実行する

quick_start.pyという名前のファイルを作成し、次の内容をそこにコピーします。

 from transformers import AutoModelForCausalLM , AutoTokenizer

model_path = '<your-model-path>'

tokenizer = AutoTokenizer . from_pretrained ( model_path , use_fast = False )

# Since transformers 4.35.0, the GPT-Q/AWQ model can be loaded using AutoModelForCausalLM.
model = AutoModelForCausalLM . from_pretrained (
    model_path ,
    device_map = "auto" ,
    torch_dtype = 'auto'
). eval ()

# Prompt content: "hi"
messages = [
    { "role" : "user" , "content" : "hi" }
]

input_ids = tokenizer . apply_chat_template ( conversation = messages , tokenize = True , add_generation_prompt = True , return_tensors = 'pt' )
output_ids = model . generate ( input_ids . to ( 'cuda' ))
response = tokenizer . decode ( output_ids [ 0 ][ input_ids . shape [ 1 ]:], skip_special_tokens = True )

# Model response: "Hello! How can I assist you today?"
print ( response )

quick_start.pyを実行します。
```
python quick_start.py
```
すると、以下のような出力が表示されます。 ?
```
Hello ! How can I assist you today ? 
```

Yi 基本モデルで推論を実行する

Yi-34B
この手順は、「pip - Yi チャットモデルを使用した推論の実行」に似ています。
既存のファイルtext_generation.pyを使用できます。
```
python demo/text_generation.py  --model < your-model-path >
```
すると、以下のような出力が表示されます。 ?
出力。

プロンプト: 猫のトムとネズミのジェリーについての興味深い話をさせてください。
世代: 私の子供の頃に起こった、猫のトムとネズミのジェリーについての興味深い話をさせてください。私の父は大きな家を持っていて、その中にネズミを殺すために2匹の猫が住んでいた。ある日、私が家で一人で遊んでいたとき、雄猫の一匹がキッチンのドアの近くで仰向けに横たわっているのを見つけました。まるで私たちに何かを求めているようでしたが、周りに人が多すぎて起き上がることができませんでした。彼は数分間努力を続けましたが、最終的には諦めました...

Yi-9B

入力

from transformers import AutoModelForCausalLM, AutoTokenizer

MODEL_DIR = " 01-ai/Yi-9B "
model = AutoModelForCausalLM.from_pretrained(MODEL_DIR, torch_dtype= " auto " )
tokenizer = AutoTokenizer.from_pretrained(MODEL_DIR, use_fast=False)

input_text = " # write the quick sort algorithm "
inputs = tokenizer(input_text, return_tensors= " pt " ).to(model.device)
outputs = model.generate( ** inputs, max_length=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

出力

 # write the quick sort algorithm
def quick_sort(arr):
    if len(arr) < = 1:
        return arr
    pivot = arr[len(arr) // 2]
    left = [x for x in arr if x < pivot]
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    return quick_sort(left) + middle + quick_sort(right)

# test the quick sort algorithm
print(quick_sort([3, 6, 8, 10, 1, 2, 1]))

[ トップに戻る ⬆️ ]

クイックスタート - Docker

Docker を使用して Yi-34B-chat をローカルで実行する: ステップバイステップガイド。

このチュートリアルでは、A800 GPUまたは4*4090でローカルに Yi-34B-Chat を実行し、推論を実行するすべての手順を説明します。

ステップ 0: 前提条件

Docker と nvidia-container-toolkit がインストールされていることを確認してください。

ステップ 1: Docker を開始する

 docker run -it --gpus all 
-v <your-model-path>: /models
ghcr.io/01-ai/yi:latest

あるいは、 registry.lingyiwanwu.com/ci/01-ai/yi:latestから Yi Docker イメージをプルすることもできます。

ステップ 2: 推論を実行する

以下のように Yi チャットまたはベースモデルを使用して推論を実行できます。

Yi チャットモデルで推論を実行する

この手順は、「pip - Yi チャットモデルを使用した推論の実行」に似ています。

唯一の違いは、 model_path = '<your-model-mount-path>' model_path = '<your-model-path>'を設定することであることに注意してください。

Yi 基本モデルで推論を実行する

この手順は、「pip - Yi 基本モデルで推論を実行する」と似ています。

唯一の違いは、 model <your-model-path>の代わりに--model <your-model-mount-path>'設定することであることに注意してください。

クイックスタート - conda-lock

conda-lock使用すると、conda 環境用に完全に再現可能なロックファイルを生成できます。

依存関係の正確なバージョンについては、conda-lock.yml を参照してください。さらに、これらの依存関係をインストールするためにmicromamba利用できます。
依存関係をインストールするには、次の手順に従います。

こちらの手順に従って micromamba をインストールしてください。
micromamba install -y -n yi -f conda-lock.ymlを実行して、 yiという名前の conda 環境を作成し、必要な依存関係をインストールします。

クイックスタート - llama.cpp

次のチュートリアルでは、量子化モデル (Yi-chat-6B-2bits) をローカルで実行して推論を実行するすべての手順を説明します。

llama.cpp を使用して Yi-chat-6B-2bits をローカルで実行する: ステップバイステップガイド。

このチュートリアルでは、量子化モデル (Yi-chat-6B-2bits) をローカルで実行して推論を実行するすべての手順を説明します。

ステップ 0: 前提条件
ステップ 1: llama.cpp をダウンロードする
ステップ 2: Yi モデルをダウンロードする
ステップ 3: 推論を実行する

ステップ 0: 前提条件

このチュートリアルは、16 GB のメモリと Apple M2 Pro チップを搭載した MacBook Pro を使用することを前提としています。
git-lfsがマシンにインストールされていることを確認してください。

ステップ 1: `llama.cpp`をダウンロードする

llama.cppリポジトリのクローンを作成するには、次のコマンドを実行します。

git clone [email protected]:ggerganov/llama.cpp.git

ステップ 2: Yi モデルをダウンロードする

2.1 ポインターのみを使用して XeIaso/yi-chat-6B-GGUF のクローンを作成するには、次のコマンドを実行します。

GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/XeIaso/yi-chat-6B-GGUF

2.2 量子化された Yi モデル (yi-chat-6b.Q2_K.gguf) をダウンロードするには、次のコマンドを実行します。

git-lfs pull --include yi-chat-6b.Q2_K.gguf

ステップ 3: 推論を実行する

Yi モデルを使用して推論を実行するには、次のいずれかの方法を使用できます。

方法 1: 端末で推論を実行する
方法 2: Web で推論を実行する

方法 1: 端末で推論を実行する

4 つのスレッドを使用してllama.cppをコンパイルし、推論を実行するには、 llama.cppディレクトリに移動し、次のコマンドを実行します。

ヒント
/Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.ggufモデルの実際のパスに置き換えます。
デフォルトでは、モデルは完了モードで動作します。
追加の出力カスタマイズオプション (システムプロンプト、温度、反復ペナルティなど) については、 ./main -hを実行して詳細な説明と使用法を確認してください。

make -j4 && ./main -m /Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.gguf -p " How do you feed your pet fox? Please answer this question in 6 simple steps:nStep 1: " -n 384 -e

...

How do you feed your pet fox ? Please answer this question in 6 simple steps:

Step 1: Select the appropriate food for your pet fox. You should choose high-quality, balanced prey items that are suitable for their unique dietary needs. These could include live or frozen mice, rats, pigeons, or other small mammals, as well as fresh fruits and vegetables.

Step 2: Feed your pet fox once or twice a day, depending on the species and its individual preferences. Always ensure that they have access to fresh water throughout the day.

Step 3: Provide an appropriate environment for your pet fox. Ensure it has a comfortable place to rest, plenty of space to move around, and opportunities to play and exercise.

Step 4: Socialize your pet with other animals if possible. Interactions with other creatures can help them develop social skills and prevent boredom or stress.

Step 5: Regularly check for signs of illness or discomfort in your fox. Be prepared to provide veterinary care as needed, especially for common issues such as parasites, dental health problems, or infections.

Step 6: Educate yourself about the needs of your pet fox and be aware of any potential risks or concerns that could affect their well-being. Regularly consult with a veterinarian to ensure you are providing the best care.

...

これで、Yi モデルに質問し、回答を得ることができました。 ?

方法 2: Web で推論を実行する

軽量で迅速なチャットボットを初期化するには、次のコマンドを実行します。

 cd llama.cpp
./server --ctx-size 2048 --host 0.0.0.0 --n-gpu-layers 64 --model /Users/yu/yi-chat-6B-GGUF/yi-chat-6b.Q2_K.gguf

次に、次のような出力を取得できます。

...

llama_new_context_with_model: n_ctx      = 2048
llama_new_context_with_model: freq_base  = 5000000.0
llama_new_context_with_model: freq_scale = 1
ggml_metal_init: allocating
ggml_metal_init: found device: Apple M2 Pro
ggml_metal_init: picking default device: Apple M2 Pro
ggml_metal_init: ggml.metallib not found, loading from source
ggml_metal_init: GGML_METAL_PATH_RESOURCES = nil
ggml_metal_init: loading ' /Users/yu/llama.cpp/ggml-metal.metal '
ggml_metal_init: GPU name:   Apple M2 Pro
ggml_metal_init: GPU family: MTLGPUFamilyApple8 (1008)
ggml_metal_init: hasUnifiedMemory              = true
ggml_metal_init: recommendedMaxWorkingSetSize  = 11453.25 MB
ggml_metal_init: maxTransferRate               = built-in GPU
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size =   128.00 MiB, ( 2629.44 / 10922.67)
llama_new_context_with_model: KV self size  =  128.00 MiB, K (f16):   64.00 MiB, V (f16):   64.00 MiB
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size =     0.02 MiB, ( 2629.45 / 10922.67)
llama_build_graph: non-view tensors processed: 676/676
llama_new_context_with_model: compute buffer total size = 159.19 MiB
ggml_backend_metal_buffer_type_alloc_buffer: allocated buffer, size =   156.02 MiB, ( 2785.45 / 10922.67)
Available slots:
- > Slot 0 - max context: 2048

llama server listening at http://0.0.0.0:8080

チャットボットインターフェイスにアクセスするには、Web ブラウザを開いてアドレスバーにhttp://0.0.0.0:8080と入力します。
「ペットのキツネにどのように餌を与えますか?この質問に 6 つの簡単なステップで答えてください」などの質問をプロンプトウィンドウに入力すると、対応する回答が表示されます。

[ トップに戻る ⬆️ ]

ウェブデモ

Yiチャットモデルの Web UI デモを構築できます (このシナリオでは Yi ベースモデルがサポートされていないことに注意してください)。

ステップ 1: 環境を準備します。

ステップ 2: Yi モデルをダウンロードします。

ステップ 3. Web サービスをローカルで開始するには、次のコマンドを実行します。

python demo/web_demo.py -c < your-model-path >

コンソールに表示されたアドレスをブラウザに入力すると、Web UI にアクセスできます。

[ トップに戻る ⬆️ ]

微調整

bash finetune/scripts/run_sft_Yi_6b.sh

完了したら、次のコマンドを使用して、微調整されたモデルとベースモデルを比較できます。

bash finetune/scripts/run_eval.sh

高度な使用法 (カスタムデータに基づいた微調整など) については、以下の説明を参照してください。

Yi 6B および 34B の微調整コード

準備

画像から

デフォルトでは、BAAI/COIG の小規模なデータセットを使用して基本モデルを微調整します。カスタマイズしたデータセットを次のjsonl形式で準備することもできます。

{ "prompt" : " Human: Who are you? Assistant: " , "chosen" : " I'm Yi. " }

次に、それらをコンテナーにマウントして、デフォルトのものを置き換えます。

docker run -it 
    -v /path/to/save/finetuned/model/:/finetuned-model 
    -v /path/to/train.jsonl:/yi/finetune/data/train.json 
    -v /path/to/eval.jsonl:/yi/finetune/data/eval.json 
    ghcr.io/01-ai/yi:latest 
    bash finetune/scripts/run_sft_Yi_6b.sh

ローカルサーバーから

condaがあることを確認してください。そうでない場合は、使用してください

mkdir -p ~ /miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~ /miniconda3/miniconda.sh
bash ~ /miniconda3/miniconda.sh -b -u -p ~ /miniconda3
rm -rf ~ /miniconda3/miniconda.sh
~ /miniconda3/bin/conda init bash
source ~ /.bashrc

次に、conda 環境を作成します。

conda create -n dev_env python=3.10 -y
conda activate dev_env
pip install torch==2.0.1 deepspeed==0.10 tensorboard transformers datasets sentencepiece accelerate ray==2.7

ハードウェアのセットアップ

Yi-6B モデルの場合は、それぞれ 60 GB を超える GPU メモリを搭載した 4 つの GPU を備えたノードが推奨されます。

Yi-34B モデルの場合、ゼロオフロード技術の使用により大量の CPU メモリが消費されるため、34B 微調整トレーニングでは GPU の数を制限するように注意してください。 CUDA_VISIBLE_DEVICES を使用して GPU の数を制限してください (scripts/run_sft_Yi_34b.sh に示されているように)。

34B モデルを微調整するための一般的なハードウェアセットアップは、8 つの GPU (CUDA_VISIBLE_DEVICES=0,1,2,3 による実行では 4 つに制限される) を備えたノードで、それぞれの GPU メモリは 80 GB を超え、合計 CPU メモリは 900 GB を超えます。

クイックスタート

LLM ベースのモデルを MODEL_PATH (6B および 34B) にダウンロードします。モデルの一般的なフォルダーは次のようなものです。

 | -- $MODEL_PATH
|   | -- config.json
|   | -- pytorch_model-00001-of-00002.bin
|   | -- pytorch_model-00002-of-00002.bin
|   | -- pytorch_model.bin.index.json
|   | -- tokenizer_config.json
|   | -- tokenizer.model
|   | -- ...

データセットを、huggingface からローカルストレージ DATA_PATH (Dahoas/rm-static など) にダウンロードします。

 | -- $DATA_PATH
|   | -- data
|   |   | -- train-00000-of-00001-2a1df75c6bce91ab.parquet
|   |   | -- test-00000-of-00001-8c7c51afc6d45980.parquet
|   | -- dataset_infos.json
|   | -- README.md

finetune/yi_example_datasetには、BAAI/COIG から変更されたサンプルデータセットが含まれています

 | -- $DATA_PATH
    | --data
        | -- train.jsonl
        | -- eval.jsonl

cd script フォルダーに移動し、スクリプトをコピーして貼り付け、実行します。例えば：

 cd finetune/scripts

bash run_sft_Yi_6b.sh

Yi-6B ベースモデルの場合、training_debug_steps=20 および num_train_epochs=4 を設定すると、チャットモデルを出力できます。これには約 20 分かかります。

Yi-34Bベースモデルの場合、初期化に比較的時間がかかります。しばらくお待ちください。

評価

 cd finetune/scripts

bash run_eval.sh

その後、基本モデルと微調整モデルの両方からの答えが表示されます。

[ トップに戻る ⬆️ ]

量子化

GPT-Q

python quantization/gptq/quant_autogptq.py 
  --model /base_model                      
  --output_dir /quantized_model            
  --trust_remote_code

完了したら、結果のモデルを次のように評価できます。

python quantization/gptq/eval_quantized_model.py 
  --model /quantized_model                       
  --trust_remote_code

詳細については、以下の説明を参照してください。

GPT-Q量子化

GPT-Q は PTQ (Post-Training Quantization) 方式です。メモリを節約し、モデルの精度を維持しながら高速化の可能性をもたらします。

Yi モデルは、多くの労力をかけずに GPT-Q 量子化できます。以下に段階的なチュートリアルを提供します。

GPT-Q を実行するには、AutoGPTQ と exllama を使用します。また、huggingface トランスフォーマーには、言語モデルで GPTQ 量子化を実行するための最適化および自動 gptq が統合されています。

量子化を行う

GPT-Q 量子化を実行するために、 quant_autogptq.pyスクリプトが提供されています。

python quant_autogptq.py --model /base_model 
    --output_dir /quantized_model --bits 4 --group_size 128 --trust_remote_code

量子化モデルの実行

eval_quantized_model.py使用して量子化モデルを実行できます。

python eval_quantized_model.py --model /quantized_model --trust_remote_code

AWQ

python quantization/awq/quant_autoawq.py 
  --model /base_model                      
  --output_dir /quantized_model            
  --trust_remote_code

完了したら、結果のモデルを次のように評価できます。

python quantization/awq/eval_quantized_model.py 
  --model /quantized_model                       
  --trust_remote_code

詳細については、以下の説明を参照してください。

AWQ量子化

AWQ は PTQ (Post-Training Quantization) 方式です。これは、LLM 用の効率的かつ正確な低ビット重み量子化 (INT3/4) です。

Yi モデルは、多くの労力をかけずに AWQ 量子化できます。以下に段階的なチュートリアルを提供します。

AWQ を実行するには、AutoAWQ を使用します。

量子化を行う

AWQ 量子化を実行するために、 quant_autoawq.pyスクリプトが提供されています。

python quant_autoawq.py --model /base_model 
    --output_dir /quantized_model --bits 4 --group_size 128 --trust_remote_code

量子化モデルの実行

eval_quantized_model.py使用して量子化モデルを実行できます。

python eval_quantized_model.py --model /quantized_model --trust_remote_code

[ トップに戻る ⬆️ ]

導入

Yi モデルを展開する場合は、ソフトウェアとハードウェアの要件を満たしていることを確認してください。

ソフトウェア要件

Yi 量子化モデルを使用する前に、以下にリストされている正しいソフトウェアがインストールされていることを確認してください。

モデル	ソフトウェア
Yi 4 ビット量子化モデル	AWQ と CUDA
Yi 8 ビット量子化モデル	GPTQ と CUDA

ハードウェア要件

Yi を環境に展開する前に、ハードウェアが次の要件を満たしていることを確認してください。

チャットモデル

モデル	最小 VRAM	推奨GPUの例
Yi-6B-チャット	15GB	1×RTX 3090 (24 GB) 1×RTX 4090 (24 GB) 1×A10（24GB） 1×A30（24GB）
Yi-6B-チャット-4bits	4ギガバイト	1×RTX 3060 (12 GB) 1×RTX 4060 (8 GB)
Yi-6B-チャット-8bits	8GB	1×RTX 3070 (8 GB) 1×RTX 4060 (8 GB)
Yi-34B-チャット	72GB	4 x RTX 4090 (24 GB) 1×A800（80GB）
Yi-34B-チャット-4bits	20GB	1×RTX 3090 (24 GB) 1×RTX 4090 (24 GB) 1×A10（24GB） 1×A30（24GB） 1×A100（40GB）
Yi-34B-チャット-8bits	38GB	2×RTX 3090 (24 GB) 2×RTX 4090 (24 GB) 1×A800（40GB）

以下は、さまざまなバッチの使用例における VRAM の最小要件の詳細です。

モデル	バッチ=1	バッチ=4	バッチ=16	バッチ=32
Yi-6B-チャット	12GB	13GB	15GB	18GB
Yi-6B-チャット-4bits	4ギガバイト	5GB	7GB	10GB
Yi-6B-チャット-8bits	7GB	8GB	10GB	14GB
Yi-34B-チャット	65GB	68GB	76GB	> 80GB
Yi-34B-チャット-4bits	19GB	20GB	30GB	40GB
Yi-34B-チャット-8bits	35GB	37GB	46GB	58GB

ベースモデル

モデル	最小 VRAM	推奨GPUの例
Yi-6B	15GB	1×RTX 3090 (24 GB) 1×RTX 4090 (24 GB) 1×A10（24GB） 1×A30（24GB）
Yi-6B-200K	50GB	1×A800（80GB）
Yi-9B	20GB	1×RTX 4090 (24 GB)
Yi-34B	72GB	4 x RTX 4090 (24 GB) 1×A800（80GB）
Yi-34B-200K	200GB	4×A800（80GB）

[ トップに戻る ⬆️ ]

よくある質問

Yi シリーズモデルの使用中に質問がある場合は、以下の回答が役立つ参考になります。

微調整

基本モデルとチャットモデル - どちらを微調整しますか?
微調整用の事前トレーニング済み言語モデルの選択は、自由に使える計算リソースとタスクの特定の要求に依存します。
- かなりの量の微調整データ (たとえば 10,000 サンプル以上) を扱う場合は、Base モデルが最適な選択肢となる可能性があります。
- 一方、微調整データがそれほど広範囲ではない場合は、チャットモデルを選択する方が適切な選択となる可能性があります。
- 一般に、Base モデルと Chat モデルの両方を微調整し、パフォーマンスを比較して、特定の要件に最も適合するモデルを選択することをお勧めします。
本格的な微調整のための Yi-34B と Yi-34B-Chat の違いは何ですか?
Yi-34Bでの本格的な微調整とYi-34B-Chatの主な違いは、微調整のアプローチと結果にあります。
- Yi-34B-Chat は Special Fine-Tuning (SFT) 手法を採用しており、人間の会話スタイルをより忠実に反映した応答が得られます。
- Base モデルの微調整はより多用途であり、比較的高いパフォーマンスの可能性を備えています。
- データの品質に自信がある場合は、 Yi-34Bを使用した微調整が最適です。
- 人間の会話スタイルをよりよく模倣したモデル生成の応答を目指している場合、またはデータの品質に疑問がある場合は、 Yi-34B-Chat最善の策かもしれません。

量子化

量子化モデルと元のモデル - パフォーマンスのギャップは何ですか?

拡大する

追加情報

バージョン
タイプその他のソースコード
更新時間 2024-11-24
サイズ 50MB
から Github

Yi

次世代のオープンソースおよびバイリンガル LLM の構築

イーとは何ですか？

導入

ニュース

モデル

チャットモデル

ベースモデル

モデル情報

イーの使い方は？

クイックスタート

自分の道を選択してください

Yi をローカルにデプロイする

Yi をローカルに展開しない

?‍♀️ API を使用して Yi を実行する

?‍♀️ 遊び場でイーを実行します。

?‍♀️ Yi とチャット

クイックスタート - ピップ

ステップ 0: 前提条件

ステップ 1: 環境を準備する

ステップ 2: Yi モデルをダウンロードする

ステップ 3: 推論を実行する

Yi チャット モデルで推論を実行する

Yi 基本モデルで推論を実行する

クイックスタート - Docker

ステップ 0: 前提条件

ステップ 1: Docker を開始する

ステップ 2: 推論を実行する

Yi チャット モデルで推論を実行する

Yi 基本モデルで推論を実行する

クイックスタート - conda-lock

クイックスタート - llama.cpp

ステップ 0: 前提条件

ステップ 1: llama.cppをダウンロードする

ステップ 2: Yi モデルをダウンロードする

ステップ 3: 推論を実行する

方法 1: 端末で推論を実行する

ヒント

方法 2: Web で推論を実行する

ウェブデモ

微調整

Yi 6B および 34B の微調整コード

準備

画像から

ローカルサーバーから

ハードウェアのセットアップ

クイックスタート

評価

量子化

GPT-Q

GPT-Q量子化

量子化を行う

量子化モデルの実行

AWQ

AWQ量子化

量子化を行う

量子化モデルの実行

導入

ソフトウェア要件

ハードウェア要件

チャットモデル

ベースモデル

よくある質問

微調整

量子化

Yi チャットモデルで推論を実行する

Yi チャットモデルで推論を実行する

ステップ 1: `llama.cpp`をダウンロードする