lad gpt
October 2023 Release
このリポジトリは、WhatsApp チャット メッセージのみに基づいて文字レベルまたは単語レベルの言語モデルのトレーニングを容易にします。モデルのトレーニング後、Whatsapp でトレーニングされたチャット グループとの合成会話を開始できます。
assets/input/chat.txt
は単なるプレースホルダーであり、チャット メッセージの実際のコーパスに置き換えられます。 |-- assets
| |-- input
| | |-- chat.txt
| |-- output
| | |-- contacts.txt
| | |-- vocab.txt
| | |-- train.pt
| | |-- valid.pt
| |-- models
| | |--model.pt
|-- src
| |-- chat.py
| |-- model.py
| |-- preprocess.py
| |-- train.py
| |-- utils.py
|-- config.py
|-- run.py
assets/input/chat.txt:
入力ファイルは、エクスポートされた WhatsApp チャット (メディアなし) である必要があります。assets/output/:
エンコードされたトレーニング/検証データとトレーニングされたモデルがこの場所に書き込まれます。assets/models/model.pt:
トレーニングされた pytorch モデル オブジェクト。src/preprocess.py:
チャット メッセージをエンコードされた PyTorch テンソルに変換します。データはトレーニング セットと検証セットに分割されます。src/model.py:
言語モデルクラスを定義します。src/train.py:
言語モデルをトレーニングするためのコードが含まれています。src/chat.py:
モデルとの会話対話のための関数が含まれています。src/utils.py:
その他の便利なユーティリティ関数。run.py:
3 つのアクション (「前処理」、「トレーニング」、「チャット」) のいずれかを呼び出すための引数パーサーを含むメイン スクリプト。config.py:
前処理とモデルのトレーニング用のパラメーターが記録されます。 git clone https://github.com/bernhard-pfann/lad-gpt.git
cd lad-gpt
pip install -r requirements.txt
このプロジェクトを最大限に活用するには、WhatsApp チャットからのメッセージを含む .txt ファイルが必要です。 WhatsApp グループ チャットを .txt ファイルにエクスポートする手順は次のとおりです。
.txt ファイルを取得したら、 chat.txt
という名前で、 assets/input
ディレクトリに配置します。これで準備完了です!
入力データが配置されたら、チャットを数値テンソルにエンコードする必要があります。エンコードされたデータもトレーニング セットと検証セットに分割されます。
python run.py preprocess
エンコードされたチャット データのみに基づいて、言語モデルを最初からトレーニングすること。既存のモデルのトレーニングを続行する場合は、 --update
を設定します。
python run.py train --update
トレーニングされたモデルとのチャットを開始するには:
python run.py chat