RL Chatbotのダウンロード - RL Chatbotソースコードのダウンロード

RL Chatbot

AI ソースコード

1.0.0

ダウンロード

イントロ

seq2seqと強化学習で学習させたチャットボットです。

シーケンス2シーケンス

Seq2seq は構造化学習の古典的なモデルであり、その入力と出力は両方ともシーケンスです

バニラの seq2seq モデルは、NIPS '14 論文「ニューラルネットワークによるシーケンス間学習」で説明されており、エンコーダーとデコーダーは分離されています。

このリポジトリの seq2seq モデルは、ICCV '15 の論文「Sequence to Sequence -- Video to Text」で説明されているものと同様の 2 つの LSTM で構築されており、エンコーダとデコーダは同じ重みを共有します。

RL

十分なエポックでチャットボットをトレーニングした後、ポリシー勾配と呼ばれる RL 手法を使用してチャットボットをさらに改善します

こうすることで、チャットボットは報酬関数に関してより興味深い応答を生成できます。

私の報酬関数は、EMNLP '16 の論文「対話生成のための深層強化学習」で説明されているものと似ています。

チャットボットの結果

チャットボットの結果をいくつかお見せします。

結果 1 (A と B は両方ともトレーニング済みチャットボットです)

A: お願いをしてもらえますか？

B: 何でもいいよ。

A: お父さんを曲げてほしいんです。

B: もちろんです。

A: 大変申し訳ありませんが、失礼なつもりはなかったのですが。

B: 理解できないでください、少なくとも私ができる限りのことです。

結果 2 (A と B は両方とも訓練されたチャットボットです)

答え: やってないよ！銃を持っていない！

B: 嘘つきだね。あなたはまだお金を取り戻したいと思っています。

A: 真実とは何かが間違っています。

B: ちょっとだけでは取れないお金はいらないんです。

A: どうしたの。

B: 聞いてください。今は怖いです。

A: ああ、お金が全部必要になるので、助けてください。

結果 3 (A と B は両方とも訓練されたチャットボットです)

A: コカ・コーラを買うのを忘れました。

B: 頭に何か挟まったんです。

A: 大丈夫、それは多くのクソサイトではよくあることだと思うよ。

B: つまり、子供の頃からずっと一緒にいたのよ。

A: それはなおさらです。

B: それは彼のせいではなく、彼のせいで、彼が盲目なのは神のせいです。

A: それは奇妙な話です。

このディレクトリでチャットボットの結果をさらに見つけることができます

それらの結果のニューラルネットワークの構成はファイル名に記述されます。

事前トレーニングされたモデルによるダイアログのシミュレーション

チャットボットの結果に驚きましたか? :D

この素晴らしいダイアログを自分で生成することもできます。

以下の指示に従ってください。

 pip install -r 要件.txt

 ./script/download.sh

(script/download.sh で -nc パラメーターを使用していることに注意してください。ファイルが存在する場合、ダウンロードは省略されます)

したがって、ダウンロード中に中断がないことを確認してください)

 ./script/simulate.sh <モデルへのパス> <シミュレートの種類> <入力ファイル> <出力ファイル>

<モデルへのパス>

seq2seq ダイアログを生成するには、「 model/Seq2Seq/model-77 」と入力します。

RL ダイアログを生成するには、「 model/RL/model-56-3000 」と入力します。

<シミュレートタイプ>

1 または 2 のいずれかになります

数字はチャットボットが考慮する前の文の数を表します

1 を選択すると、チャットボットは最後の文のみを考慮します

2 を選択すると、チャットボットは最後の 2 つの文 (ユーザーからの文とチャットボット自体からの文) を考慮します。

<入力ファイル>

result/sample_input_new.txt を見てください。

これはチャットボットの入力形式であり、各行がダイアログの開始文になります。

便宜上、サンプルファイルを使用することもできます。

<出力ファイル>

出力ファイル、任意のファイル名を入力します

事前トレーニングされたモデルによる応答の生成

チャットボットに質問ごとに 1 つの応答のみを生成させたい場合

以下の指示に従ってください。

 pip install -r 要件.txt

 ./script/download.sh

(script/download.sh で -nc パラメーターを使用していることに注意してください。ファイルが存在する場合はダウンロードが省略されます。そのため、ダウンロード中に中断がないことを確認してください)

 ./script/run.sh <タイプ> <入力ファイル> <出力ファイル>

<タイプ>

seq2seq 応答を生成するには、「 S2S 」と入力します。

強化学習応答を生成するには、「 RL 」と入力します。

<入力ファイル>

result/sample_input_new.txt を見てください。

これはチャットボットの入力形式であり、各行がダイアログの開始文になります。

便宜上、サンプルファイルを使用することもできます。

<出力ファイル>

出力ファイル、任意のファイル名を入力します

チャットボットをゼロからトレーニングする

チャットボットをPython2.7でトレーニングしました。

チャットボットを一からトレーニングしたい場合

以下の手順に従ってください。

ステップ0: トレーニング構成

python/config.py を見てください。トレーニング用のすべての設定がここに説明されています。

一部のトレーニングハイパーパラメータを変更することも、元のパラメータをそのまま保持することもできます。

ステップ1: データとライブラリをダウンロードする

Cornell Movie-Dialogs Corpus を使用しています

ダウンロードして解凍し、すべての *.txt ファイルを data/ ディレクトリに移動する必要があります。

次に、pip を使用していくつかのライブラリをダウンロードします。

 pip install -r 要件.txt

ステップ2: データを解析する

(このステップでは python3 を使用します)

 ./script/parse.sh

ステップ 3: Seq2Seq モデルをトレーニングする

./script/train.sh

ステップ4-1: Seq2Seqモデルをテストする

seq2seq モデルの結果をいくつか示してみましょう:)

 ./script/test.sh <モデルへのパス> <入力ファイル> <出力ファイル>

ステップ4-2: ダイアログをシミュレートする

そして、seq2seq モデルからのダイアログの結果をいくつか示します。

 ./script/simulate.sh <モデルへのパス> <シミュレートの種類> <入力ファイル> <出力ファイル>

<シミュレートタイプ>

1 または 2 のいずれかになります

数字はチャットボットが考慮する前の文の数を表します

1 を選択すると、チャットボットはユーザーの発話のみを考慮します。

2 を選択すると、チャットボットはユーザーの発話とチャットボットの最後の発話を考慮します。

ステップ5: RLモデルをトレーニングする

python/config.pyのtraining_typeパラメータを変更する必要があります

seq2seq トレーニングの場合は「normal」、ポリシー勾配の場合は「pg」

安定するまで、最初に「通常」でいくつかのエポックをトレーニングする必要があります (少なくとも 30 エポックを強くお勧めします)

次にメソッドを「pg」に変更して報酬関数を最適化します。

 ./script/train_RL.sh

ポリシー勾配 (pg) を使用してトレーニングする場合

逆モデルが必要になる場合があります

反転モデルも cornell movie-dialogs データセットによってトレーニングされますが、ソースとターゲットが逆になります。

事前にトレーニングされた反転モデルをダウンロードできます。

 ./script/download_reversed.sh

または自分でトレーニングすることもできます

事前にトレーニングされた反転モデルを使用する場合、反転モデルに関する設定を変更する必要はありません。

ステップ6-1: RLモデルをテストする

RL モデルの結果をいくつか生成して、seq2seq モデルとの違いを見つけてみましょう :)

 ./script/test_RL.sh <モデルへのパス> <入力ファイル> <出力ファイル>

ステップ6-2: ダイアログを生成する

そして、RL モデルからのダイアログの結果をいくつか示します。

 ./script/simulate.sh <モデルへのパス> <シミュレートの種類> <入力ファイル> <出力ファイル>

<シミュレートタイプ>

1 または 2 のいずれかになります

数字はチャットボットが考慮する前の文の数を表します

1 を選択すると、チャットボットは最後の文のみを考慮します

2 を選択すると、チャットボットは最後の 2 つの文 (ユーザーからの文とチャットボット自体からの文) を考慮します。

環境

OS: CentOS Linux リリース 7.3.1611 (コア)
CPU: Intel(R) Xeon(R) CPU E3-1230 v3 @ 3.30GHz
GPU: GeForce GTX 1070 8GB
メモリ: 16GB DDR3
Python3 (data_parser.py 用) & Python2.7 (その他)

著者

黄ポーチー / @pochih

拡大する

追加情報

バージョン 1.0.0
タイプ AI ソースコード
更新時間 2024-12-14
サイズ 52.7MB
から Github

RL Chatbot

イントロ

チャットボットの結果

事前トレーニングされたモデルによるダイアログのシミュレーション

(script/download.sh で -nc パラメーターを使用していることに注意してください。ファイルが存在する場合、ダウンロードは省略されます)

したがって、ダウンロード中に中断がないことを確認してください)

事前トレーニングされたモデルによる応答の生成

(script/download.sh で -nc パラメーターを使用していることに注意してください。ファイルが存在する場合はダウンロードが省略されます。そのため、ダウンロード中に中断がないことを確認してください)

チャットボットをゼロからトレーニングする

ステップ0: トレーニング構成

ステップ1: データとライブラリをダウンロードする

ステップ2: データを解析する

(このステップでは python3 を使用します)

ステップ 3: Seq2Seq モデルをトレーニングする

ステップ4-1: Seq2Seqモデルをテストする

ステップ4-2: ダイアログをシミュレートする

ステップ5: RLモデルをトレーニングする

ステップ6-1: RLモデルをテストする

ステップ6-2: ダイアログを生成する

環境

著者

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

GitHub the via/releases

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

termwind

wp functions