pytorch chatbot
1.0.0
这是Formosa Speech Grand Challenge的pytorch seq2seq教程,由pratical-pytorch seq2seq-translation-batched修改而来。
介绍这个repo的教程来自pytorch官网,中文教程。
新版本已经在分支“dev”中实现。
git clone https://github.com/ywk991112/pytorch-chatbot
在语料库文件中,输入输出序列对应位于相邻行中。例如,
I'll see you next time.
Sure. Bye.
How are you?
Better than ever.
语料库文件应放置在如下路径下:
pytorch-chatbot/data/
否则,语料库文件将被 git 跟踪。
可以在此链接中下载 movie_subtitles 语料库上具有双向 rnn 层和隐藏大小 512 的预训练模型。预训练的模型文件应放置在如下目录中。
mkdir -p save/model/movie_subtitles/1-1_512
mv 50000_backup_bidir_model.tar save/model/movie_subtitles/1-1_512
运行此命令开始训练,根据自己的需要更改参数值。
python main.py -tr -la 1 -hi 512 -lr 0.0001 -it 50000 -b 64 -p 500 -s 1000
使用保存的模型继续训练。
python main.py -tr -l -lr 0.0001 -it 50000 -b 64 -p 500 -s 1000
如需更多选择,
python main.py -h
训练时模型将保存在pytorch-chatbot/save/model
中,这可以在config.py
中更改。
使用语料库中的输入序列评估保存的模型。
python main.py -te -c
手动使用输入序列测试模型。
python main.py -te -c -i
大小为 k 的集束搜索。
python main.py -te -c -be k [-i]