UnilmChatchitRobot下載 - UnilmChatchitRobot原始碼下載

UnilmChatchitRobot

Ai源碼

1.0.0

下載

Unilm for Chinese Chitchat Robot

基於Unilm模型的誇誇式閒聊機器人項目

項目描述

本專案是一個基於Unilm模型的誇誇式閒聊機器人專案。
本專案目前開源的模型僅使用豆瓣誇誇群資料訓練，所以稱為誇誇式閒聊機器人。有興趣的同學，也可以使用本項目代碼對其他對話語料進行訓練。
詳細介紹見知乎：誇誇式閒聊機器人之Unilm對話生成。
在最後對話生成時，對生成的敏感詞進行了過濾。

文件結構

kuakua_robot_model 模型保存路徑（模型下載，請參閱資料及模型）
unilm_model 預訓練unilm模型路徑（模型下載，請參閱Unilm預訓練模型）
data_dir 存放資料的資料夾
- dirty_words.txt 敏感詞詞典
- douban_kuakua_qa.txt 原始豆瓣誇誇群語料
- sample.json 訓練集範例，需要將原始資料處理成範例形式（專案未提供預處理程式碼）
configuration_unilm.py unilm模型的config文件
modeling_unilm.py unilm模型文件
run_train.py 模型訓練文件
interactive_conditional_samples.py 預測文件，根據訓練好的模型，進行對話生成

運作環境

transformers == 3.0.2
pytorch >= 1.4

數據及模型

原始語料來自豆瓣誇誇群數據，請參閱data/douban_kuakua_qa.txt。
經過清洗後，得到了6萬多單輪對話數據，數據格式請見data/sample.json。
已訓練好的模型，下載地址：鏈接，驗證碼： e0au

Train

 nohup python3 -u run_train.py --data_dir data/ 
                              --src_file kuakua_data.json 
                              --model_type unilm 
                              --model_name_or_path unilm_model/ 
                              --output_dir kuakua_robot_model/ 
                              --max_seq_length 128 
                              --max_position_embeddings 512 
                              --do_train 
                              --do_lower_case 
                              --train_batch_size 32 
                              --learning_rate 2e-5 
                              --logging_steps 100 
                              --num_train_epochs 10 > log.log 2>&1 &

訓練機器2060s，batch_size為32，訓練了10個epoch。 Loss如下： avatar

透過loss曲線來看，其實模型並沒有完全收斂，loss還有很大的下降幅度，可以繼續訓練，效果應該會更好。

Test

 python3 interactive_conditional_samples.py --device 0
                                           --topk 3
                                           --topp 0.95
                                           --dirty_path data/dirty_words.txt
                                           --model_name_or_path kuakua_robot_model/
                                           --repetition_penalty 1.2
                                           --max_len 32 
                                           --no_cuda False

可以透過調節，topk、topp和repetition_penalty來修改模型產生效果。

Result

sample1

 user:工作不开心
chatbot:你可以的！工作不开心也可以去吃火锅，看个影响自己心情的电视剧
user:工作不开心
chatbot:我也是，不过现在开始努力找工作啦！一起加油鸭～
user:工作不开心
chatbot:那就祝福你，能找到喜欢的工作吧。
user:工作不开心
chatbot:你也要加油鸭！
user:工作不开心
chatbot:我也是，不过总有一天就会好起来的

sample2

 user:我分手了
chatbot:分手快乐，你会遇到更好的。
user:我分手了
chatbot:旧的不去新的不来，你会遇见更好的
user:我分手了
chatbot:分的好，下一个更乖
user:我分手了
chatbot:旧的不去新的不来
user:我分手了
chatbot:分手快乐，祝你快乐！
user:我分手了
chatbot:旧的不去新的不来，加油！

sample3

 user:好像去吃火锅，但是我在减肥
chatbot:你好棒！一定会瘦下来的！
user:好像去吃火锅，但是我在减肥
chatbot:吃火锅是为了能更好的减肥，你真棒！
user:好像去吃火锅，但是我在减肥
chatbot:吃火锅对胃好哦！我也在减肥，一起加油呀
user:好像去吃火锅，但是我在减肥
chatbot:吃火锅对减肥有什么效果？我也想去吃，但是现在没勇气去吃
user:好像去吃火锅，但是我在减肥
chatbot:你真的很棒，我也在减肥

不足

本模型最大的問題是，在訓練模型時，沒有考慮上下文訊息，也就是訓練是針對單輪對話進行的，因此可能會出現文不對題的情況。

未來工作

後期可能將項目增加詳細註釋，增加資料預處理部分程式碼。
後期可能使用大批量資料訓練一個效果更好的基於unilm的閒聊對話模型。
後期可能考慮上下文，訓練一個支援多輪對話的模型。

參考

Unilm

Citing

 @misc{UnilmChatchitRobot,
  author = {Cong Liu},
  title = {Unilm for Chinese Chitchat Robot},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  url="https://github.com/liucongg/UnilmChatchitRobot",
}