Datasets for Training Chatbot System
本計畫收集了一些從網路中找到的用於訓練中文(英文)聊天機器人的對話語料
蒐集到的一些資料集如下,點擊連結可以進入原始地址
dgk_shooter_min.conv.zip
中文電影對白語料,噪音比較大,許多對白問答關係沒有對應好
The NUS SMS Corpus
包含中文和英文短資訊語料,據說是全世界最大公開的短訊息語料
ChatterBot中文基本聊天語料
ChatterBot聊天引擎提供的一點基本中文聊天語料,量很少,但品質比較高
Datasets for Natural Language Processing
這是他人收集的自然語言處理相關資料集,主要包含Question Answering,Dialogue Systems, Goal-Oriented Dialogue Systems三個部分,都是英文文本。可以使用機器翻譯為中文,供中文對話使用
小黃雞據傳這就是小黃雞的語料:xiaohuangji50w_fenciA.conv.zip (已分詞) 和xiaohuangji50w_nofenci.conv.zip (未分詞)
白鷺時代中文問答語料由白鷺時代官方論壇問答板塊10,000+ 問題中,選擇被標註了“最佳答案”的紀錄匯總而成。人工review raw data,給每一個問題,一個可以接受的答案。目前,語料庫只包含2907個問答。 (備份)
Chat corpus repository
chat corpus collection from various open sources
包括:開放字幕、英文電影字幕、中文歌詞、英文推文
保險業QA語料庫透過翻譯insuranceQA產生的資料集。 train_data含有問題12,889條,資料141779條,正例:負例= 1:10;test_data含有問題2,000條,資料22000條,正例:負例= 1:10;valid_data含有問題2,000條,資料22000條,資料22000條,資料22000條,資料22000條,正例:負例= 1:10
這部分語料,網路上有所流傳,但由於我們能力所限,或原作者並未公開,暫時未取得。只是列舉出來,供日後繼續搜尋。
所有原始語料歸原作者所有
何雲超
weibo: @Yunchao_He