Dialog_Corpus下載 - Dialog_Corpus原始碼下載

Dialog_Corpus

Ai源碼

1.0.0

下載

用於對話系統的中英文語料

Datasets for Training Chatbot System
本計畫收集了一些從網路中找到的用於訓練中文（英文）聊天機器人的對話語料

公開語料

蒐集到的一些資料集如下，點擊連結可以進入原始地址

dgk_shooter_min.conv.zip
中文電影對白語料，噪音比較大，許多對白問答關係沒有對應好
The NUS SMS Corpus
包含中文和英文短資訊語料，據說是全世界最大公開的短訊息語料
ChatterBot中文基本聊天語料
ChatterBot聊天引擎提供的一點基本中文聊天語料，量很少，但品質比較高
Datasets for Natural Language Processing
這是他人收集的自然語言處理相關資料集，主要包含Question Answering，Dialogue Systems， Goal-Oriented Dialogue Systems三個部分，都是英文文本。可以使用機器翻譯為中文，供中文對話使用
小黃雞據傳這就是小黃雞的語料：xiaohuangji50w_fenciA.conv.zip （已分詞）和xiaohuangji50w_nofenci.conv.zip （未分詞）
白鷺時代中文問答語料由白鷺時代官方論壇問答板塊10,000+ 問題中，選擇被標註了“最佳答案”的紀錄匯總而成。人工review raw data，給每一個問題，一個可以接受的答案。目前，語料庫只包含2907個問答。 (備份)
Chat corpus repository
chat corpus collection from various open sources
包括：開放字幕、英文電影字幕、中文歌詞、英文推文
保險業QA語料庫透過翻譯insuranceQA產生的資料集。 train_data含有問題12,889條，資料141779條，正例：負例= 1:10；test_data含有問題2,000條，資料22000條，正例：負例= 1:10；valid_data含有問題2,000條，資料22000條，資料22000條，資料22000條，資料22000條，正例：負例= 1:10