In the research process of the chatbot, except to having a wonderful model, a large amount of training materials are also needed to strengthen the efficacy of bot. (在進行Chatbot的研究過程中,除了要有一個漂亮的模型之外,還需要有大量可供訓練的語料來強化我們的聊天機器人。越乾淨的語料就能訓練出越接近人類自然語言回复的Chatbot。
dgk_shooter_min.conv movie dialogue corpus (中文電影對白語料,噪音大,由於對話未區分說話人,因此對白問答關係難以對應。 )
ChatBot多語種聊天語料Multi-language dialogue corpus proposed by ChatterBot (ChatterBot聊天引擎所提供的基本語聊,涵蓋語種範圍廣,但是數量不多,但質量較高,適合模型測試。)
DataSets for Natural Language Processing A little bit summary of the corpus for paper researchs (這個是人為收集總結的自然語言處理研究論文以及對應的數據資料集,主要覆蓋方麵包括了: Question Answering, Dialogue Systems以及Goal-Oriented Dialogue System等。
小黃雞對話機器人訓練語料A famous dialogue corpus "xiaohuangji" published online (這就是網路上流行的小黃雞對話機器人的訓練語料,包括了 (已分詞)和xiaohuangji50w_nopji50w . (未分詞)兩個部分,分詞以「/」區隔開來,並沒有語意上的劃分。
白鷺時代中文問答語料A Chinese QA pairs dataset (由白鷺時代官方論壇問答版塊的問題及回復組成,回复選取了標註“最佳答案”的記錄為目標。人工審核資料,給每一個問題一個可以接受的答案。
Cornell_Movie-Dialogs_Corpus Cornell movie dialogue corpus (康乃爾大學影視對話資料集,語料包含對話人名稱訊息,語料為英文,以多輪對話為主。)
Chinese Quatrains Corpus Chinese quatrains corpus with length five (中文古文五言絕句)
Obama Political Speeches Corpus Obama political speeches corpus (歐巴馬總統政治演講節選台詞)
中文新聞語料Chinese news (利用爬蟲從各大新聞網站爬取的新聞頭條和簡訊。)
PTT八卦版推文PTT twittes (利用爬蟲從社交軟體PTT上對於八卦分類板塊的內容進行爬取,原始資料為PTT八卦板推文.txt 其中包括一些符號和空格雜訊,過濾雜訊(利用統計方式按比例替換成固定符號,降低資料複雜度)之後,透過單字或詞組(jieba段詞) 等不同方式建立問答語料和字典。
The copyright of the public corpus is owned by the original author, and no one may be allowed to invest in profitable activities without his/her permission, thanks for your cooperation. (公開語料的版權歸原作者所有,未經允許不得一個作者所有,未經允許不得一個人為名投入獲利性活動。
