チャットボットの研究プロセスでは、優れたモデルを用意する以外に、ボットの有効性を強化するために大量のトレーニング資料も必要になります。コーパスがきれいであればあるほど、人間の自然言語による応答を生成できるスマートなチャットボットが得られます。 (チャットボットの研究を行う過程では、美しいモデルに加えて、チャットボットを強化するために大量の学習用コーパスも必要になります。コーパスがきれいであればあるほど、チャットボットを人間の自然言語応答に近づけることができます。)
dgk_shooter_min.conv 映画セリフコーパス(中国映画セリフコーパス、ノイズが多く、セリフは話者を区別できないため、セリフ問答関係に対応するのが難しい。)
ChatBot 多言語チャット コーパス ChatterBot が提案する多言語対話コーパス (ChatterBot チャット エンジンが提供する基本言語チャットは幅広い言語をカバーしていますが、量は多くありませんが品質が高く、モデルのテストに適しています) )
自然言語処理のデータセット 論文研究用のコーパスの簡単な要約 (これは、人間が作成した自然言語処理研究論文と対応するデータセットのコレクションです。主な対象領域には、質問応答、対話システム、および目標指向対話が含まれます)システムなど。テキストは英語で構成されており、機械翻訳や会話モデルに使用できます)。
有名な対話コーパス「xiaohuangji 」がオンラインで公開(分割されていない) 2 つの部分は「/」で区切られており、意味上の分割はなく、コーパスにはより多くの顔文字が含まれており、対話内の単語全体の数は少なく、ノイズが多くなります)。
中国の QA ペア データセット (Egret Times の公式フォーラムの Q&A セクションからの質問と回答で構成されます)。回答は、データを手動でレビューし、各質問に受け入れ可能な回答を与えます。多くはありませんが、ほとんどが質疑応答モードです)
Cornell_Movie-Dialogs_Corpus コーネル映画対話コーパス (コーネル大学の映画およびテレビ対話データ収集。コーパスには対話者の名前情報が含まれます。コーパスは英語で、主にマルチターン対話です。)
中国語四行詩コーパス 長さ 5 の中国語四行詩コーパス (古文五语四行詩)
オバマ政治演説コーパス オバマ政治演説コーパス(オバマ大統領の政治演説からの抜粋)
中国ニュース コーパス 中国ニュース (クローラーを使用して主要なニュース Web サイトからクロールされたニュースの見出しと要約)。
PTT ゴシップ板のツイート PTT twittes (クローラーを使用して、ソーシャル ソフトウェア PTT のゴシップ分類セクションのコンテンツをクロールします。元のデータは PTT ゴシップ板の Tweets.txt で、これにはいくつかのシンボルとスペース ノイズが含まれています。ノイズをフィルター処理します (統計を使用します)データの複雑さを軽減するためにメソッドを固定記号に置き換えた後、単一の単語やフレーズ(ジエバ段落)などのさまざまなメソッドを通じて質問と回答のコーパスと辞書が確立されます。
公開コーパスの著作権は原作者に帰属しており、本人の許可なく営利活動に投資することはできませんので、ご協力をお願いいたします。
タグ: Corpus
Chatbot