チャットボット システムのトレーニング用データセット
このプロジェクトは、中国語 (英語) のチャット ロボットを訓練するために、インターネット上で見つかったいくつかの対話素材を収集します。
収集されたデータセットの一部は次のとおりです。リンクをクリックして元のアドレスを入力してください
dgk_shooter_min.conv.zip
中国映画の対話コーパスは比較的ノイズが多く、多くの対話は適切な質問と回答の関係を持ちません。
NUS SMS コーパス
中国語と英語のショート メッセージ コーパスが含まれており、世界最大の公開ショート メッセージ コーパスと言われています。
ChatterBot 中国語基本チャットコーパス
ChatterBot チャット エンジンは、いくつかの基本的な中国語チャット コーパスを提供します。量は少ないですが、品質は比較的高いです。
自然言語処理用のデータセット
これは他者によって収集された自然言語処理関連のデータセットで、主に質問応答、対話システム、目標指向対話システムの 3 つの部分で構成されており、すべて英語のテキストです。中国語への機械翻訳を使用して中国語の会話に使用できる
Xiaohuangji これは Xiaohuangji50w_fenciA.conv.zip (分割済み) と xiaohuangji50w_nofenci.conv.zip (分割されていない) のコーパスであると言われています
Egret Times の中国語 Q&A コーパスは、Egret Times の公式フォーラムの Q&A セクションにある 10,000 以上の質問から編集されており、「最良の回答」とマークされたレコードが選択されています。生データを手動で確認し、各質問に適切な回答を与えます。現在、コーパスには 2907 件の質問と回答のみが含まれています。 (バックアップ)
チャット コーパス リポジトリ
さまざまなオープンソースからのチャット コーパス コレクション
含まれるもの:オープン字幕、英語映画字幕、中国語歌詞、英語ツイート
保険業界 QA コーパスは、insuranceQA を翻訳して生成されたデータ セットです。 train_data には 12,889 個の質問、141,779 個のデータ、ポジティブな例が含まれます: ネガティブな例 = 1:10; test_data には 2,000 個の質問、22,000 個のデータ、ポジティブな例が含まれます: ネガティブな例 = 1:10; valid_data には 2,000 個の質問、22,000 個のデータが含まれます、ポジティブな例: ネガティブな例 = 1:10
コーパスのこの部分はインターネット上で配布されていますが、私たちの能力が限られているか、原作者が公開していないため、まだ入手できていません。今後の検索のためにリストに記載されています。
すべてのオリジナルのコーパスはオリジナルの作成者に属します
ヘ・ユンチャオ
weibo: @Yunchao_He