请注册:https://goo.gl/forms/Fxy061gHuSOZGC1i2
评估分析包:2018 年 1 月 19 日
该包包括 11 个人生成的所有参考、20 个系统的假设以及 DSTC6 端到端对话建模轨道中的评估结果。 https://www.dropbox.com/s/oh1trbos0tjzn7t/dstc6_t2_evaluation.tgz
下载官方训练数据:2017年9月7日至18日
测试数据分布:2017年9月25日
提交日期:2017 年 10 月 8 日
主要任务(强制):使用 Twitter 进行客户服务对话
(*) 提供了下载twitter数据并将数据转换为对话框格式的工具。
任务A:全部或部分训练数据将用于训练对话模型。
任务B:任何开放数据,例如来自网络的数据,都可以作为外部知识来生成信息丰富的句子。但它们不应与组织者提供的训练、验证和测试数据重叠。
试点任务:使用 OpenSubtitle 的电影场景对话框
如果您将使用此设置发布结果,请引用以下论文:
https://arxiv.org/pdf/1706.07440.pdf
@article{DSTC6_End-to-End_Conversation_Modeling,
Author = {Chiori Hori and Takaaki Hori},
Title = {End-to-end Conversation Modeling Track in DSTC6},
Journal = {arXiv:1706.07440},
Year = {2017}
}
大多数工具都是用python编写的,并在python2.7.6+和python3.4.1+上进行了测试,并且还使用一些bash脚本来执行这些工具。
为了准备数据,您将需要额外的 python 模块,如下所示:
可以通过以下方式安装
pip install
或者
pip install -t
其中
是存储 python 模块的目录,需要可以从 python 访问,例如通过将其包含在 PYTHONPATH 环境变量中。
如果您尝试基线系统,您将需要 Chainer http://chainer.org,一个深度学习工具包,来执行神经对话模型的训练和评估。请按照ChatbotBaseline/README.md
中的说明进行操作。
使用collect_twitter_dialogs
脚本准备数据集。
$ cd collect_twitter_dialogs
$ collect.sh
(运行脚本需要 Twitter 帐户和访问密钥。请按照collect_twitter_dialogs/README.md
中的说明进行操作)
从存储的 Twitter 对话数据中提取训练、开发和测试集
$ cd ../tasks/twitter
$ make_trial_data.sh
注:提取的数据为此时的试验数据。
运行基线系统(可选)
$ cd ../../ChatbotBaseline/egs/twitter
$ run.sh
(参见ChatbotBaseline/README.md
)
下载 OpenSubtitles2016 数据
$ cd tasks/opensubs
$ wget http://opus.lingfil.uu.se/download.php?f=OpenSubtitles2016/en.tar.gz
$ tar zxvf en.tar.gz
从存储的字幕数据中提取训练、开发和测试集
$ make_trial_data.sh
注:提取的数据为此时的试验数据。
运行基线系统(可选)
$ cd ../../ChatbotBaseline/egs/opensubs
$ run.sh
(参见ChatbotBaseline/README.md
)
您可以在 DSTC 邮件列表上获取最新更新并参与讨论
要加入邮件列表,请发送电子邮件至:([email protected]),在邮件正文中放入“订阅 DSTC”(不带引号)。要发布消息,请将消息发送至:([email protected])。