請報名:https://goo.gl/forms/Fxy061gHuSOZGC1i2
評估分析包:2018 年 1 月 19 日
該套件包括 11 個人產生的所有參考、20 個系統的假設以及 DSTC6 端對端對話建模軌道中的評估結果。 https://www.dropbox.com/s/oh1trbos0tjzn7t/dstc6_t2_evaluation.tgz
下載官方訓練資料:2017年9月7日至18日
測試資料分佈:2017年9月25日
提交日期:2017 年 10 月 8 日
主要任務(強制):使用 Twitter 進行客戶服務對話
(*) 提供了下載twitter資料並將資料轉換為對話方塊格式的工具。
任務A:全部或部分訓練資料將用於訓練對話模型。
任務B:任何開放數據,例如來自網路的數據,都可以作為外部知識來產生資訊豐富的句子。但它們不應與組織者提供的訓練、驗證和測試資料重疊。
試點任務:使用 OpenSubtitle 的電影場景對話框
如果您要使用此設定發布結果,請引用以下論文:
https://arxiv.org/pdf/1706.07440.pdf
@article{DSTC6_End-to-End_Conversation_Modeling,
Author = {Chiori Hori and Takaaki Hori},
Title = {End-to-end Conversation Modeling Track in DSTC6},
Journal = {arXiv:1706.07440},
Year = {2017}
}
大多數工具都是用python編寫的,並在python2.7.6+和python3.4.1+上進行了測試,並且還使用一些bash腳本來執行這些工具。
為了準備數據,您將需要額外的 python 模組,如下所示:
可以透過以下方式安裝
pip install
或者
pip install -t
其中
是儲存 python 模組的目錄,需要可以從 python 訪問,例如將其包含在 PYTHONPATH 環境變數中。
如果您嘗試基線系統,您將需要 Chainer http://chainer.org,一個深度學習工具包,來執行神經對話模型的訓練和評估。請依照ChatbotBaseline/README.md
中的說明進行操作。
使用collect_twitter_dialogs
腳本準備資料集。
$ cd collect_twitter_dialogs
$ collect.sh
(執行腳本需要 Twitter 帳戶和存取金鑰。請按照collect_twitter_dialogs/README.md
中的說明進行操作)
從儲存的 Twitter 對話資料中提取訓練、開發和測試集
$ cd ../tasks/twitter
$ make_trial_data.sh
註:提取的數據為此時的試驗數據。
運行基線系統(可選)
$ cd ../../ChatbotBaseline/egs/twitter
$ run.sh
(參見ChatbotBaseline/README.md
)
下載 OpenSubtitles2016 數據
$ cd tasks/opensubs
$ wget http://opus.lingfil.uu.se/download.php?f=OpenSubtitles2016/en.tar.gz
$ tar zxvf en.tar.gz
從儲存的字幕資料中提取訓練、開發和測試集
$ make_trial_data.sh
註:提取的數據為此時的試驗數據。
運行基線系統(可選)
$ cd ../../ChatbotBaseline/egs/opensubs
$ run.sh
(參見ChatbotBaseline/README.md
)
您可以在 DSTC 郵件列表上獲取最新更新並參與討論
若要加入郵件列表,請發送電子郵件至:([email protected]),在郵件正文中放入「訂閱 DSTC」(不含引號)。若要發布訊息,請將訊息傳送至:([email protected])。