Veuillez vous inscrire : https://goo.gl/forms/Fxy061gHuSOZGC1i2
Trousse d'analyse de l'évaluation : 19 janvier 2018
Le package comprend toutes les références générées par 11 humains, les hypothèses de 20 systèmes et les résultats de l'évaluation dans la piste de modélisation de conversation de bout en bout DSTC6. https://www.dropbox.com/s/oh1trbos0tjzn7t/dstc6_t2_evaluation.tgz
Téléchargez les données officielles des entraînements : 7-18 septembre 2017
Distribution des données de test : 25 septembre 2017
Soumission : 8 octobre 2017
Tâche principale (obligatoire) : dialogue avec le service client via Twitter
(*) Les outils pour télécharger les données Twitter et les transformer au format de dialogue à partir des données sont fournis.
Tâche A : Tout ou partie des données de formation seront utilisées pour former des modèles de conversation.
Tâche B : Toutes les données ouvertes, par exemple provenant du Web, sont disponibles en tant que connaissances externes pour générer des phrases informatives. Mais elles ne doivent pas chevaucher les données de formation, de validation et de test fournies par les organisateurs.
Tâche pilote : boîte de dialogue de scénario de film utilisant OpenSubtitle
Veuillez citer l'article suivant si vous publiez les résultats en utilisant cette configuration :
https://arxiv.org/pdf/1706.07440.pdf
@article{DSTC6_End-to-End_Conversation_Modeling,
Author = {Chiori Hori and Takaaki Hori},
Title = {End-to-end Conversation Modeling Track in DSTC6},
Journal = {arXiv:1706.07440},
Year = {2017}
}
La plupart des outils sont écrits en python, qui ont été testés sur python2.7.6+ et python3.4.1+, et certains scripts bash sont également utilisés pour exécuter ces outils.
Pour la préparation des données, vous aurez besoin de modules Python supplémentaires comme suit :
qui peut être installé par
pip install
ou
pip install -t
où
est un répertoire stockant les modules Python et doit être accessible depuis Python, par exemple en l'incluant dans la variable d'environnement PYTHONPATH.
Si vous essayez le système de base, vous aurez besoin de Chainer http://chainer.org, une boîte à outils d'apprentissage en profondeur, pour effectuer la formation et l'évaluation des modèles de conversation neuronale. Veuillez suivre les instructions dans ChatbotBaseline/README.md
.
préparer l'ensemble de données à l'aide des scripts collect_twitter_dialogs
.
$ cd collect_twitter_dialogs
$ collect.sh
(un compte Twitter et des clés d'accès sont nécessaires pour exécuter le script. suivez les instructions dans collect_twitter_dialogs/README.md
)
extraire les ensembles de formation, de développement et de test des données de dialogue Twitter stockées
$ cd ../tasks/twitter
$ make_trial_data.sh
Remarque : les données extraites sont actuellement des données d'essai.
exécuter le système de base (facultatif)
$ cd ../../ChatbotBaseline/egs/twitter
$ run.sh
(voir ChatbotBaseline/README.md
)
télécharger les données OpenSubtitles2016
$ cd tasks/opensubs
$ wget http://opus.lingfil.uu.se/download.php?f=OpenSubtitles2016/en.tar.gz
$ tar zxvf en.tar.gz
extraire des ensembles de formation, de développement et de test à partir des données de sous-titres stockées
$ make_trial_data.sh
Remarque : les données extraites sont actuellement des données d'essai.
exécuter le système de base (facultatif)
$ cd ../../ChatbotBaseline/egs/opensubs
$ run.sh
(voir ChatbotBaseline/README.md
)
Vous pouvez obtenir les dernières mises à jour et participer aux discussions sur la liste de diffusion DSTC
Pour rejoindre la liste de diffusion, envoyez un e-mail à : ([email protected]) en mettant "subscribe DSTC" dans le corps du message (sans les guillemets). Pour publier un message, envoyez votre message à : ([email protected]).