Il s'agit d'un didacticiel pytorch seq2seq pour Formosa Speech Grand Challenge, qui est modifié à partir de pratical-pytorch seq2seq-translation-batched.
Tutoriel présentant ce dépôt depuis le site officiel de pytorch, Tutoriel en chinois.
Une nouvelle version est déjà implémentée dans la branche "dev".
git clone https://github.com/ywk991112/pytorch-chatbot
Dans le fichier corpus, les paires de séquences d'entrée-sortie doivent se trouver dans les lignes adjacentes. Par exemple,
I'll see you next time.
Sure. Bye.
How are you?
Better than ever.
Les fichiers du corpus doivent être placés sous un chemin tel que :
pytorch-chatbot/data/
Sinon, le fichier corpus sera suivi par git.
Le modèle pré-entraîné sur le corpus movie_subtitles avec une couche rnn bidirectionnelle et une taille cachée de 512 peut être téléchargé dans ce lien. Le fichier de modèle pré-entraîné doit être placé dans le répertoire comme suit.
mkdir -p save/model/movie_subtitles/1-1_512
mv 50000_backup_bidir_model.tar save/model/movie_subtitles/1-1_512
Exécutez cette commande pour démarrer la formation, modifiez les valeurs des arguments selon vos propres besoins.
python main.py -tr -la 1 -hi 512 -lr 0.0001 -it 50000 -b 64 -p 500 -s 1000
Continuez la formation avec le modèle enregistré.
python main.py -tr -l -lr 0.0001 -it 50000 -b 64 -p 500 -s 1000
Pour plus d'options,
python main.py -h
Les modèles seront enregistrés dans pytorch-chatbot/save/model
pendant la formation, et cela peut être modifié dans config.py
.
Évaluez le modèle enregistré avec les séquences d’entrée dans le corpus.
python main.py -te -c
Testez manuellement le modèle avec la séquence d’entrée.
python main.py -te -c -i
Recherche de faisceau avec la taille k.
python main.py -te -c -be k [-i]