Ini adalah tutorial pytorch seq2seq untuk Formosa Speech Grand Challenge, yang dimodifikasi dari pratical-pytorch seq2seq-translation-batched.
Tutorial memperkenalkan repo ini dari situs resmi pytorch, Tutorial dalam bahasa Mandarin.
Versi baru sudah diimplementasikan di cabang "dev".
git clone https://github.com/ywk991112/pytorch-chatbot
Pada file corpus, pasangan urutan input-output harus berada pada baris yang berdekatan. Misalnya,
I'll see you next time.
Sure. Bye.
How are you?
Better than ever.
File korpus harus ditempatkan di bawah jalur seperti,
pytorch-chatbot/data/
Jika tidak, file korpus akan dilacak oleh git.
Model pretrained pada korpus movie_subtitles dengan lapisan rnn dua arah dan ukuran tersembunyi 512 dapat diunduh di tautan ini. File model yang telah dilatih sebelumnya harus ditempatkan di direktori sebagai berikut.
mkdir -p save/model/movie_subtitles/1-1_512
mv 50000_backup_bidir_model.tar save/model/movie_subtitles/1-1_512
Jalankan perintah ini untuk memulai pelatihan, ubah nilai argumen sesuai kebutuhan Anda.
python main.py -tr -la 1 -hi 512 -lr 0.0001 -it 50000 -b 64 -p 500 -s 1000
Lanjutkan pelatihan dengan model tersimpan.
python main.py -tr -l -lr 0.0001 -it 50000 -b 64 -p 500 -s 1000
Untuk opsi lainnya,
python main.py -h
Model akan disimpan di pytorch-chatbot/save/model
saat pelatihan, dan ini dapat diubah di config.py
.
Evaluasi model yang disimpan dengan urutan masukan di korpus.
python main.py -te -c
Uji model dengan urutan input secara manual.
python main.py -te -c -i
Pencarian balok dengan ukuran k.
python main.py -te -c -be k [-i]