Este é um tutorial pytorch seq2seq para Formosa Speech Grand Challenge, que foi modificado de pratical-pytorch seq2seq-translation-batched.
Tutorial apresentando este repositório do site oficial do pytorch, Tutorial em chinês.
Uma nova versão já está implementada no branch “dev”.
git clone https://github.com/ywk991112/pytorch-chatbot
No arquivo corpus, os pares de sequências de entrada-saída devem estar nas linhas adjacentes. Por exemplo,
I'll see you next time.
Sure. Bye.
How are you?
Better than ever.
Os arquivos do corpus devem ser colocados em um caminho como,
pytorch-chatbot/data/
Caso contrário, o arquivo corpus será rastreado pelo git.
O modelo pré-treinado no corpus movie_subtitles com camada rnn bidirecional e tamanho oculto 512 pode ser baixado neste link. O arquivo do modelo pré-treinado deve ser colocado no diretório conforme a seguir.
mkdir -p save/model/movie_subtitles/1-1_512
mv 50000_backup_bidir_model.tar save/model/movie_subtitles/1-1_512
Execute este comando para iniciar o treinamento, altere os valores dos argumentos conforme sua necessidade.
python main.py -tr -la 1 -hi 512 -lr 0.0001 -it 50000 -b 64 -p 500 -s 1000
Continue treinando com o modelo salvo.
python main.py -tr -l -lr 0.0001 -it 50000 -b 64 -p 500 -s 1000
Para mais opções,
python main.py -h
Os modelos serão salvos em pytorch-chatbot/save/model
durante o treinamento e isso pode ser alterado em config.py
.
Avalie o modelo salvo com sequências de entrada no corpus.
python main.py -te -c
Teste o modelo com sequência de entrada manualmente.
python main.py -te -c -i
Pesquisa de feixe com tamanho k.
python main.py -te -c -be k [-i]