Este es un tutorial de pytorch seq2seq para Formosa Speech Grand Challenge, que está modificado de pratical-pytorch seq2seq-translation-batched.
Tutorial que presenta este repositorio desde el sitio web oficial de pytorch, Tutorial en chino.
Ya está implementada una nueva versión en la rama "dev".
git clone https://github.com/ywk991112/pytorch-chatbot
En el archivo de corpus, los pares de secuencias de entrada y salida deben estar en líneas adyacentes. Por ejemplo,
I'll see you next time.
Sure. Bye.
How are you?
Better than ever.
Los archivos del corpus deben colocarse en una ruta como,
pytorch-chatbot/data/
De lo contrario, git rastreará el archivo corpus.
El modelo previamente entrenado en el corpus movie_subtitles con una capa rnn bidireccional y tamaño oculto 512 se puede descargar en este enlace. El archivo del modelo previamente entrenado debe colocarse en el directorio como se indica a continuación.
mkdir -p save/model/movie_subtitles/1-1_512
mv 50000_backup_bidir_model.tar save/model/movie_subtitles/1-1_512
Ejecute este comando para comenzar a entrenar, cambie los valores de los argumentos según sus propias necesidades.
python main.py -tr -la 1 -hi 512 -lr 0.0001 -it 50000 -b 64 -p 500 -s 1000
Continuar entrenando con el modelo guardado.
python main.py -tr -l -lr 0.0001 -it 50000 -b 64 -p 500 -s 1000
Para más opciones,
python main.py -h
Los modelos se guardarán en pytorch-chatbot/save/model
durante el entrenamiento, y esto se puede cambiar en config.py
.
Evalúe el modelo guardado con secuencias de entrada en el corpus.
python main.py -te -c
Pruebe el modelo con la secuencia de entrada manualmente.
python main.py -te -c -i
Búsqueda de haz con tamaño k.
python main.py -te -c -be k [-i]