MultiTurnDialogZoo ดาวน์โหลด - MultiTurnDialogZoo ดาวน์โหลดซอร์สโค้ด

MultiTurnDialogZoo

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

สวนสัตว์โต้ตอบหลายเลี้ยว

ชุดของพื้นฐานการสนทนาแบบหลายเทิร์นหรือเทิร์นเดียวที่พร้อมใช้งาน

ยินดีต้อนรับประชาสัมพันธ์และประเด็นต่างๆ

สิ่งที่ต้องทำ

เครือข่ายหน่วยความจำ
สวทช
Pure Transformer (อยู่ระหว่างการพัฒนา ประสิทธิภาพต่ำ)
การสร้างบทสนทนาแบบหลายเลี้ยวตาม GAN
โมเดลบทสนทนาที่ปรับแต่งตาม RL
แก้ไขสถาปัตยกรรมของตัวถอดรหัส (เพิ่มเวกเตอร์บริบท $c$ และการฝังโทเค็นสุดท้าย $y_{t-1}$ สำหรับการทำนาย $y_t$ -

ชุดข้อมูล

สคริปต์การประมวลผลล่วงหน้าสำหรับชุดข้อมูลเหล่านี้สามารถพบได้ในโฟลเดอร์ data/data_process

ชุดข้อมูล DailyDialog
คลังข้อมูล Ubuntu
เอ็มพแชท
DSTC7-AVSD
PersonaChat

เมตริก

PPL: ทดสอบความงุนงง
BLEU(1-4): เวอร์ชัน nlg-eval หรือ multi-bleu.perl หรือ nltk
รูจ-2
การวัดตามการฝัง: เฉลี่ย, สุดขั้ว, โลภ (ช้าและเป็นทางเลือก)
แตกต่าง-1/2
BERTScore
เบิร์ต-รูเบอร์

ความต้องการ

Pytorch 1.2+ (รองรับ Transformer & อัพเดต pack_padded)
ไพธอน 3.6.1+
ทีคิวดีเอ็ม
มากมาย
nltk 3.4+
เผ็ดร้อน
sklearn (ไม่จำเป็น)
สีแดง
GoogleNews word2vec หรือ ถุงมือ 300 word2vec (ไม่บังคับ)
pytorch_geometric (PyG 1.2) (เป็นทางเลือก)
cuda 9.2 (จับคู่กับ PyG) (เป็นทางเลือก)
เทนเซอร์บอร์ด (สำหรับ PyTorch 1.2+)
perl (สำหรับการรันสคริปต์ multi-bleu.perl)

รูปแบบชุดข้อมูล

สามารถรับชุดข้อมูลบทสนทนาแบบเปิดโดเมนแบบหลายรอบสามชุด (Dailydialog, DSTC7_AVSD, PersonaChat) ได้จากลิงก์นี้

แต่ละชุดข้อมูลประกอบด้วย 6 ไฟล์

src-train.txt
tgt-train.txt
src-dev.txt
tgt-dev.txt
src-test.txt
tgt-test.txt

ในไฟล์ทั้งหมด หนึ่งบรรทัดจะมีบริบทการสนทนาเพียงรายการเดียว (src) หรือการตอบกลับบทสนทนา (tgt) รายละเอียดเพิ่มเติมสามารถพบได้ในไฟล์ตัวอย่าง ในการสร้างกราฟ แต่ละประโยคจะต้องขึ้นต้นด้วยโทเค็นพิเศษ <user0> และ <user1> ซึ่งแสดงถึงผู้พูด __eou__ ใช้เพื่อแยกหลายประโยคในบริบทของการสนทนา รายละเอียดเพิ่มเติมสามารถพบได้ในกรณีข้อมูลขนาดเล็ก

วิธีใช้

ชื่อรุ่น: Seq2Seq, SeqSeq_MHA, HRED, HRED_RA, VHRED, WSeq, WSeq_RA, DSHRED, DSHRED_RA, HRAN, MReCoSa, MReCoSa_RA
ชื่อชุดข้อมูล: daildydialog, ubuntu, dstc7, personachat, empchat

0. พร้อม

ก่อนที่จะรันคำสั่งต่อไปนี้ ตรวจสอบให้แน่ใจว่าได้สร้างโฟลเดอร์ที่จำเป็นแล้ว:

mkdir -p processed/ $DATASET
mkdir -p data/ $DATASET
mkdir -p tblogs/ $DATASET
mkdir -p ckpt/ $DATASET

Variable DATASET ประกอบด้วยชื่อของชุดข้อมูลที่คุณต้องการประมวลผล

1. สร้างคำศัพท์ของชุดข้อมูล

 # default 25000 words
./run.sh vocab < dataset >

2. สร้างกราฟของชุดข้อมูล (ตัวเลือก)

 # only MTGCN and GatedGCN need to create the graph
# zh or en
./run.sh graph < dataset > < zh/en > < cuda >

3. ตรวจสอบข้อมูลเกี่ยวกับชุดข้อมูลที่ประมวลผลล่วงหน้า

แสดงความยาวของคำพูด การหมุนของการตั้งค่าแบบหลายเทิร์น และอื่นๆ

./run.sh stat < dataset >

4. เทรน N-gram LM (ทิ้ง)

ฝึกฝนโมเดลภาษา N-gram โดย NLTK (Lidstone ที่มี 0.5 gamma ค่าเริ่มต้น n-gram คือ 3):

 # train the N-gram Language model by NLTK
./run.sh lm < dataset >

5. ฝึกโมเดลบนชุดข้อมูลที่เกี่ยวข้อง

./run.sh train < dataset > < model > < cuda >

6. แปลชุดข้อมูลทดสอบ:

 # translate mode, dataset dialydialog, model HRED on 4th GPU
./run.sh translate < dataset > < model > < cuda >

แปลชุดโมเดล

 # rewrite the models and datasets you want to translate
./run_batch_translate.sh < cuda >

7. ประเมินผลลัพธ์ของคำพูดที่แปล

 # get the BLEU and Distinct result of the generated sentences on 4th GPU (BERTScore need it)
./run.sh eval < dataset > < model > < cuda >

ประเมินชุดของแบบจำลอง

 # the performance are redirected into the file `./processed/<dataset>/<model>/final_result.txt`
./run_batch_eval.sh < cuda >

8. รับเส้นโค้งของจุดตรวจการฝึกอบรมทั้งหมด (ทิ้งเทนเซอร์บอร์ดเท่านั้นที่คุณต้องการ)

 # draw the performance curve, but actually, you can get all the information from the tensorboard
./run.sh curve < dataset > < model > < cuda >

9. รบกวนชุดข้อมูลการทดสอบแหล่งที่มา

อ้างถึงบทความ: Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study

 # 10 mode for perturbation
./run.sh perturbation < dataset > < zh/en >

รุ่นพร้อมใช้

Seq2Seq-attn: Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation
Seq2Seq-MHA: Attention is All you Need ควรสังเกตว่า vanilla Transformer นั้นยากมากที่จะได้รับประสิทธิภาพที่ดีบนชุดข้อมูลเหล่านี้ เพื่อให้แน่ใจว่าประสิทธิภาพมีเสถียรภาพ ฉันใช้ประโยชน์จากการเอาใจใส่ตนเองแบบหลายหัว (1 เลเยอร์ คุณสามารถเปลี่ยนได้) บน Seq2Seq-attn ที่ใช้ RNN ซึ่งแสดงประสิทธิภาพที่ดีขึ้น
HRED: Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network Models ปรับปรุง HRED ด้วยความสนใจระดับคำพูด
HRED-WA: สร้างความสนใจระดับคำในโมเดล HRED
WSeq: How to Make Context More Useful? An Empirical Study on Context-Aware Neural Conversational Models
WSeq-WA: สร้างความสนใจระดับคำในโมเดล WSeq
VHRED: A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues โดยไม่มีการสูญเสีย BOW (ยังอยู่ในการพัฒนา ยินดีต้อนรับ PR)
DSHRED: Context-Sensitive Generation of Open-Domain Conversational Responses กลไกความสนใจแบบไดนามิกและแบบคงที่บน HRED
DSHRED-WA: สร้างความสนใจระดับคำบน DSHRED
ReCoSa: ReCoSa: Detecting the Relevant Contexts with Self-Attention for Multi-turn Dialogue Generation ควรสังเกตว่าการใช้งานนี้แตกต่างจากโค้ดต้นฉบับเล็กน้อย แต่มีประสิทธิภาพและใช้งานได้จริงมากกว่า (การเอาใจใส่ตนเองแบบหลายหัว 3 ชั้น แต่มีเพียง 1 เลเยอร์ในเอกสารต้นฉบับ)
ReCoSa-WA: สร้างความสนใจในระดับคำบน ReCoSa
HRAN: Hierarchical Recurrent Attention Network for Response Generation จริงๆ แล้วเหมือนกับ HRED ที่มีกลไกความสนใจระดับคำ