ขณะนี้เรามีอินเทอร์เฟซทดสอบ ซึ่งสามารถใช้ได้โดยการค้นหา OpenDialog
บัญชีสาธารณะ WeChat
OpenDialog สร้างขึ้นจากหม้อแปลงที่ใช้ PyTorch นำเสนอชุดโมเดลบทสนทนา ภาษาจีน แบบเปิดที่ใช้หม้อแปลงไฟฟ้า (การสนทนาแชท) รวบรวมทรัพยากรข้อมูลที่มีอยู่และเสริมชุดข้อมูลระบบการสนทนาภาษาจีนที่สอดคล้องกันอย่างต่อเนื่อง โดยมีจุดประสงค์เพื่อสร้างแพลตฟอร์มบทสนทนาการสนทนาภาษาจีนแบบโอเพ่นซอร์ส
การพัฒนาล่าสุด:
เมื่อวันที่ 8.20.2020 เสร็จสิ้นอินเทอร์เฟซของโมเดลการฝึกอบรมล่วงหน้า Open-Domain แบบ LCCC-GPT-Large generative และเรียกใช้โค้ดต่อไปนี้เพื่อเริ่มบริการที่เกี่ยวข้อง
./run_flask lccc < gpu_id >
10.26.2020 เสร็จสิ้นชุดโมเดลบทสนทนาการเรียกค้นข้อมูลด้วยตัวเข้ารหัสสองตัว (bert-bi-encoder, polyencoder ฯลฯ)
-
ไฟล์และไดเร็กทอรีหลักของ OpenDialog:
data
: ชุดข้อมูล ไฟล์การกำหนดค่า รายการคำ เวกเตอร์คำ สคริปต์การประมวลผลชุดข้อมูลmodels
: โมเดลบทสนทนาmetrics
: ตัวชี้วัดการประเมินผลmultiview
: โมเดลการจัดอันดับใหม่หลายมุม การจัดอันดับใหม่เพื่อรับคำตอบของผู้สมัครบทสนทนาckpt
: เก็บโมเดลการฝึกrest
: เก็บบันทึกเทนเซอร์บอร์ดและไฟล์ผลลัพธ์ที่สร้างขึ้นในระหว่างขั้นตอนการทดสอบutils
: เก็บฟังก์ชั่นเครื่องมือdataloader.py
: สคริปต์การโหลดชุดข้อมูลmain.py
: ไฟล์หลักที่ทำงานอยู่header.py
: แพ็คเกจที่ต้องนำเข้าeval.py
: เรียกสคริปต์การประเมินผลของตัวบ่งชี้การประเมินผลใน metrics
เพื่อทดสอบผลลัพธ์ของไฟล์ที่สร้างขึ้นใน rest
run.sh
: เรียกใช้สคริปต์แบตช์run_flask.sh
: เรียกโมเดลและเริ่มบริการ สภาพแวดล้อมระบบพื้นฐาน: Linux/Ubuntu-16.04+
, Python 3.6+
, GPU (default 1080 Ti)
ติดตั้งไลบรารี่ที่ขึ้นกับหลาม
pip install -r requirements.txt
ติดตั้ง ElasticSearch
ระบบการสนทนาแบบดึงข้อมูลจำเป็นต้องใช้ elasticsearch
ก่อนเพื่อการคัดกรองแบบคร่าวๆ ในเวลาเดียวกัน เพื่อให้บรรลุการแบ่งส่วนคำภาษาจีนในขั้นตอนการดึงข้อมูลการคัดกรองแบบหยาบ จำเป็นต้องดาวน์โหลดและติดตั้งตัวแบ่งคำภาษาจีน
ติดตั้ง mongodb
หลังจากเริ่มบริการแล้ว mongodb
จะถูกใช้เพื่อจัดเก็บประวัติเซสชันและข้อมูลที่จำเป็น
data
และเก็บคำว่า vector files chinese_w2v.txt
และ english_w2v.bin
ไว้ใต้ data
data/README.md
สำหรับรายละเอียดข้อมูลและข้อมูลที่ประมวลผลล่วงหน้า<gpu_ids>
เช่น 0,1,2,3
dataset
สอดคล้องกับชื่อในไดเร็กทอรี data
แบบอย่าง | ซีเอ็มดี | พิมพ์ | รายละเอียด | อ้างอิง | โมเดลก่อนฝึก |
---|---|---|---|---|---|
เบอร์เทรรีวัล | ./run.sh รถไฟ <ชุดข้อมูล> bertretrieval <gpu_ids> | การดึงข้อมูล | โมเดลการปรับแบบละเอียดตามเบิร์ต (การปรับแบบละเอียด) | กระดาษ | |
GPT2 | ./run.sh รถไฟ <ชุดข้อมูล> gpt2 <gpu_ids> | กำเนิด | โมเดลบทสนทนาเชิงกำเนิด GPT2 | รหัส | |
gpt2gan | ./run.sh รถไฟ <ชุดข้อมูล> gpt2gan <gpu_ids> | กำเนิด | โมเดลบทสนทนาที่ใช้ GAN โมเดลกำเนิดคือ GPT2 และโมเดลจำแนกคือโมเดลการจำแนกประเภทสองของ BERT | กระดาษ |
เริ่มบริการขวด
./run_flask.sh <model_name> <gpu_id>
อินเตอร์เฟซการโทร