ดาวน์โหลด OpenDialog - ดาวน์โหลดซอร์สโค้ด OpenDialog

OpenDialog

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

เปิดกล่องโต้ตอบ

ขณะนี้เรามีอินเทอร์เฟซทดสอบ ซึ่งสามารถใช้ได้โดยการค้นหา OpenDialog บัญชีสาธารณะ WeChat

OpenDialog สร้างขึ้นจากหม้อแปลงที่ใช้ PyTorch นำเสนอชุดโมเดลบทสนทนา ภาษาจีน แบบเปิดที่ใช้หม้อแปลงไฟฟ้า (การสนทนาแชท) รวบรวมทรัพยากรข้อมูลที่มีอยู่และเสริมชุดข้อมูลระบบการสนทนาภาษาจีนที่สอดคล้องกันอย่างต่อเนื่อง โดยมีจุดประสงค์เพื่อสร้างแพลตฟอร์มบทสนทนาการสนทนาภาษาจีนแบบโอเพ่นซอร์ส

การพัฒนาล่าสุด:

เมื่อวันที่ 8.20.2020 เสร็จสิ้นอินเทอร์เฟซของโมเดลการฝึกอบรมล่วงหน้า Open-Domain แบบ LCCC-GPT-Large generative และเรียกใช้โค้ดต่อไปนี้เพื่อเริ่มบริการที่เกี่ยวข้อง
```
./run_flask lccc < gpu_id >
```
10.26.2020 เสร็จสิ้นชุดโมเดลบทสนทนาการเรียกค้นข้อมูลด้วยตัวเข้ารหัสสองตัว (bert-bi-encoder, polyencoder ฯลฯ)
-

บทช่วยสอน

1. คำอธิบายโดยย่อเกี่ยวกับโครงสร้างโครงการและเอกสาร

ไฟล์และไดเร็กทอรีหลักของ OpenDialog:

data : ชุดข้อมูล ไฟล์การกำหนดค่า รายการคำ เวกเตอร์คำ สคริปต์การประมวลผลชุดข้อมูล
models : โมเดลบทสนทนา
metrics : ตัวชี้วัดการประเมินผล
multiview : โมเดลการจัดอันดับใหม่หลายมุม การจัดอันดับใหม่เพื่อรับคำตอบของผู้สมัครบทสนทนา
ckpt : เก็บโมเดลการฝึก
rest : เก็บบันทึกเทนเซอร์บอร์ดและไฟล์ผลลัพธ์ที่สร้างขึ้นในระหว่างขั้นตอนการทดสอบ
utils : เก็บฟังก์ชั่นเครื่องมือ
dataloader.py : สคริปต์การโหลดชุดข้อมูล
main.py : ไฟล์หลักที่ทำงานอยู่
header.py : แพ็คเกจที่ต้องนำเข้า
eval.py : เรียกสคริปต์การประเมินผลของตัวบ่งชี้การประเมินผลใน metrics เพื่อทดสอบผลลัพธ์ของไฟล์ที่สร้างขึ้นใน rest
run.sh : เรียกใช้สคริปต์แบตช์
run_flask.sh : เรียกโมเดลและเริ่มบริการ

2.เตรียมสภาพแวดล้อม

สภาพแวดล้อมระบบพื้นฐาน: Linux/Ubuntu-16.04+ , Python 3.6+ , GPU (default 1080 Ti)
ติดตั้งไลบรารี่ที่ขึ้นกับหลาม

pip install -r requirements.txt

ติดตั้ง ElasticSearch
ระบบการสนทนาแบบดึงข้อมูลจำเป็นต้องใช้ elasticsearch ก่อนเพื่อการคัดกรองแบบคร่าวๆ ในเวลาเดียวกัน เพื่อให้บรรลุการแบ่งส่วนคำภาษาจีนในขั้นตอนการดึงข้อมูลการคัดกรองแบบหยาบ จำเป็นต้องดาวน์โหลดและติดตั้งตัวแบ่งคำภาษาจีน
ติดตั้ง mongodb
หลังจากเริ่มบริการแล้ว mongodb จะถูกใช้เพื่อจัดเก็บประวัติเซสชันและข้อมูลที่จำเป็น

3.จัดเตรียมข้อมูล

ชุดข้อมูลลิงก์ Baidu Cloud: https://pan.baidu.com/s/1xJibJmOOCGIzmJVC6CZ39Q;
เก็บไฟล์ข้อมูลที่เกี่ยวข้องในไดเร็กทอรีย่อยที่เกี่ยวข้องภายใต้ไดเร็กทอรี data และเก็บคำว่า vector files chinese_w2v.txt และ english_w2v.bin ไว้ใต้ data
ดู data/README.md สำหรับรายละเอียดข้อมูลและข้อมูลที่ประมวลผลล่วงหน้า
ชุดข้อมูลที่มีอยู่

5. รูปแบบการฝึกอบรม

โมเดลการฝึกรองรับการทำงานแบบขนานหลาย GPU คุณจะต้องระบุรหัส GPU หลายรายการ <gpu_ids> เช่น 0,1,2,3
ชื่อ dataset สอดคล้องกับชื่อในไดเร็กทอรี data

แบบอย่าง	ซีเอ็มดี	พิมพ์	รายละเอียด	อ้างอิง
เบอร์เทรรีวัล	./run.sh รถไฟ <ชุดข้อมูล> bertretrieval <gpu_ids>	การดึงข้อมูล	โมเดลการปรับแบบละเอียดตามเบิร์ต (การปรับแบบละเอียด)	กระดาษ
GPT2	./run.sh รถไฟ <ชุดข้อมูล> gpt2 <gpu_ids>	กำเนิด	โมเดลบทสนทนาเชิงกำเนิด GPT2	รหัส
gpt2gan	./run.sh รถไฟ <ชุดข้อมูล> gpt2gan <gpu_ids>	กำเนิด	โมเดลบทสนทนาที่ใช้ GAN โมเดลกำเนิดคือ GPT2 และโมเดลจำแนกคือโมเดลการจำแนกประเภทสองของ BERT	กระดาษ