Kami sekarang memiliki antarmuka pengujian, yang dapat digunakan dengan mencari OpenDialog
akun publik WeChat
OpenDialog dibangun di atas transformator berbasis PyTorch. Menyediakan serangkaian model dialog domain terbuka Tiongkok berbasis transformator (percakapan obrolan), mengumpulkan sumber daya data yang ada, dan terus melengkapi kumpulan data sistem percakapan Tiongkok terkait, dengan tujuan membangun platform dialog obrolan Tiongkok sumber terbuka.
Perkembangan terkini:
20.8.2020, menyelesaikan antarmuka model pra-pelatihan Open-Domain generatif LCCC-GPT-Large, dan menjalankan kode berikut untuk memulai layanan yang sesuai
./run_flask lccc < gpu_id >
26.10.2020, menyelesaikan sejumlah model dialog pengambilan bi-encoder (bert-bi-encoder, polyencoder, dll.)
...
File dan direktori inti OpenDialog:
data
: kumpulan data, file konfigurasi, daftar kata, vektor kata, skrip pemrosesan kumpulan datamodels
: model dialogmetrics
: indikator evaluasimultiview
: model pemeringkatan ulang multi-sudut, pemeringkatan ulang untuk mendapatkan tanggapan kandidat dialogckpt
: menyimpan model pelatihanrest
: menyimpan log tensorboard dan file hasil yang dihasilkan selama fase pengujianutils
: menyimpan fungsi alatdataloader.py
: Skrip pemuatan kumpulan datamain.py
: file utama yang sedang berjalanheader.py
: paket yang perlu diimporeval.py
: Panggil skrip evaluasi indikator evaluasi dalam metrics
untuk menguji hasil file yang dihasilkan secara rest
run.sh
: menjalankan skrip batchrun_flask.sh
: Panggil model dan mulai layanan Lingkungan sistem dasar: Linux/Ubuntu-16.04+
, Python 3.6+
, GPU (default 1080 Ti)
Instal perpustakaan yang bergantung pada python
pip install -r requirements.txt
Instal ElasticSearch
Sistem dialog berbasis pengambilan harus terlebih dahulu menggunakan elasticsearch
untuk penyaringan kasar. Pada saat yang sama, untuk mencapai segmentasi kata berbahasa Mandarin pada tahap pengambilan penyaringan kasar, segmenter kata berbahasa Mandarin perlu diunduh dan diinstal.
Instal mongodb
Setelah memulai layanan, mongodb
akan digunakan untuk menyimpan riwayat sesi dan data yang diperlukan
data
, dan simpan file vektor kata chinese_w2v.txt
dan english_w2v.bin
di bawah data
.data/README.md
untuk detail data dan data yang telah diproses sebelumnya.<gpu_ids>
, seperti 0,1,2,3
dataset
sesuai dengan nama di direktori data
.Model | CMD | Jenis | Detail | Merujuk | Model Pra-kereta |
---|---|---|---|---|---|
bertrieval | ./run.sh melatih <kumpulan data> bertretrieval <gpu_ids> | pengambilan | Model penyempurnaan berbasis Bert (penyempurnaan) | Kertas | |
gpt2 | ./run.sh melatih <kumpulan data> gpt2 <gpu_ids> | generatif | Model dialog generatif GPT2 | Kode | |
gpt2gan | ./run.sh melatih <kumpulan data> gpt2gan <gpu_ids> | generatif | Model dialog berbasis GAN, model generatif GPT2, dan model diskriminan adalah model dua klasifikasi BERT. | Kertas |
Mulai layanan labu
./run_flask.sh <model_name> <gpu_id>
Antarmuka panggilan