Dilatih dari korpus Cina dengan alat wordrep MITIE (membutuhkan waktu 2-3 hari untuk pelatihan)
Untuk pelatihan, silakan buat Alat Wordrep MITIE. Perhatikan bahwa korpus Tiongkok harus diberi token terlebih dahulu sebelum dimasukkan ke dalam alat untuk pelatihan. Korpus domain dekat yang paling cocok dengan kasus pengguna akan berfungsi paling baik.
Model terlatih dari Wikipedia bahasa Mandarin Dump dan Baidu Baike dapat diunduh dari 中文Blog.
Sebaiknya tambahkan contoh sebanyak-banyaknya.
python setup.py install
Ubah konfigurasi.
Saat ini untuk Tiongkok kami memiliki dua jalur pipa:
Gunakan MITIE+Jieba (sample_configs/config_jieba_mitie.yml):
language : " zh "
pipeline :
- name : " nlp_mitie "
model : " data/total_word_feature_extractor_zh.dat "
- name : " tokenizer_jieba "
- name : " ner_mitie "
- name : " ner_synonyms "
- name : " intent_entity_featurizer_regex "
- name : " intent_classifier_mitie "
DIREKOMENDASIKAN: Gunakan MITIE+Jieba+sklearn (sample_configs/config_jieba_mitie_sklearn.yml):
language : " zh "
pipeline :
- name : " nlp_mitie "
model : " data/total_word_feature_extractor_zh.dat "
- name : " tokenizer_jieba "
- name : " ner_mitie "
- name : " ner_synonyms "
- name : " intent_entity_featurizer_regex "
- name : " intent_featurizer_mitie "
- name : " intent_classifier_sklearn "
(Opsional) Gunakan Kamus Buatan Pengguna Jieba atau Ganti Kamus Default Jieba:
Anda dapat memasukkan jalur file atau jalur direktori sebagai nilai "user_dicts". (sample_configs/config_jieba_mitie_sklearn_plus_dict_path.yml)
language : " zh "
pipeline :
- name : " nlp_mitie "
model : " data/total_word_feature_extractor_zh.dat "
- name : " tokenizer_jieba "
default_dict : " ./default_dict.big "
user_dicts : " ./jieba_userdict "
# user_dicts: "./jieba_userdict/jieba_userdict.txt"
- name : " ner_mitie "
- name : " ner_synonyms "
- name : " intent_entity_featurizer_regex "
- name : " intent_featurizer_mitie "
- name : " intent_classifier_sklearn "
Latih model dengan menjalankan:
Jika Anda menentukan nama proyek Anda di file konfigurasi, ini akan menyimpan model Anda di /models/nama_proyek_Anda.
Jika tidak, model Anda akan disimpan di /models/default
python -m rasa_nlu.train -c sample_configs/config_jieba_mitie_sklearn.yml --data data/examples/rasa/demo-rasa_zh.json --path models
python -m rasa_nlu.server -c sample_configs/config_jieba_mitie_sklearn.yml --path models
$ curl -XPOST localhost:5000/parse -d '{"q":"我发烧了该吃什么药?", "project": "rasa_nlu_test", "model": "model_20170921-170911"}' | python -mjson.tool
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 652 0 552 100 100 157 28 0:00:03 0:00:03 --:--:-- 157
{
"entities": [
{
"end": 3,
"entity": "disease",
"extractor": "ner_mitie",
"start": 1,
"value": "发烧"
}
],
"intent": {
"confidence": 0.5397186422631861,
"name": "medical"
},
"intent_ranking": [
{
"confidence": 0.5397186422631861,
"name": "medical"
},
{
"confidence": 0.16206323981749196,
"name": "restaurant_search"
},
{
"confidence": 0.1212448457737397,
"name": "affirm"
},
{
"confidence": 0.10333600028547868,
"name": "goodbye"
},
{
"confidence": 0.07363727186010374,
"name": "greet"
}
],
"text": "我发烧了该吃什么药?"
}