ฝึกฝนจากคลังข้อมูลภาษาจีนโดยเครื่องมือ MITIE wordrep (ใช้เวลาฝึกอบรม 2-3 วัน)
สำหรับการฝึกอบรม โปรดสร้างเครื่องมือ MITIE Wordrep โปรดทราบว่าควรโทเค็นคลังข้อมูลภาษาจีนก่อนป้อนลงในเครื่องมือสำหรับการฝึก คลังข้อมูลโดเมนปิดที่ตรงกับกรณีผู้ใช้มากที่สุดจะทำงานได้ดีที่สุด
โมเดลที่ผ่านการฝึกอบรมจาก Chinese Wikipedia Dump และ Baidu Baike สามารถดาวน์โหลดได้จาก 中文Blog
ควรเพิ่มตัวอย่างให้มากที่สุด
python setup.py install
ปรับเปลี่ยนการกำหนดค่า
ปัจจุบันสำหรับประเทศจีน เรามีไปป์ไลน์สองแบบ:
ใช้ MITIE+Jieba (sample_configs/config_jieba_mitie.yml):
language : " zh "
pipeline :
- name : " nlp_mitie "
model : " data/total_word_feature_extractor_zh.dat "
- name : " tokenizer_jieba "
- name : " ner_mitie "
- name : " ner_synonyms "
- name : " intent_entity_featurizer_regex "
- name : " intent_classifier_mitie "
แนะนำ: ใช้ MITIE+Jieba+sklearn (sample_configs/config_jieba_mitie_sklearn.yml):
language : " zh "
pipeline :
- name : " nlp_mitie "
model : " data/total_word_feature_extractor_zh.dat "
- name : " tokenizer_jieba "
- name : " ner_mitie "
- name : " ner_synonyms "
- name : " intent_entity_featurizer_regex "
- name : " intent_featurizer_mitie "
- name : " intent_classifier_sklearn "
(ไม่บังคับ) ใช้พจนานุกรมที่ผู้ใช้กำหนดของ Jieba หรือสลับพจนานุกรมเริ่มต้นของ Jieba:
คุณสามารถใส่ เส้นทางของไฟล์ หรือ เส้นทางไดเรกทอรี เป็นค่า "user_dicts" (sample_configs/config_jieba_mitie_sklearn_plus_dict_path.yml)
language : " zh "
pipeline :
- name : " nlp_mitie "
model : " data/total_word_feature_extractor_zh.dat "
- name : " tokenizer_jieba "
default_dict : " ./default_dict.big "
user_dicts : " ./jieba_userdict "
# user_dicts: "./jieba_userdict/jieba_userdict.txt"
- name : " ner_mitie "
- name : " ner_synonyms "
- name : " intent_entity_featurizer_regex "
- name : " intent_featurizer_mitie "
- name : " intent_classifier_sklearn "
รถไฟจำลองโดยการวิ่ง:
หากคุณระบุชื่อโปรเจ็กต์ของคุณในไฟล์กำหนดค่า ระบบจะบันทึกโมเดลของคุณไว้ที่ /models/your_project_name
มิฉะนั้น โมเดลของคุณจะถูกบันทึกที่ /models/default
python -m rasa_nlu.train -c sample_configs/config_jieba_mitie_sklearn.yml --data data/examples/rasa/demo-rasa_zh.json --path models
python -m rasa_nlu.server -c sample_configs/config_jieba_mitie_sklearn.yml --path models
$ curl -XPOST localhost:5000/parse -d '{"q":"我发烧了该吃什么药?", "project": "rasa_nlu_test", "model": "model_20170921-170911"}' | python -mjson.tool
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 652 0 552 100 100 157 28 0:00:03 0:00:03 --:--:-- 157
{
"entities": [
{
"end": 3,
"entity": "disease",
"extractor": "ner_mitie",
"start": 1,
"value": "发烧"
}
],
"intent": {
"confidence": 0.5397186422631861,
"name": "medical"
},
"intent_ranking": [
{
"confidence": 0.5397186422631861,
"name": "medical"
},
{
"confidence": 0.16206323981749196,
"name": "restaurant_search"
},
{
"confidence": 0.1212448457737397,
"name": "affirm"
},
{
"confidence": 0.10333600028547868,
"name": "goodbye"
},
{
"confidence": 0.07363727186010374,
"name": "greet"
}
],
"text": "我发烧了该吃什么药?"
}