تم التدريب من المجموعة الصينية باستخدام أدوات MITIE wordrep (يستغرق التدريب من 2 إلى 3 أيام)
للتدريب، يرجى إنشاء أداة MITIE Wordrep. لاحظ أنه يجب ترميز المجموعة الصينية أولاً قبل إدخالها في أداة التدريب. تعمل مجموعة النطاقات القريبة التي تتطابق بشكل أفضل مع حالة المستخدم بشكل أفضل.
يمكن تنزيل نموذج مدرب من Wikipedia Dump وBaidu Baike الصينية من مدونة 中文.
وينبغي إضافة أكبر عدد ممكن من الأمثلة.
python setup.py install
تعديل التكوين.
حاليًا للصينيين لدينا خطان أنابيب:
استخدم MITIE+Jieba (sample_configs/config_jieba_mitie.yml):
language : " zh "
pipeline :
- name : " nlp_mitie "
model : " data/total_word_feature_extractor_zh.dat "
- name : " tokenizer_jieba "
- name : " ner_mitie "
- name : " ner_synonyms "
- name : " intent_entity_featurizer_regex "
- name : " intent_classifier_mitie "
موصى به: استخدم MITIE+Jieba+sklearn (sample_configs/config_jieba_mitie_sklearn.yml):
language : " zh "
pipeline :
- name : " nlp_mitie "
model : " data/total_word_feature_extractor_zh.dat "
- name : " tokenizer_jieba "
- name : " ner_mitie "
- name : " ner_synonyms "
- name : " intent_entity_featurizer_regex "
- name : " intent_featurizer_mitie "
- name : " intent_classifier_sklearn "
(اختياري) استخدم قاموس Jieba المحدد من قبل المستخدم أو قم بتبديل قاموس Jieba الافتراضي:
يمكنك وضع مسار الملف أو مسار الدليل كقيمة "user_dicts". (sample_configs/config_jieba_mitie_sklearn_plus_dict_path.yml)
language : " zh "
pipeline :
- name : " nlp_mitie "
model : " data/total_word_feature_extractor_zh.dat "
- name : " tokenizer_jieba "
default_dict : " ./default_dict.big "
user_dicts : " ./jieba_userdict "
# user_dicts: "./jieba_userdict/jieba_userdict.txt"
- name : " ner_mitie "
- name : " ner_synonyms "
- name : " intent_entity_featurizer_regex "
- name : " intent_featurizer_mitie "
- name : " intent_classifier_sklearn "
نموذج القطار بالجري:
إذا قمت بتحديد اسم مشروعك في ملف التكوين، فسيؤدي ذلك إلى حفظ النموذج الخاص بك في /models/your_project_name.
وإلا فسيتم حفظ النموذج الخاص بك في /models/default
python -m rasa_nlu.train -c sample_configs/config_jieba_mitie_sklearn.yml --data data/examples/rasa/demo-rasa_zh.json --path models
python -m rasa_nlu.server -c sample_configs/config_jieba_mitie_sklearn.yml --path models
$ curl -XPOST localhost:5000/parse -d '{"q":"我发烧了该吃什么药?", "project": "rasa_nlu_test", "model": "model_20170921-170911"}' | python -mjson.tool
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 652 0 552 100 100 157 28 0:00:03 0:00:03 --:--:-- 157
{
"entities": [
{
"end": 3,
"entity": "disease",
"extractor": "ner_mitie",
"start": 1,
"value": "发烧"
}
],
"intent": {
"confidence": 0.5397186422631861,
"name": "medical"
},
"intent_ranking": [
{
"confidence": 0.5397186422631861,
"name": "medical"
},
{
"confidence": 0.16206323981749196,
"name": "restaurant_search"
},
{
"confidence": 0.1212448457737397,
"name": "affirm"
},
{
"confidence": 0.10333600028547868,
"name": "goodbye"
},
{
"confidence": 0.07363727186010374,
"name": "greet"
}
],
"text": "我发烧了该吃什么药?"
}