Rasa_NLU_Chi
1.0.0
MITIE wordrep 도구를 통해 중국어 코퍼스 교육을 받았습니다(교육에 2~3일이 소요됨).
교육을 위해 MITIE Wordrep 도구를 구축하세요. 학습용 도구에 입력하기 전에 먼저 중국어 코퍼스를 토큰화해야 합니다. 사용자 사례에 가장 잘 맞는 근접 도메인 코퍼스가 가장 잘 작동합니다.
중국어 Wikipedia Dump 및 Baidu Baike의 훈련된 모델은 中文Blog에서 다운로드할 수 있습니다.
가능한 한 많은 예시를 추가해야 합니다.
python setup.py install
구성을 수정합니다.
현재 중국어에는 두 가지 파이프라인이 있습니다.
MITIE+Jieba(sample_configs/config_jieba_mitie.yml)를 사용합니다.
language : " zh "
pipeline :
- name : " nlp_mitie "
model : " data/total_word_feature_extractor_zh.dat "
- name : " tokenizer_jieba "
- name : " ner_mitie "
- name : " ner_synonyms "
- name : " intent_entity_featurizer_regex "
- name : " intent_classifier_mitie "
권장: MITIE+Jieba+sklearn(sample_configs/config_jieba_mitie_sklearn.yml) 사용:
language : " zh "
pipeline :
- name : " nlp_mitie "
model : " data/total_word_feature_extractor_zh.dat "
- name : " tokenizer_jieba "
- name : " ner_mitie "
- name : " ner_synonyms "
- name : " intent_entity_featurizer_regex "
- name : " intent_featurizer_mitie "
- name : " intent_classifier_sklearn "
(선택 사항) Jieba 사용자 정의 사전을 사용하거나 Jieba 기본 사전을 전환합니다.
"user_dicts" 값으로 파일 경로 나 디렉터리 경로를 입력할 수 있습니다. (sample_configs/config_jieba_mitie_sklearn_plus_dict_path.yml)
language : " zh "
pipeline :
- name : " nlp_mitie "
model : " data/total_word_feature_extractor_zh.dat "
- name : " tokenizer_jieba "
default_dict : " ./default_dict.big "
user_dicts : " ./jieba_userdict "
# user_dicts: "./jieba_userdict/jieba_userdict.txt"
- name : " ner_mitie "
- name : " ner_synonyms "
- name : " intent_entity_featurizer_regex "
- name : " intent_featurizer_mitie "
- name : " intent_classifier_sklearn "
다음을 실행하여 모델을 학습시킵니다.
구성 파일에 프로젝트 이름을 지정하면 모델이 /models/your_project_name에 저장됩니다.
그렇지 않으면 모델이 /models/default에 저장됩니다.
python -m rasa_nlu.train -c sample_configs/config_jieba_mitie_sklearn.yml --data data/examples/rasa/demo-rasa_zh.json --path models
python -m rasa_nlu.server -c sample_configs/config_jieba_mitie_sklearn.yml --path models
$ curl -XPOST localhost:5000/parse -d '{"q":"我发烧了该吃什么药?", "project": "rasa_nlu_test", "model": "model_20170921-170911"}' | python -mjson.tool
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 652 0 552 100 100 157 28 0:00:03 0:00:03 --:--:-- 157
{
"entities": [
{
"end": 3,
"entity": "disease",
"extractor": "ner_mitie",
"start": 1,
"value": "发烧"
}
],
"intent": {
"confidence": 0.5397186422631861,
"name": "medical"
},
"intent_ranking": [
{
"confidence": 0.5397186422631861,
"name": "medical"
},
{
"confidence": 0.16206323981749196,
"name": "restaurant_search"
},
{
"confidence": 0.1212448457737397,
"name": "affirm"
},
{
"confidence": 0.10333600028547868,
"name": "goodbye"
},
{
"confidence": 0.07363727186010374,
"name": "greet"
}
],
"text": "我发烧了该吃什么药?"
}