UnilmChatchitRobot 다운로드 - UnilmChatchitRobot 소스 코드 다운로드

UnilmChatchitRobot

AI 소스 코드

1.0.0

다운로드

중국 잡담 로봇용 Unilm

Unilm 모델을 기반으로 한 Kuaqua 채팅 로봇 프로젝트

프로젝트 설명

본 프로젝트는 Unilm 모델을 기반으로 한 채팅 로봇 프로젝트입니다.
이 프로젝트의 현재 오픈 소스 모델은 Douban Kua Kua 그룹의 데이터만을 사용하여 훈련되므로 Kua Kua 채팅 로봇이라고 합니다. 관심 있는 학생들은 이 프로젝트의 코드를 사용하여 다른 대화 자료를 훈련할 수도 있습니다.
자세한 소개는 Zhihu: 자랑스러운 스타일의 챗봇의 Unilm 대화 생성을 참조하세요.
최종 대화가 생성되면 생성된 민감한 단어를 필터링합니다.

파일 구조

kuakua_robot_model 모델 저장 경로(모델 다운로드, 데이터 및 모델 보기)
unilm_model 사전 훈련 unilm 모델 경로(모델 다운로드, Unilm 사전 훈련 모델 참조)
데이터를 저장할 data_dir 폴더
- dirty_words.txt 민감한 단어 사전
- douban_kuakua_qa.txt 원본 Douban Kuakua 그룹 코퍼스
- Sample.json 트레이닝 세트 샘플, 원본 데이터는 샘플 형식으로 처리되어야 합니다(프로젝트는 전처리 코드를 제공하지 않습니다).
unilm 모델의configuration_unilm.py 구성 파일
modelling_unilm.py unilm 모델 파일
run_train.py 모델 훈련 파일
Interactive_conditional_samples.py 예측 파일은 훈련된 모델을 기반으로 대화를 생성합니다.

운영 환경

변압기 == 3.0.2
파이토치 >= 1.4

데이터 및 모델

원본 자료는 Douban Kuakua 그룹 데이터에서 나옵니다. data/douban_kuakua_qa.txt를 참조하세요.
정리 후 60,000개 이상의 단일 라운드 대화 데이터를 얻었습니다. 데이터 형식은 data/sample.json을 참조하세요.
훈련된 모델, 다운로드 주소: 링크, 인증 코드: e0au

기차

 nohup python3 -u run_train.py --data_dir data/ 
                              --src_file kuakua_data.json 
                              --model_type unilm 
                              --model_name_or_path unilm_model/ 
                              --output_dir kuakua_robot_model/ 
                              --max_seq_length 128 
                              --max_position_embeddings 512 
                              --do_train 
                              --do_lower_case 
                              --train_batch_size 32 
                              --learning_rate 2e-5 
                              --logging_steps 100 
                              --num_train_epochs 10 > log.log 2>&1 &

훈련 기계는 2060년대가 걸렸고, 배치 크기는 32였으며, 10개의 에포크가 훈련되었습니다. 손실은 다음과 같습니다.

손실 곡선으로 판단하면 실제로 모델이 완전히 수렴되지 않았으며 손실은 여전히 큰 감소를 보이고 있으며 계속 훈련하면 효과가 더 좋아질 것입니다.

시험

 python3 interactive_conditional_samples.py --device 0
                                           --topk 3
                                           --topp 0.95
                                           --dirty_path data/dirty_words.txt
                                           --model_name_or_path kuakua_robot_model/
                                           --repetition_penalty 1.2
                                           --max_len 32 
                                           --no_cuda False

모델 생성 효과는 topk, topp 및 revolution_penalty를 조정하여 수정할 수 있습니다.

결과

샘플1

 user:工作不开心
chatbot:你可以的！工作不开心也可以去吃火锅，看个影响自己心情的电视剧
user:工作不开心
chatbot:我也是，不过现在开始努力找工作啦！一起加油鸭～
user:工作不开心
chatbot:那就祝福你，能找到喜欢的工作吧。
user:工作不开心
chatbot:你也要加油鸭！
user:工作不开心
chatbot:我也是，不过总有一天就会好起来的

샘플2

 user:我分手了
chatbot:分手快乐，你会遇到更好的。
user:我分手了
chatbot:旧的不去新的不来，你会遇见更好的
user:我分手了
chatbot:分的好，下一个更乖
user:我分手了
chatbot:旧的不去新的不来
user:我分手了
chatbot:分手快乐，祝你快乐！
user:我分手了
chatbot:旧的不去新的不来，加油！

샘플3

 user:好像去吃火锅，但是我在减肥
chatbot:你好棒！一定会瘦下来的！
user:好像去吃火锅，但是我在减肥
chatbot:吃火锅是为了能更好的减肥，你真棒！
user:好像去吃火锅，但是我在减肥
chatbot:吃火锅对胃好哦！我也在减肥，一起加油呀
user:好像去吃火锅，但是我在减肥
chatbot:吃火锅对减肥有什么效果？我也想去吃，但是现在没勇气去吃
user:好像去吃火锅，但是我在减肥
chatbot:你真的很棒，我也在减肥

불충분하다

이 모델의 가장 큰 문제점은 모델 학습 시 맥락 정보를 고려하지 않는다는 점, 즉 한 번의 대화에 대해 학습을 진행하기 때문에 텍스트가 정확하지 않을 수 있다는 점이다.

미래의 일

나중에 프로젝트에 자세한 설명이 추가될 수 있으며 데이터 전처리 코드가 추가될 수 있습니다.
나중에 더 나은 Unilm 기반 채팅 대화 모델을 교육하는 데 대규모 데이터 배치가 사용될 수 있습니다.
나중에 상황을 고려하고 여러 라운드의 대화를 지원하는 모델을 훈련할 수 있습니다.

참조하다

유니름

인용

 @misc{UnilmChatchitRobot,
  author = {Cong Liu},
  title = {Unilm for Chinese Chitchat Robot},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  url="https://github.com/liucongg/UnilmChatchitRobot",
}