챗봇 시스템 교육을 위한 데이터 세트
이 프로젝트는 중국어(영어) 채팅 로봇 훈련을 위해 인터넷에서 찾은 일부 대화 자료를 수집합니다.
수집된 데이터 세트 중 일부는 다음과 같습니다. 링크를 클릭하여 원래 주소를 입력하세요.
dgk_shooter_min.conv.zip
중국 영화의 대사 말뭉치는 상대적으로 시끄럽고, 많은 대화가 질의응답 관계가 좋지 않습니다.
NUS SMS 코퍼스
세계에서 가장 큰 공개 단문 메시지 코퍼스라고 하는 중국어 및 영어 단문 메시지 코퍼스가 포함되어 있습니다.
ChatterBot 중국어 기본 채팅 말뭉치
ChatterBot 채팅 엔진은 몇 가지 기본적인 중국어 채팅 자료를 제공합니다. 수량은 적지만 품질은 상대적으로 높습니다.
자연어 처리를 위한 데이터 세트
이는 다른 사람들이 수집한 자연어 처리 관련 데이터 세트로, 주로 질문 답변, 대화 시스템, 목표 지향 대화 시스템의 세 부분으로 구성되며 모두 영어 텍스트입니다. 중국어 대화에 사용하기 위해 중국어로 기계 번역을 사용할 수 있습니다
Xiaohuangji Xiaohuangji50w_fenciA.conv.zip(분할됨)과 xiaohuangji50w_nofenci.conv.zip(분할되지 않음)의 코퍼스라고 합니다.
백로타임즈의 중국어 질의응답 자료는 백로타임즈 공식 포럼의 Q&A 섹션에 있는 10,000개 이상의 질문을 종합하여 "베스트 답변"으로 표시된 기록을 선택합니다. 원시 데이터를 수동으로 검토하고 각 질문에 허용 가능한 답변을 제공합니다. 현재 코퍼스에는 2907개의 질문과 답변만 포함되어 있습니다. (지원)
채팅 말뭉치 저장소
다양한 오픈소스의 채팅 말뭉치 모음
포함: 공개 자막, 영어 영화 자막, 중국어 가사, 영어 트윗
보험산업 QA 코퍼스는 InsuranceQA를 번역하여 생성된 데이터 세트입니다. train_data에는 12,889개의 질문, 141,779개의 데이터, 긍정적인 예가 포함되어 있습니다. 부정적인 예 = 1:10; test_data에는 2,000개의 질문, 22,000개의 데이터, 긍정적인 예가 포함되어 있습니다. 부정적인 예 = 1:10에는 2,000개의 질문, 22,000개의 데이터가 포함되어 있습니다. 긍정적인 예: 부정적인 예 = 1:10
이 부분의 말뭉치는 인터넷을 통해 유포되었으나, 저희의 능력이 부족하거나 원저자가 이를 공개하지 않아 아직 입수하지 못하고 있습니다. 향후 검색을 위해 방금 나열되었습니다.
모든 원본 자료는 원본 작성자에게 속합니다.
허윤차오
웨이보: @Yunchao_He