Chatbot Training Corpus 다운로드 - Chatbot Training Corpus 소스코드 다운로드

Chatbot Training Corpus

AI 소스 코드

1.0.0

다운로드

챗봇 훈련을 위한 대화 데이터 세트

챗봇의 연구 과정에서 훌륭한 모델을 갖추는 것 외에도 봇의 효능을 강화하기 위해서는 많은 양의 교육 자료가 필요합니다. 우리의 코퍼스가 깨끗할수록 인간의 자연어 응답을 생성할 수 있는 더 똑똑한 챗봇이 될 수 있습니다. (챗봇 연구를 진행하는 과정에서 아름다운 모델을 갖추는 것 외에도 챗봇을 강화하기 위해서는 많은 양의 훈련 코퍼스가 필요합니다. 코퍼스가 깨끗할수록 인간의 자연어 반응에 더 가까운 챗봇을 훈련시킬 수 있습니다.)

말뭉치의 요약은 다음과 같습니다. (현재 인터넷에 게시된 말뭉치의 대부분은 잡음이 많고 제한적입니다. 다음은 다음을 포함하여 크롤링 도구를 사용하여 얻은 일부 실현 가능한 말뭉치와 일부 말뭉치에 대한 요약입니다.)

기본공공말뭉치(기본공공말뭉치)

dgk_shooter_min.conv 영화 대사 말뭉치 (중국 영화 대화 말뭉치, 시끄러운데, 대화는 화자를 구별하지 못하기 때문에 대화의 질의응답 관계에 대응하기 어렵습니다. )
- 사전 처리가 포함된 dgk_shooter_min.conv(채팅 로봇 코퍼스 처리용): data_preprocessing
ChatBot 다국어 채팅 코퍼스 ChatterBot이 제안하는 다국어 대화 코퍼스 (ChatterBot 채팅 엔진에서 제공하는 기본 언어 채팅은 다양한 언어를 포괄하지만 양은 많지 않지만 품질이 높아 모델 테스트에 적합합니다. )
자연어 처리를 위한 데이터 세트 논문 연구를 위한 코퍼스에 대한 약간의 요약(이것은 인간이 생성한 자연어 처리 연구 논문 및 해당 데이터 세트의 모음입니다. 주요 적용 영역은 질문 답변, 대화 시스템 및 목표 지향 대화 입니다. 시스템 등 텍스트는 영어로 구성되어 기계번역 및 대화모델로 활용이 가능합니다.
유명한 대화집 “xiaohuangji ” 가 온라인에 출판되었습니다. (분할되지 않음) 두 부분이 "/" 로 구분되어 있으며 의미 구분이 없습니다. 코퍼스에는 이모티콘이 더 많이 포함되어 있으며 대화의 전체 단어 수가 적고 노이즈가 더 많습니다.
중국 QA 쌍 데이터 세트(Egret Times 공식 포럼의 Q&A 섹션의 질문과 응답으로 구성됨) 응답은 "최고의 답변" 으로 표시된 레코드를 대상으로 선택했습니다. 데이터를 수동으로 검토하고 각 질문에 허용 가능한 답변을 제공합니다. 많지는 않고 대부분 질의응답 모드임)
Cornell_Movie-Dialogs_Corpus 코넬 영화 대화 말뭉치(코넬 대학 영화 및 TV 대화 데이터 수집, 말뭉치에는 대담자 이름 정보가 포함되어 있으며 말뭉치는 영어로 되어 있으며 주로 다중 회전 대화입니다.)
중국어 Quatrains 코퍼스 길이가 5개인 중국어 quatrains 코퍼스(古文五语quatrains)
오바마 정치 연설 코퍼스 오바마 정치 연설 코퍼스 (오바마 대통령의 정치 연설에서 발췌)

크롤러 개인 크롤링 코퍼스(사전 준비)에서

중국 뉴스 코퍼스 중국 뉴스(크롤러를 사용하여 주요 뉴스 웹사이트에서 크롤링된 뉴스 헤드라인 및 개요)
PTT 가십 게시판 트윗 PTT twittes (크롤러를 사용하여 소셜 소프트웨어 PTT의 가십 분류 섹션 내용을 크롤링합니다. 원본 데이터는 PTT 가십 게시판 tweets.txt이며 여기에는 일부 기호와 공간 노이즈가 포함되어 있습니다. 노이즈를 필터링합니다(통계 사용). 데이터의 복잡성을 줄이기 위해)에 비례하여 고정된 기호로 방법을 대체한 후 단일 단어 나 구문(지에바 문단) 등 다양한 방법을 통해 문답 코퍼스와 사전을 구축합니다.