Наборы данных для обучения системы чат-ботов
В этом проекте собраны некоторые диалоговые материалы, найденные в Интернете, для обучения китайских (английских) чат-роботов.
Ниже приведены некоторые из собранных наборов данных. Нажмите на ссылку, чтобы ввести исходный адрес.
dgk_shooter_min.conv.zip
Корпус диалогов в китайских фильмах относительно шумный, и во многих диалогах нет хороших отношений вопрос-ответ.
SMS-корпус НУС
Содержит корпус коротких сообщений на китайском и английском языках, который считается крупнейшим общедоступным корпусом коротких сообщений в мире.
Базовый корпус чата ChatterBot на китайском языке
Чат-движок ChatterBot предоставляет базовый корпус чатов на китайском языке. Их количество небольшое, но качество относительно высокое.
Наборы данных для обработки естественного языка
Это набор данных, связанных с обработкой естественного языка, собранный другими. Он в основном включает в себя три части: системы ответов на вопросы, системы диалога и системы целенаправленного диалога, все из которых представляют собой тексты на английском языке. Можно использовать машинный перевод на китайский язык для разговоров на китайском языке.
Xiaohuangji Говорят, что это корпус Xiaohuangji50w_fenciA.conv.zip (сегментированный) и xiaohuangji50w_nofenci.conv.zip (несегментированный)
Корпус вопросов и ответов Egret Times на китайском языке составлен из более чем 10 000 вопросов в разделе вопросов и ответов официального форума Egret Times, из которых отбираются записи, отмеченные «лучшим ответом». Вручную просмотрите необработанные данные и дайте на каждый вопрос приемлемый ответ. На данный момент корпус содержит всего 2907 вопросов и ответов. (резервная копия)
Репозиторий корпуса чата
коллекция корпусов чатов из различных открытых источников
Включает: открытые субтитры, субтитры к фильмам на английском языке, тексты песен на китайском языке, твиты на английском языке.
Корпус обеспечения качества страховой отрасли — это набор данных, созданный путем перевода InsuranceQA. train_data содержит 12 889 вопросов, 141 779 данных, положительные примеры: отрицательные примеры = 1:10; test_data содержит 2 000 вопросов, 22 000 данных, положительные примеры: отрицательные примеры = 1:10; valid_data содержит 2 000 вопросов, 22 000 данных, Положительный пример: Отрицательный пример = 1:10
Эта часть корпуса была распространена в Интернете, но из-за наших ограниченных возможностей или из-за того, что первоначальный автор не обнародовал ее, она до сих пор не получена. Просто внесено в список для будущего поиска.
Весь оригинальный корпус принадлежит оригинальному автору
Хэ Юньчао
Вейбо: @Yunchao_He