В процессе исследования чат-бота, помимо наличия прекрасной модели, также необходимо большое количество учебных материалов для повышения эффективности бота. Чем чище наш корпус, тем умнее может быть чат-бот, способный генерировать ответы на естественном языке. (В процессе исследования чат-бота, помимо наличия красивой модели, нам также необходим большой объем обучающего корпуса для укрепления нашего чат-бота. Чем чище корпус, тем ближе к естественному языку человека можно обучить чат-бота.)
dgk_shooter_min.conv корпус диалогов в фильмах (корпус диалогов в китайских фильмах, шумный, поскольку диалог не различает говорящего, трудно соответствовать отношениям вопросов и ответов в диалоге.)
Корпус многоязычного чата ChatBot Корпус многоязычного диалога, предложенный ChatterBot (Базовый языковой чат, предоставляемый механизмом чата ChatterBot, охватывает широкий спектр языков, но количество невелико, но качество высокое и подходит для тестирования модели. )
Наборы данных для обработки естественного языка. Небольшое резюме корпуса бумажных исследований (это созданная человеком коллекция исследовательских работ по обработке естественного языка и соответствующих наборов данных. Основные области охвата включают в себя: вопросы-ответы, диалоговые системы и целенаправленный диалог). Система и т. д. Текст составлен на английском языке и может быть использован для машинного перевода и разговорной модели).
Знаменитый корпус диалогов «сяохуанцзи » опубликован в Интернете (Несегментировано) Две части разделены знаком «/» , семантического разделения нет. В корпусе больше смайлов, общее количество слов в диалоге меньше и больше шума.)
Набор данных пар QA для Китая (состоящий из вопросов и ответов из раздела вопросов и ответов на официальном форуме Egret Times). В качестве цели для ответов выбраны записи, отмеченные как «лучшие ответы» . Вручную просмотрите данные и дайте каждому вопросу приемлемые ответы. Не много, в основном в режиме вопросов и ответов)
Cornell_Movie-Dialogs_Corpus Корпус диалогов из фильмов Корнелла (сбор данных о диалогах в фильмах и телевидении Корнеллского университета, корпус содержит информацию об имени собеседника, корпус на английском языке, в основном многооборотные диалоги.)
Корпус китайских четверостиший Корпус китайских четверостиший длиной пять (古文五语quatrains)
Корпус политических речей Обамы Корпус политических речей Обамы (выдержки из политических речей президента Обамы)
Корпус китайских новостей Китайские новости (заголовки новостей и краткие обзоры сканируются с основных новостных сайтов с помощью сканеров).
Твиты доски сплетен PTT PTT твитты (Используйте сканер для сканирования содержимого раздела классификации сплетен в социальной программе PTT. Исходные данные — это файлtwitters.txt доски сплетен PTT, который включает в себя некоторые символы и пространственный шум. Отфильтруйте шум (используйте статистику). После замены метода фиксированными символами пропорционально уменьшению сложности данных) корпус вопросов и ответов и словарь создаются с помощью различных методов, таких как отдельные слова или фразы (абзацы джиеба).
Авторские права на общедоступный корпус принадлежат оригинальному автору, и никому не может быть разрешено инвестировать в прибыльную деятельность без его/ее разрешения, спасибо за сотрудничество. Инвестируйте в прибыльную деятельность от имени человека).
Теги: Corpus
Chatbot