Этот репозиторий не поддерживается и находится в архиве.
Donkeybot — это комплексная система ответов на вопросы. Он использует несколько источников данных, таблицу часто задаваемых вопросов и языковые модели трансферного обучения, такие как BERT, для ответа на вопросы поддержки Rucio.
Целью проекта в рамках GSoC 2020 является использование обработки естественного языка (NLP) для разработки прототипа интеллектуального бота, способного предоставлять удовлетворительные ответы пользователям Rucio и обрабатывать запросы на поддержку до определенного уровня сложности, пересылая только оставшиеся эксперты.
Donkeybot можно расширить и применить как систему вопросов-ответов для ваших нужд. Изменения в коде необходимы для использования Donkeybot для вашего конкретного случая использования и данных. Текущая реализация применяется к источникам данных, специфичным для Ручио.
Хранилище данных : хранилище данных, содержащее данные, относящиеся к домену Ручио. Текущая реализация модуля выполнена на SQLite, что обеспечивает быстрое прототипирование. Источники данных включают защищенные и анонимные электронные письма поддержки от пользователей Rucio, выпуски Rucio GitHub и документацию Rucio.
Обнаружение вопросов : модуль для обнаружения и извлечения вопросов из любого текста. Это используется для извлечения прошлых вопросов из писем поддержки и проблем GitHub с помощью регулярных выражений. Эти вопросы архивируются как документы и используются другими модулями.
Поиск документов : модуль поисковой системы, использующий алгоритм BM25 для поиска топ-n наиболее похожих документов (ранее заданных вопросов или документации Rucio), которые будут использоваться в качестве контекста модулем обнаружения ответов.
Обнаружение ответов : модуль обнаружения ответов, который использует как подход к обучению, так и контролируемый подход.
Дополнительные возможности включают в себя:
Графический интерфейс создания часто задаваемых вопросов : пользователь может использовать предоставленный графический интерфейс в качестве интерфейса для взаимодействия с хранилищем данных, вставлять вопросы часто задаваемых вопросов, переиндексировать поисковую систему и расширять базу знаний Donkeybot.
Хеширование имени : сценарий, использующий теггер NER Стэнфорда для обнаружения частной информации пользователя из электронных писем службы поддержки и ее хэширования. Таким образом, мы следуем рекомендациям CERN по обеспечению конфиденциальности и сохраняем анонимность всех данных.
См. полную документацию для примеров, эксплуатационных деталей и другой информации.
См. FAQ: GSoC для подробного графика, информации для студентов, возникающих проблем, предложений по будущему улучшению, списка для чтения и многого другого.
Вы можете попробовать задать вопрос Donkeybot самостоятельно!
Использование Slackbot:
Или вы можете использовать CLI:
$ python . s cripts a sk_donkeybot.py
Дополнительные примеры и информацию можно найти в разделе «Как использовать».
Шаг 1. Для PyTorch требуется установка 64-битной версии Python 3.x.
Шаг 2. Чтобы установить PyTorch, перейдите на https://pytorch.org/ и следуйте краткому руководству для вашей операционной системы.
# versions used in development
torch == 1.6 . 0 - - find - links https : // download . pytorch . org / whl / torch_stable . html
torchvision == 0.7 . 0 - - find - links https : // download . pytorch . org / whl / torch_stable . html
Шаг 3. Клонируйте репозиторий на свою машину разработки.
$ git clone https://github.com/rucio/donkeybot.git
$ cd donkeybot
Шаг 4: Для получения дополнительных требований запустите.
$ pip install -r requirements.txt
Шаг 5. Создайте и заполните хранилище данных Donkeybot.
$ python scripts/build_donkeybot -t < GITHUB_API_TOKEN >
См. страницу «Начало работы» для получения более подробной информации о внесении вклада, запуске режима разработчика и тестировании.
Если вы хотите узнать об ошибках, задать вопросы и обсудить их, используйте раздел «Вопросы» на GitHub или свяжитесь со студентом @mageirakos.
Лицензия Apache, версия 2.0;
http://www.apache.org/licenses/LICENSE-2.0