该存储库未维护且已存档。
Donkeybot 是一个端到端的问答系统。它利用多个数据源、常见问题解答表和 BERT 等迁移学习语言模型来回答 Rucio 支持问题。
GSoC 2020 项目的目标是使用自然语言处理 (NLP) 开发智能机器人原型,能够为 Rucio 用户提供满意的答案,并处理达到一定复杂程度的支持请求,仅将剩余的请求转发给专家。
Donkeybot 可以根据您的需求扩展并应用为问答系统。需要更改代码才能将 Donkeybot 用于您的特定用例和数据。当前实施适用于 Rucio 特定数据源。
数据存储:保存 Rucio 域特定数据的数据存储。该模块当前的实现是在 SQLite 中实现的,以实现其提供的快速原型设计。数据源包括来自 Rucio 用户的安全匿名支持电子邮件、Rucio GitHub 问题和 Rucio 文档。
问题检测:用于从任何给定文本中检测和提取问题的模块。它用于通过正则表达式从支持电子邮件和 GitHub 问题中提取过去的问题。这些问题作为文档存档并由其他模块使用。
文档检索:一个搜索引擎模块,使用 BM25 算法检索前 n 个最相似的文档(之前提出的问题或 Rucio 文档),以供答案检测模块用作上下文。
答案检测:答案检测模块遵循迁移学习方法和监督方法。
附加功能包括:
FAQ创建GUI :用户可以使用提供的GUI作为界面与数据存储交互,插入FAQ问题,重新索引搜索引擎并扩展Donkeybot的知识库。
名称散列:使用斯坦福大学的 NER 标记器从支持电子邮件中检测私人用户信息并对它们进行散列的脚本。因此,遵循 CERN 的隐私准则并保持所有数据匿名。
请参阅完整文档以获取示例、操作细节和其他信息。
请参阅常见问题解答:GSoC 了解详细的时间表、学生信息、面临的问题、未来的改进建议、阅读列表等。
你可以尝试亲自询问Donkeybot!
使用 slackbot :
或者您可以使用 CLI:
$ python . s cripts a sk_donkeybot.py
更多示例和信息可以在如何使用部分找到。
第 1 步: PyTorch 需要安装 64 位 Python 3.x。
步骤 2:要安装 PyTorch,请访问 https://pytorch.org/ 并根据您的操作系统按照快速入门指南进行操作。
# versions used in development
torch == 1.6 . 0 - - find - links https : // download . pytorch . org / whl / torch_stable . html
torchvision == 0.7 . 0 - - find - links https : // download . pytorch . org / whl / torch_stable . html
步骤 3:将存储库克隆到您的开发计算机。
$ git clone https://github.com/rucio/donkeybot.git
$ cd donkeybot
第 4 步:对于其他要求,请运行。
$ pip install -r requirements.txt
第 5 步:构建并填充 Donkeybot 的数据存储。
$ python scripts/build_donkeybot -t < GITHUB_API_TOKEN >
有关贡献、启动开发人员模式和测试的更多详细信息,请参阅入门页面。
对于错误、问题和讨论,请使用 GitHub 问题或联系学生 @mageirakos。
根据 Apache 许可证 2.0 版获得许可;
http://www.apache.org/licenses/LICENSE-2.0