該存儲庫未維護且已存檔。
Donkeybot 是一個端對端的問答系統。它利用多個資料來源、常見問題解答表和 BERT 等遷移學習語言模型來回答 Rucio 支援問題。
GSoC 2020 專案的目標是使用自然語言處理 (NLP) 開發智慧機器人原型,能夠為 Rucio 用戶提供滿意的答案,並處理達到一定複雜程度的支援請求,僅將剩餘的請求轉發給專家。
Donkeybot 可以根據您的需求擴展並應用為問答系統。需要更改程式碼才能將 Donkeybot 用於您的特定用例和資料。目前實作適用於 Rucio 特定資料來源。
資料儲存:保存 Rucio 域特定資料的資料儲存。該模組目前的實作是在 SQLite 中實現的,以實現其提供的快速原型設計。資料來源包括來自 Rucio 使用者的安全匿名支援電子郵件、Rucio GitHub 問題和 Rucio 文件。
問題檢測:用於從任何給定文本中檢測和提取問題的模組。它用於透過正規表示式從支援電子郵件和 GitHub 問題中提取過去的問題。這些問題作為文件存檔並由其他模組使用。
文件檢索:一個搜尋引擎模組,使用 BM25 演算法檢索前 n 個最相似的文檔(先前提出的問題或 Rucio 文件),以供答案檢測模組用作上下文。
答案檢測:答案檢測模組遵循遷移學習方法和監督方法。
附加功能包括:
FAQ建立GUI :使用者可以使用提供的GUI作為介面與資料儲存交互,插入FAQ問題,重新索引搜尋引擎並擴展Donkeybot的知識庫。
名稱雜湊:使用史丹佛大學的 NER 標記器從支援電子郵件中偵測私人使用者資訊並對它們進行雜湊的腳本。因此,遵循 CERN 的隱私權準則並保持所有資料匿名。
請參閱完整文件以取得範例、操作細節和其他資訊。
請參閱常見問題:GSoC 以了解詳細的時間表、學生資訊、面臨的問題、未來的改進建議、閱讀清單等。
你可以嘗試親自詢問Donkeybot!
使用 slackbot :
或者您可以使用 CLI:
$ python . s cripts a sk_donkeybot.py
更多範例和資訊可以在如何使用部分找到。
步驟 1: PyTorch 需要安裝 64 位元 Python 3.x。
步驟 2:要安裝 PyTorch,請造訪 https://pytorch.org/ 並根據您的作業系統按照快速入門指南進行操作。
# versions used in development
torch == 1.6 . 0 - - find - links https : // download . pytorch . org / whl / torch_stable . html
torchvision == 0.7 . 0 - - find - links https : // download . pytorch . org / whl / torch_stable . html
步驟 3:將儲存庫複製到您的開發電腦。
$ git clone https://github.com/rucio/donkeybot.git
$ cd donkeybot
第 4 步:對於其他要求,請運行。
$ pip install -r requirements.txt
第 5 步:建置並填入 Donkeybot 的資料儲存。
$ python scripts/build_donkeybot -t < GITHUB_API_TOKEN >
有關貢獻、啟動開發人員模式和測試的更多詳細信息,請參閱入門頁面。
如有錯誤、問題和討論,請使用 GitHub 問題或聯絡學生 @mageirakos。
根據 Apache 授權 2.0 版授權;
http://www.apache.org/licenses/LICENSE-2.0