このリポジトリは保守されておらず、アーカイブされています。
Donkeybot は、エンドツーエンドの質問応答システムです。複数のデータ ソース、FAQ テーブル、BERT などの転移学習言語モデルを利用して、Rucio サポートの質問に答えます。
GSoC 2020 に基づくプロジェクトの目的は、自然言語処理 (NLP) を使用して、Rucio ユーザーに満足のいく回答を提供し、一定レベルの複雑さまでのサポート リクエストを処理し、残りのリクエストのみをシステムに転送できるインテリジェントなボット プロトタイプを開発することです。専門家。
Donkeybot は、ニーズに合わせて拡張し、質問応答システムとして適用できます。特定のユースケースとデータに Donkeybot を使用するには、コードを変更する必要があります。現在の実装は、Rucio 固有のデータ ソースに適用されます。
データ ストレージ: Rucio ドメイン固有のデータを保持するデータ ストレージ。モジュールの現在の実装は、高速プロトタイピングを実現するために SQLite で行われています。データ ソースには、Rucio ユーザーからの安全で匿名のサポート メール、Rucio GitHub の問題、Rucio ドキュメントが含まれます。
質問検出: 任意のテキストから質問を検出および抽出するためのモジュール。サポートメールやGitHubの課題から正規表現を利用して過去の質問を抽出するために利用されています。これらの質問はドキュメントとしてアーカイブされ、他のモジュールで使用されます。
ドキュメント取得: BM25 アルゴリズムを使用して、回答検出モジュールによってコンテキストとして使用される上位 n 個の最も類似したドキュメント (以前に質問された質問または Rucio ドキュメント) を取得する検索エンジン モジュール。
回答検出: 転移学習アプローチと教師ありアプローチの両方に従う回答検出モジュール。
追加機能は次のとおりです。
FAQ 作成 GUI : ユーザーは、提供された GUI をインターフェイスとして使用して、データ ストレージと対話し、FAQ の質問を挿入し、検索エンジンのインデックスを再作成し、Donkeybot のナレッジ ベースを拡張できます。
名前ハッシュ: スタンフォードの NER タガーを使用して、サポート メールからプライベート ユーザー情報を検出し、ハッシュするスクリプト。したがって、CERN のプライバシー ガイドラインに従い、すべてのデータは匿名化されます。
例、操作の詳細、その他の情報については、完全なドキュメントを参照してください。
詳細なタイムライン、学生情報、直面している問題、将来の改善提案、参考文献リストなどについては、FAQ : GSoC を参照してください。
Donkeybot に自分で聞いてみることもできます。
スラックボットの使用:
または、CLI を使用することもできます。
$ python . s cripts a sk_donkeybot.py
その他の例と情報については、「使用方法」セクションを参照してください。
ステップ 1: PyTorch には 64 ビット Python 3.x のインストールが必要です。
ステップ 2: PyTorch をインストールするには、https://pytorch.org/ にアクセスし、オペレーティング システムに基づいたクイック スタート ガイドに従います。
# versions used in development
torch == 1.6 . 0 - - find - links https : // download . pytorch . org / whl / torch_stable . html
torchvision == 0.7 . 0 - - find - links https : // download . pytorch . org / whl / torch_stable . html
ステップ 3:開発マシンにリポジトリのクローンを作成します。
$ git clone https://github.com/rucio/donkeybot.git
$ cd donkeybot
ステップ 4:追加の要件については、実行します。
$ pip install -r requirements.txt
ステップ 5: Donkeybot のデータ ストレージを構築して設定します。
$ python scripts/build_donkeybot -t < GITHUB_API_TOKEN >
コントリビュート、開発者モードの開始、テストの詳細については、「はじめに」ページを参照してください。
バグ、質問、ディスカッションについては、GitHub の問題を使用するか、学生の @mageirakos に連絡してください。
Apache License、バージョン 2.0 に基づいてライセンスされています。
http://www.apache.org/licenses/LICENSE-2.0