Repositori ini tidak dikelola dan telah diarsipkan.
Donkeybot adalah sistem Penjawab Pertanyaan ujung ke ujung. Ini menggunakan berbagai sumber data, tabel FAQ, dan model bahasa pembelajaran transfer seperti BERT untuk menjawab pertanyaan dukungan Rucio.
Tujuan proyek di bawah GSoC 2020 adalah menggunakan Natural Language Processing (NLP) untuk mengembangkan prototipe bot cerdas yang mampu memberikan jawaban memuaskan kepada pengguna Rucio dan menangani permintaan dukungan hingga tingkat kompleksitas tertentu, hanya meneruskan permintaan sisanya ke para ahli.
Donkeybot dapat diperluas dan diterapkan sebagai sistem Tanya-Jawab untuk kebutuhan Anda. Perubahan kode diperlukan untuk menggunakan Donkeybot untuk kasus penggunaan dan data spesifik Anda. Implementasi saat ini berlaku untuk sumber data spesifik Rucio.
Penyimpanan data : Penyimpanan data yang menyimpan data khusus domain Rucio. Implementasi modul saat ini menggunakan SQLite untuk pembuatan prototipe cepat yang disediakannya. Sumber data mencakup email dukungan yang aman dan anonim dari pengguna Rucio, masalah Rucio GitHub, dan dokumentasi Rucio.
Deteksi pertanyaan : Modul untuk mendeteksi dan mengekstraksi pertanyaan dari teks tertentu. Ini digunakan untuk mengekstrak pertanyaan-pertanyaan sebelumnya dari email dukungan dan masalah GitHub dengan memanfaatkan ekspresi reguler. Pertanyaan-pertanyaan ini diarsipkan sebagai dokumen dan digunakan oleh modul lainnya.
Pengambilan Dokumen : Modul mesin pencari yang menggunakan algoritma BM25 untuk mengambil dokumen paling mirip n teratas (pertanyaan yang diajukan sebelumnya atau dokumentasi Rucio) untuk digunakan sebagai konteks oleh modul deteksi jawaban.
Deteksi Jawaban : Modul Deteksi Jawaban yang mengikuti pendekatan pembelajaran transfer dan pendekatan yang diawasi.
Fitur Tambahan meliputi:
GUI pembuatan FAQ : Pengguna dapat menggunakan GUI yang disediakan sebagai antarmuka untuk berinteraksi dengan penyimpanan data, menyisipkan pertanyaan FAQ, mengindeks ulang mesin pencari, dan memperluas basis pengetahuan Donkeybot.
Pencirian nama : Skrip yang menggunakan penanda NER Stanford untuk mendeteksi informasi pengguna pribadi dari email dukungan dan melakukan hashing. Oleh karena itu, mengikuti pedoman privasi CERN dan menjaga semua data tetap anonim.
Lihat dokumentasi lengkap untuk contoh, detail operasional, dan informasi lainnya.
Lihat FAQ : GSoC untuk garis waktu rinci, informasi siswa, masalah yang dihadapi, saran perbaikan di masa depan, daftar bacaan dan banyak lagi.
Anda bisa mencoba bertanya pada Donkeybot sendiri!
Menggunakan slackbot :
Atau Anda dapat menggunakan CLI:
$ python . s cripts a sk_donkeybot.py
Contoh dan informasi lebih lanjut dapat ditemukan di bagian Cara Menggunakan.
Langkah 1: Instalasi Python 3.x 64 bit diperlukan oleh PyTorch.
Langkah 2: Untuk menginstal PyTorch, kunjungi https://pytorch.org/ dan ikuti panduan memulai cepat berdasarkan sistem operasi Anda.
# versions used in development
torch == 1.6 . 0 - - find - links https : // download . pytorch . org / whl / torch_stable . html
torchvision == 0.7 . 0 - - find - links https : // download . pytorch . org / whl / torch_stable . html
Langkah 3: Kloning repositori ke mesin pengembangan Anda.
$ git clone https://github.com/rucio/donkeybot.git
$ cd donkeybot
Langkah 4: Untuk persyaratan tambahan, jalankan.
$ pip install -r requirements.txt
Langkah 5: Bangun dan isi penyimpanan data Donkeybot.
$ python scripts/build_donkeybot -t < GITHUB_API_TOKEN >
Lihat halaman Memulai untuk detail selengkapnya tentang berkontribusi, memulai mode pengembang, dan pengujian.
Untuk bug, pertanyaan dan diskusi silakan gunakan Masalah GitHub atau hubungi siswa @mageirakos.
Berlisensi di bawah Lisensi Apache, Versi 2.0;
http://www.apache.org/licenses/LICENSE-2.0