Proyek sumber terbuka ini memiliki dua tujuan.
- Pengumpulan dan evaluasi kumpulan data Menjawab Pertanyaan untuk meningkatkan metode QA/penelusuran yang ada - COVID-QA
- Kemampuan pencocokan pertanyaan: Memberikan jawaban tepercaya atas pertanyaan tentang COVID-19 melalui NLP - sudah ketinggalan zaman
COVID-QA
- Tautan ke Kumpulan Data COVID-QA
- Makalah pendamping tentang OpenReview
- Pedoman anotasi dalam bentuk pdf atau video
- deepset/roberta-base-squad2-covid model QA yang dilatih tentang COVID-QA
Pembaruan 14 April 2020: Kami membuka sumber anotasi jawaban pertanyaan gaya SQuAD gelombang pertama. Terima kasih kepada Tony Reina yang mengelola prosesnya dan banyak anotator profesional yang menghabiskan waktu berharga untuk mempelajari makalah penelitian terkait Covid.
Pencocokan pertanyaan umum
Pembaruan 17 Juni 2020 : Syukurlah, karena pandemi ini sudah mulai melambat dan sumber informasi lainnya sudah menyusul, kami memutuskan untuk menjadikan API dan UI yang kami hosting menjadi offline. Kami akan menyimpan repositori di sini sebagai inspirasi untuk proyek lain dan untuk berbagi kumpulan data COVID-QA.
⚡ Masalah
- Banyak orang yang bertanya mengenai COVID-19
- Jawabannya tersebar di berbagai situs web
- Menemukan jawaban yang tepat membutuhkan banyak waktu
- Kepercayaan jawaban sulit untuk dinilai
- Banyak jawaban yang segera menjadi usang
Ide
- Kumpulan FAQ dan teks dari sumber data tepercaya (WHO, CDC ...)
- Sediakan UI tempat orang dapat mengajukan pertanyaan
- Gunakan NLP untuk mencocokkan pertanyaan masuk pengguna dengan jawaban yang bermakna
- Pengguna dapat memberikan masukan tentang jawaban untuk meningkatkan model NLP dan menandai jawaban yang ketinggalan jaman atau salah
- Tampilkan pertanyaan paling umum tanpa jawaban yang baik untuk memandu pengumpulan data dan peningkatan model
Teknologi
- Scraper untuk mengumpulkan data
- Elasticsearch untuk menyimpan teks, FAQ, embeddings
- Model NLP diimplementasikan melalui Haystack untuk menemukan jawaban melalui a) mendeteksi pertanyaan serupa di FAQ b) mendeteksi jawaban dalam teks bebas (QA ekstraktif)
- Bereaksi Frontend