โครงการโอเพ่นซอร์สนี้มีจุดประสงค์สองประการ
- การรวบรวมและประเมินชุดข้อมูลการตอบคำถามเพื่อปรับปรุง QA/วิธีการค้นหาที่มีอยู่ - COVID-QA
- ความสามารถในการจับคู่คำถาม: ให้คำตอบที่น่าเชื่อถือสำหรับคำถามเกี่ยวกับโควิด-19 ผ่าน NLP - ล้าสมัย
โควิด-QA
- ลิงก์ไปยังชุดข้อมูล COVID-QA
- เอกสารประกอบใน OpenReview
- หลักเกณฑ์คำอธิบายประกอบในรูปแบบ pdf หรือวิดีโอ
- deepset/roberta-base-squad2-covid โมเดล QA ที่ได้รับการฝึกอบรมเกี่ยวกับ COVID-QA
อัปเดตวันที่ 14 เมษายน 2020: เรากำลังเปิดการจัดหาคำถามสไตล์ SQuAD ชุดแรกเพื่อตอบคำอธิบายประกอบ ขอขอบคุณ Tony Reina สำหรับการจัดการกระบวนการและผู้เชี่ยวชาญด้านคำอธิบายประกอบที่ใช้เวลาอันมีค่าในการดูเอกสารวิจัยที่เกี่ยวข้องกับโควิด
การจับคู่คำถามที่พบบ่อย
อัปเดตวันที่ 17 มิถุนายน 2020 : เนื่องจากการแพร่ระบาดของโรคกำลังชะลอตัวลงและแหล่งข้อมูลอื่นๆ ตามทัน เราจึงตัดสินใจนำ API และ UI ที่โฮสต์ของเราเป็นแบบออฟไลน์ เราจะเก็บพื้นที่เก็บข้อมูลไว้ที่นี่เพื่อเป็นแรงบันดาลใจสำหรับโปรเจ็กต์อื่นๆ และเพื่อแชร์ชุดข้อมูล COVID-QA
⚡ปัญหา
- หลายๆคนมีคำถามเกี่ยวกับโควิด-19 มากมาย
- คำตอบกระจัดกระจายอยู่ในเว็บไซต์ต่างๆ
- การค้นหาคำตอบที่ถูกต้องต้องใช้เวลามาก
- ความน่าเชื่อถือของคำตอบนั้นยากที่จะตัดสิน
- คำตอบมากมายจะล้าสมัยในไม่ช้า
ความคิด
- รวมคำถามที่พบบ่อยและข้อความจากแหล่งข้อมูลที่น่าเชื่อถือ (WHO, CDC ...)
- จัดเตรียม UI ที่ผู้คนสามารถถามคำถามได้
- ใช้ NLP เพื่อจับคู่คำถามที่เข้ามาของผู้ใช้กับคำตอบที่มีความหมาย
- ผู้ใช้สามารถให้คำติชมเกี่ยวกับคำตอบเพื่อปรับปรุงโมเดล NLP และตั้งค่าสถานะคำตอบที่ล้าสมัยหรือผิด
- แสดงคำค้นหาที่พบบ่อยที่สุดโดยไม่มีคำตอบที่ดีเพื่อเป็นแนวทางในการรวบรวมข้อมูลและการปรับปรุงโมเดล
เทค
- เครื่องขูดเพื่อรวบรวมข้อมูล
- Elasticsearch เพื่อจัดเก็บข้อความ คำถามที่พบบ่อย การฝัง
- โมเดล NLP ใช้งานผ่าน Haystack เพื่อค้นหาคำตอบผ่าน a) การตรวจจับคำถามที่คล้ายกันในคำถามที่พบบ่อย b) ตรวจจับคำตอบในข้อความอิสระ (QA แบบแยกส่วน)
- ตอบสนองส่วนหน้า