이 오픈 소스 프로젝트는 두 가지 목적으로 사용됩니다.
- 기존 QA/검색 방법을 개선하기 위한 질문 답변 데이터 세트 수집 및 평가 - 코로나19(COVID-QA)
- 질문 매칭 기능: NLP를 통해 코로나19 관련 질문에 대한 신뢰할 수 있는 답변 제공 - 구식
코로나19-QA
- 코로나19 QA 데이터세트 링크
- OpenReview에 대한 첨부 논문
- PDF 또는 비디오로 된 주석 지침
- deepset/roberta-base-squad2-covid COVID-QA에 대해 훈련된 QA 모델
2020년 4월 14일 업데이트: SQuAD 스타일 질문 답변 주석의 첫 번째 배치를 오픈 소스화합니다. 프로세스를 관리한 Tony Reina와 코로나 관련 연구 논문을 검토하는 데 귀중한 시간을 할애한 많은 전문 주석가들에게 감사드립니다.
FAQ 매칭
2020년 6월 17일 업데이트 : 다행스럽게도 전염병이 둔화되고 다른 정보 소스가 따라잡았기 때문에 호스팅된 API와 UI를 오프라인으로 전환하기로 결정했습니다. 우리는 다른 프로젝트에 영감을 주고 코로나19 QA 데이터 세트를 공유하기 위해 여기에 저장소를 유지할 것입니다.
⚡ 문제
- 사람들은 코로나19에 대해 많은 질문을 갖고 있습니다.
- 답변은 여러 웹사이트에 흩어져 있습니다.
- 올바른 답을 찾는 데는 많은 시간이 걸립니다
- 답변의 신뢰성을 판단하기 어렵습니다.
- 많은 답변이 곧 구식이 됩니다
아이디어
- 신뢰할 수 있는 데이터 소스(WHO, CDC ...)에서 FAQ 및 텍스트를 모아보세요.
- 사람들이 질문할 수 있는 UI 제공
- NLP를 사용하여 사용자가 들어오는 질문과 의미 있는 답변을 일치시킵니다.
- 사용자는 답변에 대한 피드백을 제공하여 NLP 모델을 개선하고 오래되었거나 잘못된 답변을 표시할 수 있습니다.
- 데이터 수집 및 모델 개선을 안내하기 위해 좋은 답변 없이 가장 일반적인 쿼리를 표시합니다.
기술
- 데이터를 수집하는 스크레이퍼
- 텍스트, FAQ, 임베딩을 저장하는 Elasticsearch
- a) FAQ에서 유사한 질문 감지 b) 자유 텍스트에서 답변 감지(추출적 QA)를 통해 답변을 찾기 위해 Haystack을 통해 구현된 NLP 모델
- 리액트 프론트엔드