このオープンソース プロジェクトには 2 つの目的があります。
- 既存の QA/検索方法を改善するための質問応答データセットの収集と評価 - COVID-QA
- 質問マッチング機能: 新型コロナウイルス感染症に関する質問に対して NLP 経由で信頼できる回答を提供します -時代遅れです
COVID-QA
- COVID-QA データセットへのリンク
- OpenReview に関する添付文書
- PDF またはビデオでの注釈ガイドライン
- deepset/roberta-base-squad2-covid COVID-QA でトレーニングされた QA モデル
2020 年 4 月 14 日更新: SQuAD スタイルの質問応答アノテーションの最初のバッチをオープンソース化します。プロセスを管理してくれた Tony Reina と、Covid 関連の研究論文に貴重な時間を費やしてくださった多くのプロのアノテーターに感謝します。
FAQマッチング
2020 年 6 月 17 日更新: パンデミックはありがたいことに沈静化しつつあり、他の情報ソースも追いついてきたため、ホストされている API と UI をオフラインにすることにしました。他のプロジェクトのインスピレーションとして、また COVID-QA データセットを共有するために、リポジトリをここに残しておきます。
⚡ 問題
- 新型コロナウイルス感染症について人々は多くの質問をしています
- 答えはさまざまなウェブサイトに散在しています
- 正しい答えを見つけるには多くの時間がかかります
- 回答の信頼性を判断するのは難しい
- 多くの回答はすぐに古くなってしまいます
アイデア
- 信頼できるデータ ソース (WHO、CDC など) からの FAQ とテキストを集約します。
- 質問できる UI を提供する
- NLP を使用してユーザーからの質問と意味のある回答を照合する
- ユーザーは、回答に関するフィードバックを提供して NLP モデルを改善し、古い回答や間違った回答にフラグを立てることができます。
- データ収集とモデルの改善をガイドするために、適切な回答が得られなかった最も一般的なクエリを表示します
技術
- データを収集するスクレーパー
- Elasticsearch によるテキスト、FAQ、埋め込みの保存
- Haystack を介して実装された NLP モデルは、a) FAQ での同様の質問の検出、b) フリー テキストでの回答の検出 (抽出 QA) によって回答を見つけます。
- フロントエンドに反応する