Этот проект с открытым исходным кодом служит двум целям.
- Сбор и оценка набора данных «Вопросы-ответы» для улучшения существующих методов обеспечения качества/поиска — COVID-QA
- Возможности сопоставления вопросов: дайте достоверные ответы на вопросы о COVID-19 с помощью НЛП ( устарело) .
КОВИД-QA
- Ссылка на набор данных COVID-QA
- Сопроводительный документ по OpenReview
- Рекомендации по аннотациям в формате PDF или видео
- deepset/roberta-base-squad2-covid модель контроля качества, обученная на COVID-QA
Обновление от 14 апреля 2020 г.: мы открываем исходный код первой партии аннотаций с ответами на вопросы в стиле SQuAD. Спасибо Тони Рейне за управление процессом и многочисленным профессиональным аннотаторам, которые тратят драгоценное время на просмотр исследовательских работ, связанных с Covid.
Сопоставление часто задаваемых вопросов
Обновление от 17 июня 2020 г .: Поскольку пандемия, к счастью, замедляется, а другие источники информации наверстывают упущенное, мы решили перевести наш размещенный API и пользовательский интерфейс в автономный режим. Мы сохраним этот репозиторий здесь как источник вдохновения для других проектов и для того, чтобы поделиться набором данных COVID-QA.
⚡ Проблема
- У людей много вопросов о COVID-19.
- Ответы разбросаны по разным сайтам.
- Поиск правильных ответов занимает много времени
- Достоверность ответов сложно оценить
- Многие ответы скоро устареют
Идея
- Совокупные часто задаваемые вопросы и тексты из надежных источников данных (ВОЗ, CDC...)
- Предоставьте пользовательский интерфейс, где люди могут задавать вопросы.
- Используйте НЛП, чтобы сопоставлять входящие вопросы пользователей с содержательными ответами.
- Пользователи могут оставлять отзывы об ответах, чтобы улучшить модель НЛП и отмечать устаревшие или неправильные ответы.
- Отображение наиболее распространенных запросов без хороших ответов для сбора данных и улучшения модели.
Технология
- Скребки для сбора данных
- Elasticsearch для хранения текстов, часто задаваемых вопросов, вложений
- Модели НЛП, реализованные с помощью Haystack, для поиска ответов посредством: а) обнаружения аналогичного вопроса в часто задаваемых вопросах б) обнаружения ответов в свободных текстах (извлекательный контроль качества)
- Реагировать на интерфейс