Este projeto de código aberto serve a dois propósitos.
- Coleta e avaliação de um conjunto de dados de resposta a perguntas para melhorar os métodos existentes de controle de qualidade/pesquisa - COVID-QA
- Recursos de correspondência de perguntas: forneça respostas confiáveis a perguntas sobre COVID-19 via PNL - desatualizado
Controle de qualidade da COVID
- Link para o conjunto de dados COVID-QA
- Artigo de acompanhamento no OpenReview
- Diretrizes de anotação como PDF ou vídeos
- deepset/roberta-base-squad2-covid um modelo de controle de qualidade treinado em COVID-QA
Atualização em 14 de abril de 2020: Estamos abrindo o código do primeiro lote de anotações para respostas a perguntas no estilo SQuAD. Obrigado a Tony Reina por gerenciar o processo e aos muitos anotadores profissionais que dedicam um tempo valioso examinando artigos de pesquisa relacionados à Covid.
Correspondência de perguntas frequentes
Atualização de 17 de junho de 2020 : Felizmente, como a pandemia está desacelerando e outras fontes de informação foram atualizadas, decidimos colocar nossa API e UI hospedadas off-line. Manteremos o repositório aqui como inspiração para outros projetos e para compartilhar o conjunto de dados COVID-QA.
⚡ Problema
- As pessoas têm muitas perguntas sobre o COVID-19
- As respostas estão espalhadas em diferentes sites
- Encontrar as respostas certas leva muito tempo
- A confiabilidade das respostas é difícil de julgar
- Muitas respostas ficam desatualizadas logo
Ideia
- Agregue perguntas frequentes e textos de fontes de dados confiáveis (OMS, CDC...)
- Forneça uma IU onde as pessoas possam fazer perguntas
- Use a PNL para combinar as perguntas recebidas dos usuários com respostas significativas
- Os usuários podem fornecer feedback sobre as respostas para melhorar o modelo de PNL e sinalizar respostas desatualizadas ou erradas
- Exibir as consultas mais comuns sem boas respostas para orientar a coleta de dados e melhorias no modelo
Tecnologia
- Raspadores para coletar dados
- Elasticsearch para armazenar textos, FAQs, embeddings
- Modelos de PNL implementados via Haystack para encontrar respostas por meio de a) detectar perguntas semelhantes em FAQs b) detectar respostas em textos livres (QA extrativo)
- Interface de reação