Este proyecto de código abierto tiene dos propósitos.
- Recopilación y evaluación de un conjunto de datos de respuesta a preguntas para mejorar los métodos de búsqueda y control de calidad existentes - COVID-QA
- Capacidades de coincidencia de preguntas: proporcione respuestas confiables a preguntas sobre COVID-19 a través de PNL - desactualizado
Control de calidad de COVID
- Enlace al conjunto de datos COVID-QA
- Documento adjunto sobre OpenReview
- Pautas de anotación en formato pdf o videos.
- deepset/roberta-base-squad2-covid un modelo de control de calidad entrenado en COVID-QA
Actualización del 14 de abril de 2020: Estamos obteniendo código abierto para el primer lote de anotaciones de respuesta a preguntas estilo SQuAD. Gracias a Tony Reina por gestionar el proceso y a los numerosos anotadores profesionales que dedican su valioso tiempo a revisar los artículos de investigación relacionados con Covid.
Coincidencia de preguntas frecuentes
Actualización del 17 de junio de 2020 : dado que afortunadamente la pandemia se está desacelerando y otras fuentes de información se han puesto al día, decidimos desconectar nuestra API y UI alojadas. Mantendremos el repositorio aquí como inspiración para otros proyectos y para compartir el conjunto de datos de COVID-QA.
⚡ Problema
- La gente tiene muchas preguntas sobre el COVID-19
- Las respuestas están dispersas en diferentes sitios web.
- Encontrar las respuestas correctas lleva mucho tiempo
- La confiabilidad de las respuestas es difícil de juzgar
- Muchas respuestas quedan obsoletas pronto
Idea
- Preguntas frecuentes agregadas y textos de fuentes de datos confiables (OMS, CDC...)
- Proporcionar una interfaz de usuario donde las personas puedan hacer preguntas
- Utilice PNL para hacer coincidir las preguntas entrantes de los usuarios con respuestas significativas
- Los usuarios pueden proporcionar comentarios sobre las respuestas para mejorar el modelo de PNL y marcar respuestas obsoletas o incorrectas.
- Muestre las consultas más comunes sin buenas respuestas para guiar la recopilación de datos y las mejoras del modelo.
tecnología
- Raspadores para recopilar datos
- Elasticsearch para almacenar textos, preguntas frecuentes e incrustaciones
- Modelos de PNL implementados a través de Haystack para encontrar respuestas a través de a) detectar preguntas similares en preguntas frecuentes b) detectar respuestas en textos libres (control de calidad extractivo)
- Reaccionar interfaz