paperai es una aplicación de búsqueda semántica y flujo de trabajo para artículos médicos/científicos.
Las aplicaciones van desde índices de búsqueda semántica que encuentran coincidencias para consultas médicas/científicas hasta aplicaciones de informes completas impulsadas por el aprendizaje automático.
paperai y/o NeuML ha sido reconocido en los siguientes artículos:
La forma más sencilla de instalar es mediante pip y PyPI.
pip install paperai
Se admite Python 3.8+. Se recomienda utilizar un entorno virtual Python.
paperai también se puede instalar directamente desde GitHub para acceder a las funciones más recientes e inéditas.
pip install git+https://github.com/neuml/paperai
Consulte este enlace para ayudar a resolver problemas de instalación específicos del entorno.
Ejecute los pasos a continuación para crear una imagen de Docker con paperai y todas las dependencias.
wget https://raw.githubusercontent.com/neuml/paperai/master/docker/Dockerfile
docker build -t paperai .
docker run --name paperai --rm -it paperai
paperetl se puede agregar para tener una sola imagen para indexar y consultar contenido. Siga las instrucciones para crear una imagen acoplable de paperetl y luego ejecute lo siguiente.
docker build -t paperai --build-arg BASE_IMAGE=paperetl --build-arg START=/scripts/start.sh .
docker run --name paperai --rm -it paperai
Los siguientes cuadernos y aplicaciones demuestran las capacidades que ofrece paperai.
Computadora portátil | Descripción | |
---|---|---|
Presentando paperai | Descripción general de la funcionalidad proporcionada por paperai |
Solicitud | Descripción |
---|---|
Buscar | Busque un índice de paperai. Establezca parámetros de consulta, ejecute búsquedas y muestre resultados. |
paperai indexa bases de datos creadas previamente con paperetl. A continuación se muestra cómo crear un nuevo índice paperai.
(Opcional) Cree un archivo index.yml
paperai utiliza la configuración de incrustaciones txtai predeterminada cuando no se especifica. Alternativamente, se puede especificar un archivo index.yml que tome las mismas opciones que una instancia de incrustaciones txtai. Consulte la documentación de txtai para obtener más información sobre las posibles opciones. A continuación se muestra un ejemplo sencillo.
path: sentence-transformers/all-MiniLM-L6-v2
content: True
Construir índice de incrustaciones
python -m paperai.index <path to input data> <optional index configuration>
El proceso paperai.index requiere una ruta de datos de entrada y, opcionalmente, requiere una configuración de índice. Esta configuración puede ser una ruta de modelo vectorial o un archivo de configuración index.yml.
La forma más rápida de ejecutar consultas es iniciar un shell paperai
paperai <path to model directory>
Aparecerá un mensaje. Las consultas se pueden escribir directamente en la consola.
Los informes admiten la generación de resultados en múltiples formatos. Un ejemplo de llamada de informe:
python -m paperai.report report.yml 50 md <path to model directory>
Se admiten los siguientes formatos de informes:
En el ejemplo anterior, se creará un archivo llamado report.md. Puede encontrar ejemplos de archivos de configuración de informes aquí.
paperai es una combinación de un índice de incrustaciones txtai y una base de datos SQLite con los artículos. Cada artículo se analiza en oraciones y se almacena en SQLite junto con los metadatos del artículo. Las incrustaciones se construyen sobre el corpus completo.
Existen múltiples puntos de entrada para interactuar con el modelo.