Descarga retriv - Descarga del código fuente retriv

retriv

Otro código fuente

v0.2.1

Descargar

Noticias

[23 de agosto de 2023] retriv 0.2.2 ya está disponible!
Esta versión agrega soporte experimental para filtros y documentos de múltiples campos. Por favor, consulte la documentación de Advanced Retriever.
[18 de febrero de 2023] retriv 0.2.0 ya está disponible!
Esta versión agrega soporte para recuperación densa e híbrida. Dense Retrieval aprovecha la similitud semántica de las representaciones vectoriales de las consultas y los documentos, que pueden calcularse directamente mediante retriv o importarse de otras fuentes. La recuperación híbrida combina los resultados de la recuperación tradicional, informalmente denominada recuperación dispersa, y recuperación densa para mejorar aún más la eficacia de la recuperación. Como la biblioteca se rehizo casi por completo, los índices creados con versiones anteriores ya no son compatibles.

⚡️ Introducción

retriv es un motor de búsqueda eficiente y fácil de usar implementado en Python que admite recuperación dispersa (búsqueda tradicional con BM25, TF-IDF), densa (búsqueda semántica) y recuperación híbrida (una combinación de recuperación dispersa y densa). Le permite construir un motor de búsqueda en una sola línea de código .

retriv se basa en Numba para operaciones vectoriales de alta velocidad y paralelización automática, PyTorch y Transformers para un fácil acceso y uso de modelos de lenguaje basados en Transformer, y Faiss para una búsqueda aproximada del vecino más cercano. Además, proporciona funcionalidades de ajuste automático para permitirle ajustar sus componentes internos con una mínima intervención.

Características principales

perros perdigueros

Sparse Retriever: buscador estándar basado en concordancia léxica. retriv implementa BM25 como su principal modelo de recuperación. TF-IDF también cuenta con soporte para fines educativos. El sparse retriever viene armado con múltiples lematizadores, tokenizadores y listas de palabras vacías para múltiples idiomas. Haga clic aquí para obtener más información.
Dense Retriever: un recuperador denso es un modelo de recuperación que realiza búsqueda semántica. Haga clic aquí para obtener más información.
Perro perdiguero híbrido: un perro perdiguero híbrido es un modelo de recuperación construido sobre un perro perdiguero escaso y otro denso. Haga clic aquí para obtener más información.
Recuperador avanzado: un recuperador disperso avanzado que admite filtros. Esta es una característica experimental. Haga clic aquí para obtener más información.

Interfaz de búsqueda unificada

Todos los perros perdigueros compatibles comparten la misma interfaz de búsqueda:

búsqueda: funcionalidad de búsqueda estándar, lo que se espera de un motor de búsqueda.
msearch: calcula los resultados de varias consultas a la vez. Aprovecha la paralelización automática siempre que sea posible.
bsearch: similar a msearch pero genera automáticamente lotes de consultas para evaluar y permite la escritura dinámica de los resultados de la búsqueda en el disco en formato JSONl. bsearch es útil para calcular resultados de cientos de miles o incluso millones de consultas sin acaparar la RAM. Los resultados precalculados se pueden aprovechar para el muestreo negativo durante el entrenamiento de modelos neuronales para la recuperación de información.

Sintonización automática

retriv ajusta automáticamente la configuración de Faiss para una búsqueda aproximada de vecinos más cercanos aprovechando AutoFaiss para garantizar un tiempo de respuesta de 10 ms según su hardware disponible. Además, ofrece una funcionalidad de ajuste automático de los parámetros del BM25, que requiere una mínima intervención del usuario. En su interior, retriv aprovecha Optuna, un marco de optimización de hiperparámetros, y ranx, una biblioteca de evaluación de recuperación de información, para probar varias configuraciones de parámetros para BM25 y elegir la mejor. Finalmente, puede equilibrar automáticamente la importancia de las puntuaciones de relevancia léxica y semántica calculadas por el Hybrid Retriever para maximizar la eficacia de la recuperación.

Documentación

perro perdiguero escaso
Perro perdiguero denso
Perro perdiguero híbrido
Preprocesamiento de texto
Preguntas frecuentes

? Requisitos

 python>=3.8

? Instalación

pip install retriv

Ejemplo de trabajo mínimo

 # Note: SearchEngine is an alias for the SparseRetriever
from retriv import SearchEngine

collection = [
  { "id" : "doc_1" , "text" : "Generals gathered in their masses" },
  { "id" : "doc_2" , "text" : "Just like witches at black masses" },
  { "id" : "doc_3" , "text" : "Evil minds that plot destruction" },
  { "id" : "doc_4" , "text" : "Sorcerer of death's construction" },
]

se = SearchEngine ( "new-index" ). index ( collection )

se . search ( "witches masses" )

Producción:

[
  {
    "id" : " doc_2 " ,
    "text" : " Just like witches at black masses " ,
    "score" : 1.7536403
  },
  {
    "id" : " doc_1 " ,
    "text" : " Generals gathered in their masses " ,
    "score" : 0.6931472
  }
]