download retriv - download do código-fonte retriv

retriv

Outro código-fonte

v0.2.1

Baixar

Notícias

[23 de agosto de 2023] retriv 0.2.2 foi lançado!
Esta versão adiciona suporte experimental para documentos e filtros multicampos. Por favor, consulte a documentação do Advanced Retriever.
[18 de fevereiro de 2023] retriv 0.2.0 foi lançado!
Esta versão adiciona suporte para recuperação densa e híbrida. Dense Retrieval aproveita a semelhança semântica das representações vetoriais de consultas e documentos, que podem ser computadas diretamente por retriv ou importadas de outras fontes. A recuperação híbrida combina a recuperação tradicional, informalmente chamada de recuperação esparsa, e os resultados da recuperação densa para melhorar ainda mais a eficácia da recuperação. Como a biblioteca foi quase totalmente refeita, os índices construídos com versões anteriores não são mais suportados.

⚡️ Introdução

retriv é um mecanismo de pesquisa fácil de usar e eficiente implementado em Python com suporte para recuperação esparsa (pesquisa tradicional com BM25, TF-IDF), densa (pesquisa semântica) e híbrida (uma mistura de recuperação esparsa e densa). Ele permite que você crie um mecanismo de pesquisa em uma única linha de código .

retriv é baseado em Numba para operações vetoriais de alta velocidade e paralelização automática, PyTorch e Transformers para fácil acesso e uso de modelos de linguagem baseados em Transformers e Faiss para pesquisa aproximada do vizinho mais próximo. Além disso, oferece funcionalidades de ajuste automático para permitir ajustar seus componentes internos com intervenção mínima.

Principais recursos

Recuperadores

Sparse Retriever: buscador padrão baseado em correspondência lexical. retriv implementa BM25 como seu principal modelo de recuperação. TF-IDF também é apoiado para fins educacionais. O sparse retriever vem armado com vários lematizadores, tokenizadores e listas de palavras irrelevantes, para vários idiomas. Clique aqui para saber mais.
Dense Retriever: um Dense Retriever é um modelo de recuperação que realiza pesquisa semântica. Clique aqui para saber mais.
Hybrid Retriever: um retriever híbrido é um modelo de recuperação construído sobre um retriever esparso e um denso. Clique aqui para saber mais.
Advanced Retriever: um recuperador esparso avançado que suporta filtros. Este é um recurso experimental. Clique aqui para saber mais.

Interface de pesquisa unificada

Todos os recuperadores suportados compartilham a mesma interface de pesquisa:

pesquisa: funcionalidade de pesquisa padrão, o que você espera de um mecanismo de pesquisa.
msearch: calcula os resultados de várias consultas de uma só vez. Ele aproveita a paralelização automática sempre que possível.
bsearch: semelhante ao msearch, mas gera automaticamente lotes de consultas para avaliar e permite a gravação dinâmica dos resultados da pesquisa em disco no formato JSONl. bsearch é útil para calcular resultados de centenas de milhares ou até milhões de consultas sem sobrecarregar sua RAM. Os resultados pré-computados podem ser aproveitados para amostragem negativa durante o treinamento de Modelos Neurais para Recuperação de Informação.

Autoajuste

O retriv ajusta automaticamente a configuração do Faiss para pesquisa aproximada de vizinhos mais próximos, aproveitando o AutoFaiss para garantir um tempo de resposta de 10 ms com base no hardware disponível. Além disso, oferece funcionalidade de ajuste automático dos parâmetros do BM25, que requerem intervenção mínima do usuário. Nos bastidores, o retriv aproveita Optuna, uma estrutura de otimização de hiperparâmetros, e ranx, uma biblioteca de avaliação de recuperação de informações, para testar várias configurações de parâmetros para BM25 e escolher a melhor. Finalmente, ele pode equilibrar automaticamente a importância das pontuações de relevância lexical e semântica calculadas pelo Hybrid Retriever para maximizar a eficácia da recuperação.

Documentação

Retriever esparso
Retriever denso
Recuperador Híbrido
Pré-processamento de texto
Perguntas frequentes

? Requisitos

 python>=3.8

? Instalação

pip install retriv

Exemplo mínimo de trabalho

 # Note: SearchEngine is an alias for the SparseRetriever
from retriv import SearchEngine

collection = [
  { "id" : "doc_1" , "text" : "Generals gathered in their masses" },
  { "id" : "doc_2" , "text" : "Just like witches at black masses" },
  { "id" : "doc_3" , "text" : "Evil minds that plot destruction" },
  { "id" : "doc_4" , "text" : "Sorcerer of death's construction" },
]

se = SearchEngine ( "new-index" ). index ( collection )

se . search ( "witches masses" )

Saída:

[
  {
    "id" : " doc_2 " ,
    "text" : " Just like witches at black masses " ,
    "score" : 1.7536403
  },
  {
    "id" : " doc_1 " ,
    "text" : " Generals gathered in their masses " ,
    "score" : 0.6931472
  }
]