retriv下载 - retriv源码下载

retriv

其他源码

v0.2.1

下载

消息

[2023 年 8 月 23 日] retriv 0.2.2 已发布！
此版本增加了对多字段文档和过滤器的实验性支持。请参阅高级检索器文档。
[2023年2月18日] retriv 0.2.0 发布了！
此版本增加了对密集和混合检索的支持。密集检索利用查询和文档向量表示的语义相似性，可以通过retriv直接计算或从其他来源导入。混合检索混合了传统检索（非正式地称为稀疏检索）和密集检索结果，以进一步提高检索效率。由于该库几乎完全重做，因此不再支持使用以前版本构建的索引。

⚡️简介

retriv 是一个用 Python 实现的用户友好且高效的搜索引擎，支持稀疏（BM25、TF-IDF 的传统搜索）、密集（语义搜索）和混合检索（稀疏和密集检索的混合）。它允许您用一行代码构建一个搜索引擎。

retriv 基于 Numba 构建，用于高速向量运算和自动并行化；基于 PyTorch 和 Transformers 构建，用于轻松访问和使用基于 Transformer 的语言模型；基于 Faiss 构建，用于近似最近邻搜索。此外，它还提供自动调整功能，使您可以以最少的干预来调整其内部组件。

主要特点

猎犬

稀疏检索器：基于词法匹配的标准搜索器。 retriv 采用 BM25 作为其主要检索模型。 TF-IDF 也支持用于教育目的。稀疏检索器配备了多个词干分析器、分词器和停用词列表，适用于多种语言。单击此处了解更多信息。
密集检索器：密集检索器是执行语义搜索的检索模型。单击此处了解更多信息。
混合检索器：混合检索器是建立在稀疏和密集检索器之上的检索模型。单击此处了解更多信息。
Advanced Retriever：支持过滤器的高级稀疏检索器。这是实验性功能。单击此处了解更多信息。

统一搜索界面

所有支持的检索器共享相同的搜索界面：

搜索：标准搜索功能，您对搜索引擎的期望。
msearch：同时计算多个查询的结果。它尽可能利用自动并行化。
bsearch：与 msearch 类似，但自动生成批量查询以进行评估，并允许将搜索结果以 JSONl 格式动态写入磁盘。 bsearch 可以方便地计算数十万甚至数百万个查询的结果，而无需占用 RAM。在信息检索神经模型的训练过程中，可以利用预先计算的结果进行负采样。

自动调谐

retriv 利用 AutoFaiss 自动调整 Faiss 配置以进行近似最近邻搜索，以根据您的可用硬件保证 10 毫秒的响应时间。此外，它还提供 BM25 参数的自动调整功能，这需要最少的用户干预。在底层，retriv 利用超参数优化框架 Optuna 和信息检索评估库 ranx 来测试 BM25 的多种参数配置并选择最佳的一个。最后，它可以自动平衡混合检索器计算的词汇和语义相关性分数的重要性，以最大限度地提高检索效率。

文档

稀疏检索器
密集猎犬
混合猎犬
文本预处理
常问问题

？要求

 python>=3.8

？安装

pip install retriv

最小工作示例

 # Note: SearchEngine is an alias for the SparseRetriever
from retriv import SearchEngine

collection = [
  { "id" : "doc_1" , "text" : "Generals gathered in their masses" },
  { "id" : "doc_2" , "text" : "Just like witches at black masses" },
  { "id" : "doc_3" , "text" : "Evil minds that plot destruction" },
  { "id" : "doc_4" , "text" : "Sorcerer of death's construction" },
]

se = SearchEngine ( "new-index" ). index ( collection )

se . search ( "witches masses" )

输出：

[
  {
    "id" : " doc_2 " ,
    "text" : " Just like witches at black masses " ,
    "score" : 1.7536403
  },
  {
    "id" : " doc_1 " ,
    "text" : " Generals gathered in their masses " ,
    "score" : 0.6931472
  }
]