cedrik下载 - cedrik源码下载

cedrik

其他源码

1.0.0

下载

塞德里克

一个有趣的项目，编写一个适合 Small Data™ 的小型、简单的搜索引擎。

（计划的）功能

☑ 索引
查询：
- ☑ 全部匹配
- ☑ 期限（☑ 提升）
- ☑ 布尔值（与、或、非）
- 近
- ☑ 通配符（仅支持单个前导或单个尾随）
☐ 排名
☐ 亮点
分布式索引（mnesia？、KVS？、riak？、redis？）
持久性（通过使用 redis 支持的索引间接支持，但我还想为 AgentIndex 添加一些简单的压缩变体）
☐ 演示网络用户界面（凤凰！）

用法

测试

运行单元测试：

 mix test --exclude external

运行所有测试，包括依赖外部服务的测试。比如RedisIndex测试：

 mix test

确保 config/config.exs 中的 redis 连接字符串正确。您可以使用docker-compose来快速启动并运行 Redis 实例。

索引

Cedrik 中的每个索引都由带有Index @behaviour进程表示。要将某些内容索引到索引中，只需调用Index.index_doc(something, :index_name, type)其中something将是 Elixir 映射或结构（我建议创建一个结构，其中包含实现Storable协议的 id 字段 - 看看lib/document.ex和lib/agent_store.ex供参考）， type必须是现有索引实现AgentIndex或RedisIndex之一。 Index.index_doc的最后一个参数是可选的，默认为AgentIndex 。

要获取现有索引的列表，请使用Index.list/0或Index.list/1 - 这些将返回格式为{pid, name, module}的元组列表

代理索引

这是简单的内存索引类型，适用于适合内存且不需要持久化的内容。

Redis索引

这是一个由 redis 支持的索引。您必须启动并运行一个 Redis 实例才能使其正常工作。与 AgentIndex 相比，使用 RedisIndex 的主要好处是当您希望能够持久保存数据时。

代币化

目前，令牌只是由空格分隔的任何字符串。

查询

使用Search.search(query_struct, [:index1, :index2]) ，请参阅test/e2e_test.exs和test/query_test.exs有关示例。

要获得 Cedrik 理解的query_struct ，有一个简单（且不完整）的字符串解析器： Query.Parse.parse/1 。它将标记字符串，然后相应地构造术语和通配符查询结构。术语和通配符将包含在布尔值中，位于必须字段内。

全部匹配

此查询将返回指定索引中的所有文档 ID。

学期

TermQuery 只是返回包含给定术语的文档 ID（以及该文档中术语的位置）。您可以准确指定要查找的字段或所有字段（这是默认值）。

布尔值

使用 BooleanQuery 您可以构建更高级的查询。 must 、 optional和must_not

通配符

此查询可以帮助扩大您的点击量。例如，值为"foo*"通配符查询同时匹配 foo 和 foobar。请注意，目前仅支持单个通配符，前导 ( *foo ) 或尾随 ( foo* )

靠近

结果

目前， Search.search/2的结果将为您提供一个元组列表，如下所示： {doc_id, #MapSet<[%Location{field: :field, position: x}]>}按点击次数最多的内容排序第一的。

领域

排行

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2024-12-26
大小 23.06KB
来自于 Github

cedrik

塞德里克

（计划的）功能

用法

测试

索引

代理索引

Redis索引

代币化

查询

全部匹配

学期

布尔值

通配符

靠近

结果

领域

排行

waymo open dataset

SmartTube

Sunamu

MySchedule.py

viptools for eslam

VITAident

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind