jesterj下载 - jesterj源码下载

jesterj

其他源码

1.0.0

下载

小丑

专为搜索而设计的高度灵活、可扩展、容错的文档摄取系统。

构建是在以下机构善意捐赠的基础设施上运行的

问题

通常，搜索项目首先会手动向搜索引擎提供一些文档，通常是通过 Solr 内置的“仅用于测试”的处理功能（例如 SolrCell 或 post.jar）。记录并包含这些功能是为了帮助用户了解他们可以通过最少的痛苦设置来使用 Solr 做什么。

这很好，初次探索就应该如此。不幸的是，这也是一个潜在的陷阱。

很多时候，不太了解的用户可能会被参考手册中记录的这些界面所误导（并假设任何记录的内容都必须是“正确的方式”），从而继续开发他们的搜索系统通过自动化使用这些相同的接口。公平地对待这些用户，一些旧版本的 Solr 参考指南未能识别接口的“仅用于测试”性质，有时是因为社区花了一段时间才意识到与之相关的陷阱。

不幸的是，大规模摄取文档进行搜索并非易事，而且这些索引接口并不适合生产使用。通常的结果是，它对于小型测试语料库工作“正常”，然后在较大的生产语料库上变得不稳定。为输入此类接口而编写的代码通常需要针对多种类型的文档或多种文档格式重复，并且很容易导致常见功能的重复以及剪切和粘贴复制。此外，在投入大量工程技术以使此类解决方案在大型语料库上运行之后，他们发现的下一件事是，如果索引中途失败，他们将无法恢复。在最坏的情况下，故障与语料库的大小有关，并且随着语料库的增长，故障变得越来越常见，直到完成和索引运行的机会很小，如果允许问题，系统最终根本无法索引或升级溃烂。其结果是一系列可怕、痛苦且可能代价高昂的成长烦恼。

JesterJ的解决方案

JesterJ 致力于让您能够轻松地开始使用强大的全功能索引基础设施，这样您就不必重新发明轮子。 JesterJ 是一个在您处理大量文档之前不需要放弃的系统（希望到那时您已经获得了可观的利润，可以支付大型定制解决方案的费用！）。提供了各种可重用的处理组件，编写您自己的自定义处理器就像遵循一些简单的指导原则实现 4 方法接口一样简单。

通常，用于将文档索引到 Solr 或其他搜索引擎的系统的第一个版本是相当线性和直接的，但随着时间的推移，功能和增强功能通常会增加复杂性。有时，系统从一开始就很复杂，可能是因为搜索被添加到现有系统中。 JesterJ 旨在处理复杂的索引场景。考虑以下假设的索引工作流程：

JesterJ 使用单个集中处理计划来处理此类场景，并将确保如果系统被拔掉，您不会收到有关收到订单的第二条消息。 JesterJ 的默认模式是确保未标记为安全或幂等的步骤最多传递一次。安全步骤没有外部影响，并且幂等步骤可以在到达最终处理端点的途中重复。

请参阅网站和文档以获取更多信息

入门

请参阅 wiki 中的文档

项目状况

当前版本：1.0-Beta3。这是最好用的版本，并且应该具有大部分功能。（已知问题：#189）

下一个版本： 1.0-Beta4将很快发布，如果两周内没有发现严重问题，1.0将发布。

注意：当前代码和即将发布的 1.0 版本针对可由单台机器提供服务的任何设计和负载。 JesterJ 明确设计为利用具有多个处理器的机器。您可以通过重复最慢的步骤来设计您的计划，以缓解瓶颈。每个重复项都意味着有一个额外的线程在该步骤上工作。 1.1 计划自动扩展线程，跨多台机器扩展是 2.x 版本的关键优先事项。与往常一样，如果您希望尽快获得这些功能，请开始讨论并在可能的情况下贡献 PR！

JDK版本

目前仅定期测试 JDK 11。 JDK 11 的任何发行版都应该可以工作。计划在未来版本中支持 Java 17 和未来的 LTS 版本。

不和谐服务器

在 Discord 上讨论功能、提出问题等：https://discord.gg/RmdTYvpXr9

特征：

在此版本中，我们具有以下功能

能够可视化计划的结构（.dot 或 .png 格式：此处来自单元测试的示例）
用于本地安装驱动器的简单文件系统扫描仪（替换 post.jar）
JDBC 扫描器（数据导入处理程序的替代品！）
扫描仪可以记住他们看过的文档（或没有看过，布尔标志）
扫描仪可以识别更新的内容（或不识别，布尔标志）
发送到 Solr 处理器，批量大小可调
Tika 处理器从 Word/PDF/xml/html 等中提取内容（SolrCell 的替代品！）
Stax 提取处理器用于直接剖析 xml 文档。
复制字段处理器以将源字段重命名为所需的索引字段
正则表达式替换处理器来编辑字段内容，或删除不匹配的字段
拆分字段处理器以拆分多值字段的分隔值
删除字段处理器以摆脱烦人的多余字段。
用于使用速度模板编写字段内容的字段模板处理器
URL 编码处理器对字段的值进行编码并使其可以安全地在 URL 中使用
获取 URL 处理器，用于通过联系其他系统来获取或增强内容
当您识别出无效文档时记录并删除处理器
日期重新格式化处理器，因为日期、格式化......总是如此。（叹气）
人类可读文件大小处理器
Solr发送器批量发送文档到solr。
预分析处理器将 Solr 分析工作负载移出 Solr（只需为其提供 schema.xml！）
嵌入式Cassandra服务器（无需自己安装cassandra！）
Cassandra 配置和数据位置可配置，默认为~/.jj/cassandra
支持容错将状态更改事件写入嵌入式 cassandra 服务器
用户编写的文档处理器的初始 API/流程。（参见文档）
60% 测试覆盖率 (jacoco)
简单的单个 java 文件即可配置所有内容，非 java 程序员只需遵循一个简单的示例（对于不需要自定义代码的用例）
如果您确实需要自定义代码，则可以将代码打包为 uno-jar 以提供所有必需的依赖项并摆脱 JesterJ 使用的任何库版本！你只需要处理你自己的罐子地狱，而不是我们的！当然，您也可以只依赖我们已经提供的任何内容。自定义代码的类加载器更喜欢您的 uno-jar，然后默认返回 JesterJ 在其类路径上可用的任何内容。
用于执行扫描文件系统并在 solr 中索引文档的计划的可运行示例。