Загрузка jesterj - Загрузка исходного кода jesterj

jesterj

Другой исходный код

1.0.0

Скачать

JesterJ

Очень гибкая, масштабируемая, отказоустойчивая система приема документов, предназначенная для поиска.

Сборки выполняются на инфраструктуре, любезно предоставленной

Проблема

Часто проекты поиска начинаются с ручной подачи нескольких документов в поисковую систему, часто с помощью «только для тестирования», встроенных в Solr функций обработки, таких как SolrCell или post.jar. Эти функции задокументированы и включены, чтобы помочь пользователю понять, что он может делать с Solr с минимальной трудоемкой настройкой.

Это хорошо, и так должно быть при первых исследованиях. К сожалению, это также потенциальная ловушка.

Слишком часто пользователи, которые не знают ничего лучшего и, возможно, введены в заблуждение тем фактом, что эти интерфейсы задокументированы в справочном руководстве (и предполагают, что все задокументированное должно быть «правильным» способом) продолжают развивать свою поисковую систему. путем автоматизации использования тех же интерфейсов. Справедливости ради стоит отметить, что некоторые старые версии руководства Solr Ref не смогли определить характер интерфейса «только для тестирования», иногда потому, что сообществу требовалось время, чтобы осознать связанные с ним подводные камни.

К сожалению, крупномасштабный прием документов для поиска является нетривиальной задачей, и эти интерфейсы индексирования не предназначены для производственного использования. Обычно в результате он работает «нормально» для небольшого тестового корпуса, а затем становится нестабильным в более крупном производственном корпусе. Код, написанный для таких интерфейсов, часто необходимо повторять для нескольких типов документов или для различных форматов документов, что может легко привести к дублированию и копированию общих функций. Кроме того, после значительных инвестиций в разработку, чтобы заставить такие решения работать на большом массиве данных, следующее, что они обнаружили, — это то, что у них нет возможности восстановиться, если индексирование завершится неудачно. В худших случаях сбой связан с размером корпуса, и сбои становятся все более распространенными по мере роста корпуса до тех пор, пока вероятность завершения и запуска индексации не станет малой, и система в конечном итоге вообще не сможет быть проиндексирована или обновлена, если проблема разрешена. гноиться. Результатом является ужасная, болезненная и потенциально дорогостоящая проблема роста.

Решение JesterJ

JesterJ стремится облегчить начало работы с помощью надежной полнофункциональной инфраструктуры индексирования, чтобы вам не приходилось изобретать велосипед заново. JesterJ задуман как система, от которой вам не придется отказываться, пока вы не начнете работать с чрезвычайно большим количеством документов (и, будем надеяться, к этому моменту вы уже получаете хорошую прибыль, которая может окупить большое индивидуальное решение!). Предоставляются различные повторно используемые компоненты обработки, а написать свои собственные процессоры так же просто, как реализовать интерфейс из 4 методов, следуя некоторым простым рекомендациям.

Часто первая версия системы индексации документов в Solr или другой поисковой системе довольно линейна и понятна, но с течением времени функции и улучшения часто усложняют систему. В других случаях система сложна с самого начала, возможно, потому, что поиск добавляется к существующей системе. JesterJ предназначен для обработки сложных сценариев индексирования. Рассмотрим следующий гипотетический рабочий процесс индексирования:

JesterJ обрабатывает такие сценарии с помощью единого централизованного плана обработки и гарантирует, что в случае отключения системы вы не получите второго сообщения о полученном заказе. Режим по умолчанию для JesterJ обеспечивает не более одного раза доставку шагов, которые не помечены как безопасные или идемпотентные. Безопасные шаги не имеют внешних эффектов, а идемпотентные шаги могут повторяться по пути к конечной точке обработки.

Дополнительную информацию см. на веб-сайте и в документации.

Начиная

Пожалуйста, ознакомьтесь с документацией в вики.

Статус проекта

Текущая версия : 1.0-Beta3. Это лучшая версия для использования, и она должна быть в основном функциональной. (известная проблема: № 189)

Следующий выпуск: 1.0-Beta4 будет опубликована в ближайшее время, если не будет обнаружено серьезных проблем, в течение двух недель. Будет выпущена версия 1.0.

ПРИМЕЧАНИЕ. Текущий код и предстоящая версия 1.0 предназначены для любой конструкции и нагрузки, которые могут обслуживаться одной машиной. JesterJ специально разработан для использования машин с множеством процессоров. Вы можете разработать свой план, используя дубликаты самого медленного шага, чтобы устранить узкие места. Каждый дубликат подразумевает дополнительный поток, работающий на этом этапе. Автоматическое масштабирование потоков запланировано в версии 1.1, а масштабирование на многих машинах является ключевым приоритетом для версий 2.x. Как всегда, если вы хотите получить эти функции раньше, начните обсуждение и, если можете, поделитесь своим мнением!

Версии JDK

В настоящее время регулярно тестируется только JDK 11. Любой дистрибутив JDK 11 должен работать. Поддержка Java 17 и будущих версий LTS запланирована в будущих выпусках.

Дискорд-сервер

Обсуждайте функции, задавайте вопросы и т. д. в Discord: https://discord.gg/RmdTYvpXr9

Функции:

В этом выпуске у нас есть следующие функции

Возможность визуализировать структуру вашего плана (формат .dot или .png: пример из модульных тестов здесь)
Простой сканер файловой системы для локально смонтированных дисков (замена post.jar)
Сканер JDBC (замена обработчика импорта данных!)
Сканеры могут запомнить, какие документы они видели (или нет, логический флаг).
Сканеры могут распознавать обновленный контент (или нет, логический флаг)
Отправка в процессор Solr с настраиваемыми размерами пакетов.
Процессор Tika для извлечения контента из Word/PDF/xml/html и т. д. (замена SolrCell!)
Процессор извлечения Stax для непосредственного анализа XML-документов.
Скопируйте обработчик полей, чтобы переименовать исходные поля в нужное индексное поле.
Regexp заменяет процессор для редактирования содержимого поля или удаляет несовпадающие поля.
Процессор разделения полей для разделения значений с разделителями для полей с несколькими значениями
Отбросьте процессор полей, чтобы избавиться от раздражающих лишних полей.
Процессор шаблонов полей для составления содержимого поля с использованием шаблона скорости.
Процессор кодирования URL-адресов для кодирования значения поля и обеспечения его безопасности для использования в URL-адресах.
Получите процессор URL-адресов для получения или улучшения контента путем обращения к другим системам.
Зарегистрируйте и удалите процессор на случай, если вы обнаружите недействительный документ.
Процессор переформатирования даты, потому что даты, форматирование... всегда. ( вздох )
Процессор размера файла, читаемого человеком
Solr sender для пакетной отправки документов в Solr.
Процессор предварительного анализа для перемещения рабочей нагрузки анализа Solr из Solr (просто дайте ему свой файл Schema.xml!)
Встроенный сервер Cassandra (не нужно устанавливать Cassandra самостоятельно!)
Конфигурация Cassandra и расположение данных настраиваются, по умолчанию ~/.jj/cassandra
Поддержка отказоустойчивой записи событий изменения статуса на встроенный сервер cassandra.
Начальный API/процесс для обработчиков пользовательских документов. (см. документацию)
60 % покрытие тестами (jacoco)
Простой один Java-файл для настройки всего, программистам, не владеющим Java, достаточно следовать простому примеру (для случаев использования, не требующих специального кода).
Если вам ДЕЙСТВИТЕЛЬНО нужен собственный код, этот код можно упаковать в виде uno-jar, чтобы обеспечить все необходимые зависимости и избежать любых версий библиотек, которые использует JesterJ! Вам придется иметь дело только со своим СОБСТВЕННЫМ адским адом, а не с нашим! Конечно, вы также можете просто положиться на то, что мы уже предоставляем. Загрузчики классов для пользовательского кода предпочитают ваш uno-jar, а затем по умолчанию возвращаются к тому, что JesterJ имеет в своем пути к классам.
Запускаемый пример для выполнения плана сканирования файловой системы и индексации документов в solr.

TODO для финальной версии 1.0

Остающиеся проблемы
Бета-релиз, тестирование.

Версия 1.0 предназначена для использования в одноузловых системах и, следовательно, пригодна для использования в проектах малого и среднего размера (десятки миллионов или, возможно, несколько сотен миллионов документов).