jesterj 다운로드 - jesterj 소스 코드 다운로드

jesterj

기타 소스코드

1.0.0

다운로드

JesterJ

검색용으로 설계된 매우 유연하고 확장 가능하며 내결함성이 있는 문서 수집 시스템입니다.

빌드는 다음이 친절하게 기부한 인프라에서 실행됩니다.

문제

종종 검색 프로젝트는 SolrCell 또는 post.jar과 같은 Solr의 처리 기능에 내장된 "테스트용"을 통해 검색 엔진에 수동으로 몇 개의 문서를 공급하는 것으로 시작됩니다. 이러한 기능은 사용자가 최소한의 고통스러운 설정으로 Solr로 수행할 수 있는 작업에 대한 느낌을 갖도록 돕기 위해 문서화되고 포함되었습니다.

이것은 좋으며 이것이 첫 번째 탐색을 위한 방식이어야 합니다. 불행하게도 그것은 잠재적인 함정이기도 합니다.

너무 자주, 더 잘 알지 못하고 이러한 인터페이스가 참조 매뉴얼에 문서화되어 있다는 사실로 인해 오해를 받는 사용자(그리고 문서화된 모든 것이 이를 수행하는 "올바른 방법"이어야 한다고 가정)는 검색 시스템을 계속 개발합니다. 동일한 인터페이스의 사용을 자동화함으로써. 해당 사용자에게 공정하게 말하면 Solr Ref 가이드의 일부 이전 버전은 인터페이스의 "테스트용" 특성을 식별하지 못했습니다. 때로는 커뮤니티가 이와 관련된 함정을 인식하는 데 시간이 걸렸기 때문입니다.

불행하게도 검색을 위한 대규모 문서 수집은 쉽지 않으며 이러한 인덱싱 인터페이스는 프로덕션 용도로 사용되지 않습니다. 일반적인 결과는 작은 테스트 코퍼스에서는 "정상"으로 작동하다가 더 큰 프로덕션 코퍼스에서는 불안정해진다는 것입니다. 이러한 인터페이스에 제공하기 위해 작성된 코드는 여러 유형의 문서 또는 다양한 문서 형식에 대해 반복되어야 하는 경우가 많으며, 쉽게 중복되고 공통 기능을 잘라내어 붙여넣을 수 있습니다. 또한 대규모 자료에서 이러한 솔루션이 작동하도록 하기 위해 상당한 엔지니어링을 투자한 후, 다음으로 발견한 것은 인덱싱이 도중에 실패하면 복구할 방법이 없다는 것입니다. 최악의 경우 실패는 말뭉치의 크기와 관련이 있으며 말뭉치가 커짐에 따라 실패가 점점 더 일반화되고, 완료 및 인덱싱 실행 가능성이 작아지고 결국 문제가 허용되는 경우 시스템을 전혀 인덱싱하거나 업그레이드할 수 없게 됩니다. 훼손하다. 그 결과는 끔찍하고 고통스러우며 잠재적으로 비용이 많이 드는 일련의 성장통입니다.

JesterJ의 솔루션

JesterJ는 강력한 모든 기능을 갖춘 인덱싱 인프라로 쉽게 시작할 수 있도록 노력하므로 바퀴를 다시 만들 필요가 없습니다. JesterJ는 매우 많은 수의 문서로 작업할 때까지 포기할 필요가 없는 시스템입니다(그리고 그 시점에서 이미 대규모 사용자 정의 솔루션에 대한 비용을 지불할 수 있을 만큼 좋은 이익을 얻고 있기를 바랍니다!). 재사용 가능한 다양한 처리 구성요소가 제공되며 자신만의 맞춤형 프로세서를 작성하는 것은 몇 가지 간단한 지침에 따라 4가지 메소드 인터페이스를 구현하는 것만큼 간단합니다.

문서를 Solr 또는 다른 검색 엔진에 색인화하는 시스템의 첫 번째 버전은 상당히 선형적이고 간단하지만 시간이 지남에 따라 기능과 향상으로 인해 복잡성이 추가되는 경우가 많습니다. 다른 경우에는 기존 시스템에 검색이 추가되기 때문에 시스템이 처음부터 복잡할 수도 있습니다. JesterJ는 복잡한 인덱싱 시나리오를 처리하도록 설계되었습니다. 다음과 같은 가상의 인덱싱 워크플로를 고려해 보세요.

JesterJ는 단일 중앙 집중식 처리 계획으로 이러한 시나리오를 처리하며 시스템의 플러그가 뽑혀도 수신된 주문에 대한 두 번째 메시지를 받지 않도록 보장합니다. JesterJ의 기본 모드는 안전하거나 멱등성으로 표시되지 않은 단계에 대해 최대 한 번 전달을 보장하는 것입니다. 안전한 단계는 외부 영향을 미치지 않으며 멱등성 단계는 최종 처리 종료 지점까지 도중에 반복될 수 있습니다.

자세한 내용은 웹사이트 및 설명서를 참조하세요.

시작하기

위키의 문서를 참조하세요

프로젝트 현황

현재 릴리스 : 1.0-Beta3. 이것은 사용하기에 가장 좋은 버전이며 대부분 작동해야 합니다. (알려진 문제: #189)

다음 릴리스: 2주 이내에 심각한 문제가 발견되지 않으면 1.0-Beta4가 곧 게시됩니다. 1.0이 릴리스됩니다.

참고: 현재 코드와 향후 1.0 릴리스는 단일 시스템에서 서비스할 수 있는 모든 설계 및 로드를 대상으로 합니다. JesterJ는 프로세서가 많은 시스템을 활용하도록 명시적으로 설계되었습니다. 병목 현상을 완화하기 위해 가장 느린 단계를 복제하여 계획을 설계할 수 있습니다. 각 중복은 해당 단계에서 작업하는 추가 스레드를 의미합니다. 1.1에서는 스레드의 자동 크기 조정이 계획되어 있으며 여러 시스템에 걸친 크기 조정은 2.x 릴리스의 주요 우선 순위입니다. 언제나 그렇듯이, 이러한 기능을 더 빨리 원하시면 토론을 시작하고 가능하다면 PR을 제공해주세요!

JDK 버전

현재는 JDK 11만 정기적으로 테스트되었습니다. JDK 11의 모든 배포판이 작동해야 합니다. Java 17 및 향후 LTS 버전에 대한 지원은 향후 릴리스에서 계획되어 있습니다.

디스코드 서버

Discord에서 기능에 대해 토론하고 질문 등을 물어보세요: https://discord.gg/RmdTYvpXr9

특징:

이번 릴리스에는 다음과 같은 기능이 있습니다.

계획의 구조를 시각화하는 기능(.dot 또는 .png 형식: 여기에서 단위 테스트의 예)
로컬로 마운트된 드라이브를 위한 간단한 파일 시스템 스캐너(post.jar 대체)
JDBC 스캐너(데이터 가져오기 핸들러를 대체!)
스캐너는 본 문서가 무엇인지 기억할 수 있습니다(부울 플래그).
스캐너는 업데이트된 콘텐츠(또는 부울 플래그)를 인식할 수 있습니다.
조정 가능한 배치 크기로 Solr 프로세서로 보내기
Word/PDF/xml/html 등에서 콘텐츠를 추출하는 Tika 프로세서(SolrCell을 대체합니다!)
XML 문서를 직접 분석하기 위한 Stax 추출 프로세서.
소스 필드의 이름을 원하는 인덱스 필드로 바꾸려면 필드 프로세서를 복사하세요.
필드 내용을 편집하거나 일치하지 않는 필드를 삭제하기 위한 정규식 대체 프로세서
다중 값 필드에 대해 구분된 값을 분할하는 분할 필드 프로세서
성가신 초과 필드를 제거하려면 필드 프로세서를 삭제하세요.
속도 템플릿을 사용하여 필드 콘텐츠를 구성하기 위한 필드 템플릿 프로세서
필드 값을 인코딩하고 URL에서 안전하게 사용할 수 있도록 하는 URL 인코딩 프로세서
다른 시스템에 접속하여 콘텐츠를 획득하거나 강화하기 위한 URL 프로세서 가져오기
잘못된 문서를 식별할 때를 위한 로그 및 삭제 프로세서
날짜 형식 프로세서는 날짜, 형식 지정... 항상 가능하기 때문에 프로세서를 다시 포맷합니다. ( 한숨을 쉬다 )
사람이 읽을 수 있는 파일 크기 프로세서
Solr 발신자는 일괄적으로 Solr에 문서를 보냅니다.
Solr 분석 워크로드를 Solr 외부로 이동하기 위한 사전 분석 프로세서(schema.xml을 제공하기만 하면 됩니다!)
내장된 Cassandra 서버(카산드라를 직접 설치할 필요가 없습니다!)
Cassandra 구성 및 데이터 위치 구성 가능, 기본값은 ~/.jj/cassandra
내장된 Cassandra 서버에 내결함성 쓰기 상태 변경 이벤트 지원
사용자가 작성한 문서 프로세서를 위한 초기 API/프로세스입니다. (문서 참조)
60% 테스트 커버리지(jacoco)
모든 것을 구성하는 간단한 단일 Java 파일, Java가 아닌 프로그래머는 간단한 예만 따르면 됩니다(사용자 정의 코드가 필요하지 않은 사용 사례의 경우).
필요한 모든 종속성을 제공하고 JesterJ가 사용하는 모든 라이브러리 버전에서 탈출하기 위해 코드를 uno-jar로 패키징할 수 있는 사용자 정의 코드가 필요한 경우! 우리가 아닌 당신 자신의 항아리 지옥만 다루면 됩니다! 물론, 우리가 이미 제공하는 모든 것에 의존할 수도 있습니다. 사용자 정의 코드를 위한 클래스로더는 uno-jar을 선호하고 JesterJ가 클래스 경로에서 사용할 수 있는 모든 것을 기본값으로 되돌립니다.
파일 시스템을 스캔하고 solr에서 문서를 인덱싱하는 계획을 실행하는 실행 가능한 예입니다.