Descargar jesterj - Descarga del código fuente jesterj

jesterj

Otro código fuente

1.0.0

Descargar

bufónj

Un sistema de ingesta de documentos altamente flexible, escalable y tolerante a fallas diseñado para búsqueda.

Las construcciones se ejecutan en infraestructura amablemente donada por

el problema

Con frecuencia, los proyectos de búsqueda comienzan alimentando algunos documentos manualmente a un motor de búsqueda, a menudo a través de las funciones de procesamiento integradas "solo para prueba" de Solr, como SolrCell o post.jar. Estas funciones están documentadas e incluidas para ayudar al usuario a tener una idea de lo que puede hacer con Solr con una configuración mínima y complicada.

Esto es bueno y así debería ser en las primeras exploraciones. Desafortunadamente, también es una trampa potencial.

Con demasiada frecuencia, los usuarios que no conocen nada mejor y quizás se sienten engañados por el hecho de que estas interfaces están documentadas en el manual de referencia (y asumen que todo lo documentado debe ser "la forma correcta" de hacerlo) continúan desarrollando su sistema de búsqueda. automatizando el uso de esas mismas interfaces. Para ser justos con esos usuarios, algunas versiones anteriores de la guía Solr Ref no lograron identificar la naturaleza "sólo para probar" de la interfaz, a veces porque a la comunidad le tomó un tiempo darse cuenta de los peligros asociados con ella.

Desafortunadamente, la ingesta a gran escala de documentos para búsqueda no es trivial y esas interfaces de indexación no están diseñadas para uso en producción. El resultado habitual es que funciona "bien" para un corpus de prueba pequeño y luego se vuelve inestable en un corpus de producción más grande. El código escrito para alimentar dichas interfaces a menudo debe repetirse para varios tipos de documentos o para varios formatos de documentos, y puede conducir fácilmente a la duplicación y a la copia de funciones comunes. Además, después de invertir una cantidad sustancial de ingeniería para que dichas soluciones funcionen en un corpus grande, lo siguiente que descubren es que no tienen forma de recuperarse si la indexación falla a mitad de camino. En los peores casos, la falla está relacionada con el tamaño del corpus y las fallas se vuelven cada vez más comunes a medida que el corpus crece hasta que la posibilidad de completar y ejecutar la indexación es pequeña y el sistema finalmente no se puede indexar ni actualizar en absoluto si se permite el problema. para pudrirse. El resultado es una serie de dolores de crecimiento terribles, dolorosos y potencialmente costosos.

La solución de JesterJ

JesterJ se esfuerza por facilitar el inicio con una infraestructura de indexación sólida y completa, para que no tengas que reinventar la rueda. JesterJ está destinado a ser un sistema que no necesitará abandonar hasta que esté trabajando con una cantidad extremadamente grande de documentos (¡y con suerte, en ese momento ya estará obteniendo buenas ganancias que puedan pagar una gran solución personalizada!). Se proporciona una variedad de componentes de procesamiento reutilizables y escribir sus propios procesadores personalizados es tan simple como implementar una interfaz de 4 métodos siguiendo algunas pautas simples.

A menudo, la primera versión de un sistema para indexar documentos en Solr u otro motor de búsqueda es bastante lineal y sencilla, pero a medida que pasa el tiempo, las funciones y mejoras suelen añadir complejidad. Otras veces, el sistema es complejo desde el principio, posiblemente porque la búsqueda se está agregando a un sistema existente. JesterJ está diseñado para manejar escenarios de indexación complejos. Considere el siguiente flujo de trabajo de indexación hipotético:

JesterJ maneja estos escenarios con un único plan de procesamiento centralizado y se asegurará de que si el sistema se desconecta, no recibirá un segundo mensaje sobre un pedido recibido. El modo predeterminado de JesterJ es garantizar la entrega como máximo una vez para los pasos que no están marcados como seguros o idempotentes. Los pasos seguros no tienen efectos externos y los pasos idempotentes pueden repetirse en el camino hasta el punto final del procesamiento.

Consulte el sitio web y la documentación para obtener más información.

Empezando

Por favor consulte la documentación en la wiki.

Estado del proyecto

Versión actual : 1.0-Beta3. Esta es la mejor versión para usar y debería ser en su mayoría funcional. (problema conocido: #189)

Próxima versión: 1.0-Beta4 se publicará pronto si no se encuentran problemas graves dentro de dos semanas. Se lanzará 1.0.

NOTA: El código actual y la próxima versión 1.0 apuntan a cualquier diseño y carga que pueda ser atendido por una sola máquina. JesterJ está diseñado explícitamente para aprovechar máquinas con muchos procesadores. Puede diseñar su plan con duplicados de su paso más lento para aliviar los cuellos de botella. Cada duplicado implica un hilo adicional trabajando en ese paso. El escalado automático de subprocesos está previsto para la versión 1.1 y el escalado en muchas máquinas es una prioridad clave para las versiones 2.x. Como siempre, si desea estas funciones antes, inicie una discusión y contribuya con un PR si puede.

Versiones JDK

Actualmente sólo se ha probado periódicamente JDK 11. Cualquier distribución de JDK 11 debería funcionar. Está prevista la compatibilidad con Java 17 y futuras versiones LTS para futuras versiones.

Servidor de discordia

Discuta características, haga preguntas, etc. en Discord: https://discord.gg/RmdTYvpXr9

Características:

En esta versión tenemos las siguientes características.

Capacidad para visualizar la estructura de su plan (formato .dot o .png: ejemplo de pruebas unitarias aquí)
Escáner de sistema de archivos simple para unidades montadas localmente (reemplazo de post.jar)
Escáner JDBC (¡reemplazo del controlador de importación de datos!)
Los escáneres pueden recordar qué documentos han visto (o no, bandera booleana)
Los escáneres pueden reconocer contenido actualizado (o no, bandera booleana)
Enviar al procesador Solr con tamaños de lote ajustables
Procesador Tika para extraer contenido de Word/PDF/xml/html, etc. (¡Reemplazo para SolrCell!)
Procesador de extractos Stax para diseccionar documentos xml directamente.
Copie el procesador de campo para cambiar el nombre de los campos de origen al campo de índice deseado
Regexp reemplaza el procesador para editar el contenido del campo o eliminar campos que no coinciden
Procesador de campo dividido para dividir valores delimitados para campos de valores múltiples
Suelte el procesador de campo para deshacerse del molesto exceso de campos.
Procesador de plantillas de campo para componer contenido de campo usando una plantilla de velocidad
Procesador de codificación de URL para codificar el valor de un campo y hacerlo seguro para su uso en URL
Obtener procesador de URL para adquirir o mejorar contenido contactando con otros sistemas
Registrar y descartar procesador para cuando identifique un documento no válido
Procesador de formato de fecha, porque fechas, formato... siempre. ( suspiro )
Procesador de tamaño de archivo legible por humanos
Remitente de Solr para enviar documentos a Solr en lotes.
Procesador de análisis previo para sacar la carga de trabajo de análisis de Solr de Solr (¡solo proporciónele su esquema.xml!)
Servidor Cassandra integrado (¡no es necesario instalar Cassandra usted mismo!)
Configuración de Cassandra y ubicación de datos configurables, por defecto ~/.jj/cassandra
Soporte para eventos de cambio de estado de escritura de tolerancia a fallas en el servidor cassandra integrado
API/proceso inicial para procesadores de documentos escritos por el usuario. (ver documentación)
60% de cobertura de prueba (jacoco)
Archivo Java simple y único para configurar todo; los programadores que no usan Java solo necesitan seguir un ejemplo simple (para casos de uso que no requieren código personalizado).
Si SÍ necesita un código personalizado, ese código se puede empaquetar como un archivo uno-jar para proporcionar todas las dependencias necesarias y escapar de cualquier versión de biblioteca que utilice JesterJ. ¡Solo tienes que lidiar con tu PROPIO infierno, no con el nuestro! Por supuesto, también puedes confiar en lo que ya te ofrecemos. Los cargadores de clases para código personalizado prefieren su uno-jar y luego vuelven de forma predeterminada a lo que JesterJ tenga disponible en su classpath.
Ejemplo ejecutable para ejecutar un plan que escanea un sistema de archivos e indexa los documentos en solr.

TODO para la versión final 1.0

Cuestiones pendientes
Lanzamiento beta, pruebas.

La versión 1.0 está pensada para ser utilizable en sistemas de un solo nodo y, por lo tanto, adecuada para su uso en proyectos pequeños y medianos (decenas de millones o tal vez cientos de millones de documentos).