jesterj Unduh - jesterj Unduh kode sumber

jesterj

Kode sumber lainnya

1.0.0

Unduh

JesterJ

Sistem penyerapan dokumen yang sangat fleksibel, terukur, dan toleran terhadap kesalahan yang dirancang untuk pencarian.

Pembangunan dijalankan pada infrastruktur yang disumbangkan oleh

Masalahnya

Seringkali, proyek pencarian dimulai dengan memasukkan beberapa dokumen secara manual ke mesin pencari, sering kali melalui fitur pemrosesan bawaan Solr "hanya untuk pengujian" seperti SolrCell atau post.jar. Fitur-fitur ini didokumentasikan dan disertakan untuk membantu pengguna merasakan apa yang dapat mereka lakukan dengan Solr dengan pengaturan minimal yang sulit.

Ini bagus dan begitulah seharusnya dalam eksplorasi pertama. Sayangnya hal ini juga berpotensi menjadi jebakan.

Terlalu sering, pengguna yang tidak tahu apa-apa, dan mungkin disesatkan oleh fakta bahwa antarmuka ini didokumentasikan dalam manual referensi (dan menganggap apa pun yang didokumentasikan pasti merupakan "cara yang benar" untuk melakukannya) terus mengembangkan sistem pencarian mereka dengan mengotomatiskan penggunaan antarmuka yang sama. Agar adil bagi para pengguna tersebut, beberapa versi lama dari panduan Solr Ref gagal mengidentifikasi sifat antarmuka yang "hanya untuk pengujian", terkadang karena komunitas memerlukan waktu beberapa saat untuk menyadari kendala yang terkait dengannya.

Sayangnya, penyerapan dokumen dalam skala besar untuk pencarian bukanlah hal yang sepele dan antarmuka pengindeksan tersebut tidak dimaksudkan untuk penggunaan produksi. Hasil yang biasa terjadi adalah ia berfungsi "baik" untuk korpus pengujian kecil dan kemudian menjadi tidak stabil pada korpus produksi yang lebih besar. Kode yang ditulis untuk dimasukkan ke dalam antarmuka seperti itu sering kali perlu diulang untuk beberapa jenis dokumen atau untuk berbagai format dokumen, dan dapat dengan mudah menyebabkan duplikasi dan penyalinan potong dan tempel dari fungsi umum. Selain itu, setelah menginvestasikan banyak rekayasa agar solusi tersebut berfungsi pada korpus besar, hal berikutnya yang mereka temukan adalah bahwa mereka tidak memiliki cara untuk memulihkan jika pengindeksan gagal di tengah jalan. Dalam kasus terburuk, kegagalan terkait dengan ukuran korpus dan kegagalan menjadi semakin umum seiring dengan pertumbuhan korpus hingga peluang untuk menyelesaikan dan menjalankan pengindeksan menjadi kecil dan sistem pada akhirnya tidak dapat diindeks atau ditingkatkan sama sekali jika masalah dibiarkan. membusuk. Hasilnya adalah serangkaian rasa sakit pertumbuhan yang mengerikan, menyakitkan, dan berpotensi mahal.

Solusi JesterJ

JesterJ berupaya untuk mempermudah memulai dengan infrastruktur pengindeksan berfitur lengkap yang kuat, sehingga Anda tidak perlu memikirkan kembali hal tersebut. JesterJ dimaksudkan sebagai sistem yang tidak perlu Anda tinggalkan sampai Anda bekerja dengan dokumen dalam jumlah yang sangat besar (dan mudah-mudahan pada saat itu Anda sudah menghasilkan keuntungan besar yang dapat membayar solusi khusus yang besar!). Berbagai komponen pemrosesan yang dapat digunakan kembali disediakan dan menulis prosesor khusus Anda sendiri semudah menerapkan antarmuka 4 metode dengan mengikuti beberapa panduan sederhana.

Seringkali versi pertama dari sistem untuk mengindeks dokumen ke Solr atau mesin pencari lainnya cukup linier dan lurus ke depan, namun seiring berjalannya waktu, fitur dan penyempurnaan sering kali menambah kompleksitas. Di lain waktu, sistem ini rumit sejak awal, mungkin karena penelusuran ditambahkan ke sistem yang sudah ada. JesterJ dirancang untuk menangani skenario pengindeksan yang kompleks. Pertimbangkan alur kerja pengindeksan hipotetis berikut:

JesterJ menangani skenario seperti itu dengan satu rencana pemrosesan terpusat, dan akan memastikan bahwa jika sistem dicabut, Anda tidak akan mendapatkan pesan kedua tentang pesanan yang diterima. Mode default untuk JesterJ adalah memastikan pengiriman paling banyak satu kali untuk langkah-langkah yang tidak ditandai aman atau idempoten. Langkah-langkah aman tidak memiliki efek eksternal, dan langkah-langkah idempoten dapat diulangi dalam perjalanan ke titik akhir pemrosesan akhir.

Lihat situs web dan dokumentasi untuk info lebih lanjut

Memulai

Silakan lihat dokumentasi di wiki

Status Proyek

Rilis saat ini : 1.0-Beta3. Ini adalah versi terbaik untuk digunakan, dan sebagian besar berfungsi. (masalah umum: #189)

Rilis Berikutnya: 1.0-Beta4 akan segera diterbitkan jika tidak ditemukan masalah serius dalam waktu dua minggu 1.0 akan dirilis.

CATATAN: Kode saat ini dan rilis 1.0 mendatang menargetkan desain dan beban apa pun yang dapat dilayani oleh satu mesin. JesterJ secara eksplisit dirancang untuk memanfaatkan mesin dengan banyak prosesor. Anda dapat merancang rencana Anda dengan duplikat langkah paling lambat untuk mengurangi kemacetan. Setiap duplikat menyiratkan thread tambahan yang mengerjakan langkah itu. Penskalaan thread otomatis direncanakan untuk versi 1.1 dan Penskalaan di banyak mesin merupakan prioritas utama untuk rilis 2.x. Seperti biasa, jika Anda menginginkan fitur ini lebih cepat, silakan mulai diskusi dan sumbangkan PR jika Anda mampu!

versi JDK

Saat ini hanya JDK 11 yang telah diuji secara rutin. Distribusi JDK 11 apa pun harus berfungsi. Dukungan untuk Java 17 dan versi LTS mendatang direncanakan untuk rilis mendatang.

Server Perselisihan

Diskusikan fitur, ajukan pertanyaan, dll di Discord: https://discord.gg/RmdTYvpXr9

Fitur:

Dalam rilis ini kami memiliki beberapa fitur berikut

Kemampuan untuk memvisualisasikan struktur rencana Anda (format .dot atau .png: contoh dari pengujian unit di sini)
Pemindai sistem file sederhana untuk drive yang dipasang secara lokal (pengganti post.jar)
Pemindai JDBC (pengganti Data Import Handler!)
Pemindai dapat mengingat dokumen apa yang telah mereka lihat (atau tidak, boolean flag)
Pemindai dapat mengenali konten yang diperbarui (atau tidak, tanda boolean)
Kirim ke prosesor Solr dengan ukuran batch yang dapat disesuaikan
Prosesor Tika untuk mengekstrak konten dari Word/PDF/xml/html, dll (Pengganti SolrCell!)
Prosesor ekstrak stax untuk membedah dokumen xml secara langsung.
Salin pemroses bidang untuk mengganti nama bidang sumber ke bidang indeks yang diinginkan
Regexp mengganti prosesor untuk mengedit konten bidang, atau menghapus bidang yang tidak cocok
Pisahkan pemroses bidang untuk membagi nilai yang dibatasi untuk bidang multi-nilai
Jatuhkan pemroses lapangan untuk menghilangkan kelebihan bidang yang mengganggu.
Pemroses template lapangan untuk menyusun konten lapangan menggunakan template kecepatan
Pemroses penyandian URL untuk menyandikan nilai suatu bidang dan membuatnya aman untuk digunakan dalam URL
Ambil pemroses URL untuk memperoleh atau meningkatkan konten dengan menghubungi sistem lain
Catat dan jatuhkan prosesor ketika Anda mengidentifikasi dokumen yang tidak valid
Tanggal Memformat ulang prosesor, karena tanggal, memformat... selalu. ( mendesah )
Prosesor Ukuran File yang Dapat Dibaca Manusia
Pengirim solr untuk mengirim dokumen ke solr secara berkelompok.
Prosesor Pra-Analisis untuk memindahkan beban kerja analisis Solr dari Solr (berikan saja skema.xml Anda!)
Server Cassandra tertanam (tidak perlu menginstal cassandra sendiri!)
Konfigurasi Cassandra dan lokasi data dapat dikonfigurasi, defaultnya adalah ~/.jj/cassandra
Dukungan untuk peristiwa perubahan status penulisan toleransi kesalahan ke server cassandra tertanam
API/proses awal untuk pemroses dokumen tertulis pengguna. (lihat dokumentasi)
Cakupan tes 60% (jacoco)
File java tunggal yang sederhana untuk mengonfigurasi semuanya, pemrogram non-java hanya perlu mengikuti contoh sederhana (untuk kasus penggunaan yang tidak memerlukan kode khusus)
Jika Anda MEMBUTUHKAN kode khusus, kode tersebut dapat dikemas sebagai uno-jar untuk menyediakan semua dependensi yang diperlukan dan keluar dari versi perpustakaan apa pun yang digunakan JesterJ! Anda hanya perlu berurusan dengan toples neraka Anda SENDIRI, bukan neraka kami! Tentu saja, Anda juga bisa mengandalkan apa pun yang sudah kami sediakan juga. Pemuat kelas untuk kode khusus lebih memilih uno-jar Anda dan kemudian kembali secara default ke JesterJ apa pun yang tersedia di jalur kelasnya.
Contoh yang dapat dijalankan untuk menjalankan rencana yang memindai sistem file, dan mengindeks dokumen di solr.

TODO untuk rilis final 1.0

Masalah yang tersisa
Rilis beta, pengujian.

Rilis 1.0 dimaksudkan agar dapat digunakan untuk sistem node tunggal, dan oleh karena itu cocok untuk digunakan pada proyek skala kecil hingga menengah (puluhan juta atau mungkin ratusan juta dokumen).