Instal .NET
Unduh Proyek ini.
Berlari
cd FTServer
dotnet run -c Release
Buka http://127.0.0.1:5066/
Tekan [Ctrl+C] untuk mematikan.
Masukkan URL Lengkap untuk mengindeks Halaman, lalu cari.
Pindahkan halaman ke depan dengan mengindeks ulang halaman.
[Word1 Word2 Word3] => teks memiliki Word1 dan Word2 dan Word3
["Word1 Word2 Word3"] => teks memiliki "Word1 Word2 Word3" secara keseluruhan
Cari [https] atau [http] => dapatkan hampir semua halaman
Unduh Kode Visual Studio
iBoxDB
Sudut Tajam
Semantik-UI
Urutan hasil berdasarkan nomor id() di kelas PageText , urutan menurun.
Sebuah Halaman memiliki banyak PageText. jika tidak memerlukan banyak Teks, ubah Html.getDefaultTexts(Page) , kembalikan hanya satu PageText (teks deskripsi halaman saja, Config.DescriptionOnly=true ).
metode Page.GetRandomContent() digunakan untuk menjaga agar Search-Page-Content selalu berubah, tidak mempengaruhi urutan PageText sebenarnya.
Gunakan nomor ID untuk mengontrol urutan alih-alih memuat semua halaman ke memori.
pencarian (... Kata kunci string, startId panjang, hitungan panjang )
startId => ID mana (id saat Anda membuat PageText) untuk memulai, gunakan (startId=Long.MaxValue) untuk membaca dari atas, urutan menurun
count => catatan yang akan dibaca, parameter penting , kecepatan pencarian bergantung pada parameter ini, bukan seberapa besar datanya.
atur startId sebagai id terakhir dari hasil pencarian dikurangi satu
startId = search ( " keywords " , startId , count ) ;
nextpage_startId = startId - 1 // this 'minus one' has done inside search()
.. .
//read next page
search ( " keywords " , nextpage_startId , count )
sebagian besar, nextpage_startId diposting dari browser klien ketika pengguna mencapai akhir halaman web, dan menyetel default nextpage_startId=Long.MaxValue, dalam javascript angka besar harus ditulis sebagai String ("'" + nextpage_startId + "'")
Membuka
public Page Html . Get ( String url ) ;
Atur teks Situs Web pribadi Anda
Page page = new Page ( ) ;
page . url = url ;
page . title = title ;
page . text = bodyText
page.. . = .. .
return page ;
Mengatur Indeks Readonly Cache (Readonly_MaxDBCount) dari FTServer/Code/Config.cs .
[user@localhost ~ ]$ cat /proc/sys/fs/file-max
803882
[user@localhost ~ ]$ ulimit -a | grep files
open files (-n) 500000
[user@localhost ~ ]$ ulimit -Hn
500000
[user@localhost ~ ]$ ulimit -Sn
500000
[user@localhost ~ ]$
$ vi /etc/security/limits.conf
* hard nofile 500000
* soft nofile 500000
root hard nofile 500000
root soft nofile 500000
[user@localhost ~ ]$ firewall-cmd --add-port=5066/tcp --permanent
Mengapa Tracker menghabiskan sumber daya di PC saya?
[user@localhost ~ ]$ tracker daemon -k
[user@localhost project]$ tracker reset --hard
Transplantasi dari Pencarian Teks Lengkap Versi Java JSP