Berisi tugas yang diselesaikan untuk kursus CSCI572 di University of Southern California.
Bahasa: Python 3.7
I/P : Kumpulan Kueri dan 10 Hasil Google teratas yang terkait
O/P : Koefisien Spearman untuk setiap kueri yang membandingkan Hasil Google dan Bing
Bahasa : Jawa 11
Perpustakaan : crawler4j
I/P : Nama domain situs web yang akan dirayapi
O/P : Daftar URL yang diambil beserta statistiknya
Bahasa : Jawa 11
Perpustakaan: Apache Hadoop
Sistem : Google Cloud, Microsoft Azure I/P : Daftar URL yang akan diindeks
O/P : Mengindeks file untuk Unigram dan Bigram untuk URL
Bahasa : Java 11, Python 3.7, HTML, CSS, PHP, JavaScript, JQuery
Perpustakaan: Apache Lucene, Apache Solr, Apache Tika, NetworkX, jsoup, SpellCorrector PeterNorvig
Fungsi :
1. Perhitungan peringkat halaman :
Menggunakan jsoup di Java untuk mengurai semua tautan dari halaman web yang dirayapi untuk membuat file EdgeList.
Memanfaatkan NetworkX dengan Python untuk membuat Directed Graph dari EdgeList dan menghitung nilai Page Rank untuk semua URL.
2. Pengaturan Lucene dan Solr :
Membuat inti Solr untuk Merayapi file html dan menghasilkan indeks Terbalik secara efisien.
Pilih Perintah di Solr mengambil halaman web untuk kueri yang diberikan. Ini secara internal menggunakan ruang Vektor Lucene dan representasi Model Boolean dan mengurutkan hasilnya dengan TF-IDF.
Menyediakan fungsionalitas tambahan untuk mengurutkan hasil halaman web dengan nilai peringkat Halaman yang dihitung sebelumnya.
3. Halaman Web Mesin Pencari Iditom :
Mengembangkan kode PHP untuk bertindak sebagai Klien untuk mendapatkan Kueri dari pengguna. Pengguna dapat memilih untuk menggunakan algoritme Peringkat default Lucene atau algoritme Peringkat Halaman untuk Menyortir hasil yang diambil. Menggunakan API Klien ke Solr, hasil halaman web diambil untuk Kueri.
Antarmuka web seperti Google disediakan.
4. Periksa Ejaan dan Pelengkapan Otomatis :
Membuat file teks kosakata setelah menguraikan dan memproses kata-kata dari halaman web yang dirayapi menggunakan Apache Tika.
Memanfaatkan algoritme SpellCorrector Peter-Norvig dan memasukkan kosakata ini untuk menghitung probabilitas Edit Jarak 1 dan 2.
Menambahkan fungsionalitas Periksa Ejaan ke Mesin Pencari Iditom, meniru Google (Menampilkan Hasil untuk __ , Sebaliknya Pencarian untuk __ ).
Menggunakan hasil Pelengkapan Otomatis default Solr yang menggunakan pencarian Fuzzy Factory untuk saran kata.
Lihat Video Mesin Pencari di sini - https://youtu.be/lYZ_SdsIX3A