ประกอบด้วยงานที่ทำสำหรับหลักสูตร CSCI572 ที่ University of Southern California
ภาษา : Python 3.7
I/P : ชุดข้อความค้นหาและผลลัพธ์ Google 10 อันดับแรกที่เกี่ยวข้อง
O/P : ค่าสัมประสิทธิ์สเปียร์แมนสำหรับการค้นหาแต่ละรายการเปรียบเทียบผลลัพธ์ของ Google และ Bing
ภาษา : ชวา 11
ไลบรารี่ : crawler4j
I/P : ชื่อโดเมนเว็บไซต์ที่จะรวบรวมข้อมูล
O/P : รายการ URL ที่ดึงมาพร้อมกับสถิติ
ภาษา : ชวา 11
ห้องสมุด : Apache Hadoop
ระบบ : Google Cloud, Microsoft Azure I/P : รายการ URL ที่จะจัดทำดัชนี
O/P : ไฟล์ดัชนีสำหรับ Unigrams และ Bigrams สำหรับ URL
ภาษา : Java 11, Python 3.7, HTML, CSS, PHP, JavaScript, JQuery
ไลบรารี : Apache Lucene, Apache Solr, Apache Tika, NetworkX, jsoup, SpellCorrector ของ PeterNorvig
ฟังก์ชั่น :
1. การคำนวณอันดับหน้า:
ใช้ jsoup ใน Java เพื่อแยกวิเคราะห์ลิงก์ทั้งหมดจากหน้าเว็บที่รวบรวมข้อมูลเพื่อสร้างไฟล์ EdgeList
ใช้ NetworkX ใน Python เพื่อสร้าง Directed Graph จาก EdgeList และคำนวณค่า Page Rank สำหรับ URL ทั้งหมด
2. การตั้งค่า Lucene และ Solr:
สร้างแกน Solr เพื่อรวบรวมข้อมูลไฟล์ html และสร้างดัชนี Inverted อย่างมีประสิทธิภาพ
เลือกคำสั่งใน Solr ดึงข้อมูลหน้าเว็บสำหรับแบบสอบถามที่กำหนด ใช้พื้นที่เวกเตอร์ของ Lucene และการแสดงโมเดลบูลีนเป็นการภายใน และเรียงลำดับผลลัพธ์ด้วย TF-IDF
มีฟังก์ชันเพิ่มเติมสำหรับการเรียงลำดับผลลัพธ์ของหน้าเว็บด้วยค่าอันดับของหน้าที่คำนวณไว้ก่อนหน้านี้
3. หน้าเว็บเครื่องมือค้นหา Iditom:
พัฒนาโค้ด PHP เพื่อทำหน้าที่เป็น Client เพื่อรับ Query จากผู้ใช้ ผู้ใช้สามารถเลือกใช้อัลกอริธึมการจัดอันดับเริ่มต้นของ Lucene หรืออัลกอริธึมอันดับหน้าสำหรับการเรียงลำดับผลลัพธ์ที่ดึงมา การใช้ Client API เพื่อ Solr ผลลัพธ์ของหน้าเว็บจะถูกดึงขึ้นมาสำหรับการสืบค้น
Google เหมือนกับเว็บอินเตอร์เฟสที่มีให้
4. การตรวจสอบการสะกดและการเติมข้อความอัตโนมัติ:
สร้างไฟล์ข้อความคำศัพท์หลังจากแยกวิเคราะห์และประมวลผลคำล่วงหน้าจากหน้าเว็บที่รวบรวมข้อมูลโดยใช้ Apache Tika
ใช้อัลกอริทึม SpellCorrector ของ Peter-Norvig และป้อนคำศัพท์นี้เพื่อคำนวณความน่าจะเป็นสำหรับ Edit Distance 1 และ 2
เพิ่มฟังก์ชันตรวจสอบการสะกดให้กับ Iditom Search Engine โดยเลียนแบบ Google (แสดงผลลัพธ์สำหรับ __ , ค้นหาแทนสำหรับ __ )
ใช้ผลลัพธ์การเติมข้อความอัตโนมัติเริ่มต้นของ Solr ซึ่งใช้การค้นหา Fuzzy Factory สำหรับคำแนะนำ
ดูวิดีโอเครื่องมือค้นหาที่นี่ - https://youtu.be/lYZ_SdsIX3A