โดย นีล เมห์ทา มหาวิทยาลัยฮาร์วาร์ด
SearchBetter ช่วยให้คุณสร้างเครื่องมือค้นหาที่มีประสิทธิภาพ รวดเร็ว และดรอปอินสำหรับชุดข้อมูลใดๆ ไม่ว่าจะเล็กหรือใหญ่แค่ไหนก็ตาม นอกจากนี้ยังมีการเขียนข้อความค้นหาใหม่ในตัว ซึ่งใช้ NLP เพื่อช่วยให้เครื่องมือค้นหาของคุณค้นหาเนื้อหาที่เกี่ยวข้องกับความหมายกับคำค้นหาของผู้ใช้
ตัวอย่างเช่น การค้นหา machine learning
อาจส่งคืนผลลัพธ์เฉพาะรายการที่มีคำว่า "แมชชีนเลิร์นนิง" เท่านั้น แต่ด้วยการเขียนคิวรีใหม่ คุณจะได้รับผลลัพธ์ไม่เพียงแต่สำหรับ machine learning
เท่านั้น แต่ยังรวมถึง artificial intelligence
และ neural networks
ด้วย
SearchBetter ช่วยให้คุณเพิ่มประสิทธิภาพเครื่องมือค้นหาของคุณโดยใช้ความพยายามเพียงเล็กน้อย มีประโยชน์อย่างยิ่งหากคุณมีชุดข้อมูลขนาดเล็กที่จะค้นหา หรือหากคุณไม่มีเวลาหรือข้อมูลในการสร้างอัลกอริธึมการเขียนคิวรีใหม่ตามความต้องการ
หากต้องการวางโมดูลนี้ลงในแอปของคุณ:
pip install searchbetter
เพื่อวัตถุประสงค์ในการวิเคราะห์และการวิจัยขั้นสูงยิ่งขึ้น ใช้การสาธิตเชิงโต้ตอบเพื่อเตรียมตัวให้พร้อม!
ลองการสาธิตแบบโต้ตอบ!
หากต้องการดำดิ่งสู่ SearchBetter อย่างรวดเร็วและสกปรกอย่างแท้จริง (ไม่จำเป็นต้องตั้งค่าใด ๆ ) ให้ใช้:
from searchbetter import rewriter
query_rewriter = rewriter . WikipediaRewriter ()
query_rewriter . rewrite ( 'biochemistry' )
เอกสารสามารถดูออนไลน์ได้ที่ http://searchbetter.readthedocs.io/
วิธีสร้างเอกสารด้วยตนเองโดยใช้ Sphinx:
cd docs
make html
open _build/html/index.html
ข้อมูลบางส่วนนี้เป็นกรรมสิทธิ์ของ Harvard และ HarvardX ข้อมูลอื่นๆ เช่น Udacity API และการถ่ายโอนข้อมูล Wikipedia เปิดให้บุคคลทั่วไปเข้าชมได้
ชื่อ | URL | จะตั้งชื่อไฟล์ว่าอะไร |
---|---|---|
ยูดาซิตี้ API | https://www.udacity.com/public-api/v0/courses | udacity-api.json |
วิกิพีเดียดัมพ์ | ดูด้านล่าง | wikiclean8 |
หลักสูตร edX | กรรมสิทธิ์ | Master CourseListings - edX.csv |
ข้อมูลโผ | กรรมสิทธิ์ | corpus_HarvardX_LatestCourses_based_on_2016-10-18.csv |
ดาวน์โหลดและแตกชุดข้อมูล enwik8
จาก http://www.mattmahoney.net/dc/enwik8.zip จากนั้นเรียกใช้:
perl processing-scripts/wiki-clean.pl enwik8 > wikiclean8
การดำเนินการนี้อาจใช้เวลาหนึ่งหรือสองนาทีในการรัน
SearchBetter ได้รับการออกแบบโดยเป็นส่วนหนึ่งของโครงการวิจัยโดย Neel Mehta, Daniel Seaton และ Dustin Tingley สำหรับ CS 91r ของ Harvard ซึ่งเป็นหลักสูตรการวิจัยด้านเครดิต
เดิมทีได้รับการออกแบบมาสำหรับ Harvard DART ซึ่งเป็นเครื่องมือที่ช่วยให้นักการศึกษานำเนื้อหา HarvardX มาใช้ซ้ำ เช่น วิดีโอและแบบฝึกหัดในหลักสูตรออนไลน์หรือออฟไลน์ SearchBetter มีประโยชน์อย่างยิ่งสำหรับ MOOC ซึ่งมักจะมีคลังข้อมูลขนาดเล็กและต้องจัดการกับข้อความค้นหาที่ไม่คุ้นเคยจำนวนมาก (นักเรียนจะค้นหาคำที่ไม่คุ้นเคยมากที่สุด) ถึงกระนั้น SearchBetter ก็ถูกสร้างขึ้นมาเพื่อจุดประสงค์ทั่วไปเพียงพอที่จะใช้กับ คลังข้อมูลหรือเครื่องมือค้นหาใด ๆ