بقلم نيل ميهتا، جامعة هارفارد
يتيح لك SearchBetter إنشاء محركات بحث قوية وسريعة وسهلة الاستخدام لأي مجموعة بيانات، مهما كانت صغيرة أو كبيرة. كما أنه يوفر إعادة كتابة الاستعلام المضمنة، والتي تستخدم البرمجة اللغوية العصبية (NLP) لمساعدة محركات البحث الخاصة بك في العثور على المحتوى المرتبط لغويًا بمصطلح بحث المستخدم.
على سبيل المثال، قد يؤدي البحث عن machine learning
إلى عرض نتائج العناصر التي تحتوي على الكلمات "التعلم الآلي" فقط. ولكن مع إعادة كتابة الاستعلام، ستحصل على نتائج ليس فقط machine learning
ولكن أيضًا، على سبيل المثال، artificial intelligence
neural networks
.
يتيح لك SearchBetter تشغيل محركات البحث الخاصة بك بأقل جهد. إنه مفيد بشكل خاص إذا كان لديك مجموعة بيانات صغيرة للبحث عنها، أو إذا لم يكن لديك الوقت أو البيانات لإنشاء خوارزميات رائعة لإعادة كتابة الاستعلام.
لإسقاط هذه الوحدة في تطبيقك:
pip install searchbetter
لمزيد من التحليلات المتقدمة وأغراض البحث، استخدم العرض التوضيحي التفاعلي لإعداد نفسك!
جرب العرض التوضيحي التفاعلي!
للتعمق سريعًا في SearchBetter (لا يتطلب أي إعداد)، استخدم:
from searchbetter import rewriter
query_rewriter = rewriter . WikipediaRewriter ()
query_rewriter . rewrite ( 'biochemistry' )
الوثائق متاحة على الإنترنت على http://searchbetter.readthedocs.io/.
لإنشاء المستندات بنفسك باستخدام Sphinx:
cd docs
make html
open _build/html/index.html
بعض هذه البيانات مملوكة لشركة Harvard وHarvardX. المعلومات الأخرى، مثل Udacity API وWikipedia dump، متاحة للعامة.
اسم | عنوان URL | ماذا اسم الملف |
---|---|---|
يوداسيتي API | https://www.udacity.com/public-api/v0/courses | udacity-api.json |
تفريغ ويكيبيديا | انظر أدناه | wikiclean8 |
دورات إيديكس | الملكية | Master CourseListings - edX.csv |
بيانات دارت | الملكية | corpus_HarvardX_LatestCourses_based_on_2016-10-18.csv |
قم بتنزيل وفك ضغط مجموعة بيانات enwik8
من http://www.mattmahoney.net/dc/enwik8.zip. ثم قم بتشغيل:
perl processing-scripts/wiki-clean.pl enwik8 > wikiclean8
قد يستغرق هذا دقيقة أو دقيقتين للتشغيل.
تم تصميم SearchBetter كجزء من مشروع بحثي قام به Neel Mehta وDaniel Seaton وDustin Tingley لصالح برنامج CS 91r بجامعة هارفارد، وهو عبارة عن دورة بحثية للحصول على ساعات معتمدة.
تم تصميمه في الأصل لـ Harvard DART، وهي أداة تساعد المعلمين على إعادة استخدام أصول HarvardX مثل مقاطع الفيديو والتمارين في دوراتهم التدريبية عبر الإنترنت أو دون الاتصال بالإنترنت. يعد SearchBetter مفيدًا بشكل خاص للمقررات الضخمة المفتوحة عبر الإنترنت (MOOCs)، والتي غالبًا ما تحتوي على مجموعات صغيرة ويتعين عليها التعامل مع العديد من الاستعلامات غير الشائعة (سيبحث الطلاب عن المصطلحات غير المألوفة على أية حال). ومع ذلك، فقد تم جعل SearchBetter للأغراض العامة بما يكفي بحيث يمكن استخدامه مع أي مجموعة أو أي محرك بحث.