تتطلب مهام استرجاع المعلومات الاجتماعية وحسابها الوظائف التالية:
TFIDF: بالنظر إلى مجلد يحمل اسمك، يرجى الزحف إلى عدد معين من صفحات الويب وWeibo لتشكيل مجموعة من النصوص وتخزينها في المجلد؛ وإجراء إحصائيات TFIDF على الكلمات الموجودة فيه عبر الإنترنت وإخراجها إلى ملف . دليل تخزين الملفات هو app/tfidf/tfidf_result
.
SIM: في حالة الاتصال بالإنترنت، أدخل أي جملتين من صفحة الويب وابحث عن أوجه التشابه بينهما، بما في ذلك ثلاث طرق للقياس: المنتج الداخلي وجيب التمام وجاكار.
SJet: تنفيذ محرك بحث يعتمد على نموذج الفضاء المتجه (VSM).
افتح المحطة في الدليل الجذر للمشروع
استخدم الأمر التالي لتنشيط بيئة بايثون الافتراضية
source venv/bin/activate
قم بتشغيل البرنامج باستخدام الأمر التالي
python hello.py runserver
قم بزيارة 127.0.0.1:5000
net_ease_roll.py
الزواحف. يتضمن المحتوى الذي تم الزحف إليه الأقسام المحلية والدولية والاجتماعية لأخبار NetEase، مع إجمالي 416 مقالة إخبارية. بيئة تشغيل الزاحف هي Windows.
tfidf_calc.py
قم بإجراء المعالجة المسبقة لتجزئة الكلمات على نص الأخبار الذي تم الزحف إليه.
config.py
تكوين التخزين.
hello.py
يستخدم لبدء البرامج وبرامج المهام الأخرى.
برنامج
__init__.py
ملفات مشروع قارورة
سيم
قم بتنفيذ مخطط وظيفة SIM، ويتم تنفيذ الخوارزمية المحددة في ملف view.py ضمن هذا المجلد.
com.sjet
قم بتنفيذ مخطط وظيفة Sjet، ويتم تنفيذ الخوارزمية المحددة في ملف view.py ضمن هذا المجلد.
com.tfidf
قم بتنفيذ مخطط وظيفة TFIDF، ويتم تنفيذ الخوارزمية المحددة في ملف view.py ضمن هذا المجلد.
قوالب
قالب الواجهة الأمامية. يستخدم القالب محرك قالب Jinja2 لعرض الواجهة الأمامية.