Für das Abrufen und Berechnen sozialer Informationen sind die folgenden Funktionen erforderlich:
TFIDF: Wenn Sie einen nach Ihnen benannten Ordner haben, crawlen Sie bitte eine bestimmte Anzahl von Webseiten und Weibo, um eine Korpussammlung zu bilden, und speichern Sie sie im Ordner. Führen Sie online TFIDF-Statistiken für die darin enthaltenen Wörter durch und geben Sie sie in eine Datei aus. Das Dateispeicherverzeichnis ist app/tfidf/tfidf_result
.
SIM: Geben Sie im Online-Zustand zwei beliebige Sätze von der Webseite ein und ermitteln Sie deren Ähnlichkeit, einschließlich dreier Messmethoden: inneres Produkt, Kosinus und Jaccard.
SJet: Implementierung einer Suchmaschine basierend auf dem Vector Space Model (VSM).
Öffnen Sie das Terminal im Projektstammverzeichnis
Verwenden Sie den folgenden Befehl, um die virtuelle Python-Umgebung zu aktivieren
source venv/bin/activate
Führen Sie das Programm mit dem folgenden Befehl aus
python hello.py runserver
Besuchen Sie 127.0.0.1:5000
net_ease_roll.py
Reptil. Der gecrawlte Inhalt umfasst die nationalen, internationalen und sozialen Bereiche der NetEase-Laufnachrichten mit insgesamt 416 Nachrichtenartikeln. Die Crawler-Ausführungsumgebung ist Windows.
tfidf_calc.py
Führen Sie eine Wortsegmentierungsvorverarbeitung für den gecrawlten Nachrichtentext durch.
config.py
Speicherkonfiguration.
hallo.py
Wird zum Starten von Programmen und anderen Aufgabenprogrammen verwendet.
App
__init__.py
Flask-Projektdateien
sim
Implementieren Sie den SIM-Funktionsentwurf. Der spezifische Algorithmus ist in der Datei „views.py“ in diesem Ordner implementiert.
sjet
Implementieren Sie den Sjet-Funktionsentwurf. Der spezifische Algorithmus ist in der Datei „views.py“ in diesem Ordner implementiert.
tfidf
Implementieren Sie den TFIDF-Funktionsentwurf. Der spezifische Algorithmus ist in der Datei „views.py“ in diesem Ordner implementiert.
Vorlagen
Frontend-Vorlage. Die Vorlage verwendet die Jinja2-Vorlagen-Engine für das Front-End-Rendering.