Les tâches de récupération et de calcul d'informations sociales nécessitent les fonctions suivantes :
TFIDF : étant donné un dossier portant votre nom, veuillez explorer un certain nombre de pages Web et Weibo pour former une collection de corpus et la stocker dans le dossier ; effectuez des statistiques TFIDF sur les mots qu'il contient en ligne et exportez-les dans un fichier. Le répertoire de stockage des fichiers est app/tfidf/tfidf_result
.
SIM : à l'état en ligne, saisissez deux phrases quelconques de la page Web et recherchez leur similarité, y compris trois méthodes de mesure : produit scalaire, cosinus et Jaccard.
SJet : Implémentation d'un moteur de recherche basé sur le Vector Space Model (VSM).
Ouvrez le terminal dans le répertoire racine du projet
Utilisez la commande suivante pour activer l'environnement virtuel python
source venv/bin/activate
Exécutez le programme avec la commande suivante
python hello.py runserver
Accès 127.0.0.1:5000
net_ease_roll.py
reptile. Le contenu analysé comprend les sections nationales, internationales et sociales des actualités défilantes de NetEase, avec un total de 416 articles d'actualité. L’environnement d’exécution du robot est Windows.
tfidf_calc.py
Effectuez un prétraitement de segmentation de mots sur le texte d’actualité analysé.
config.py
Configuration du stockage.
bonjour.py
Utilisé pour démarrer des programmes et autres programmes de tâches.
application
__init__.py
Fichiers de projet Flask
sim
Implémentez le plan de la fonction SIM. L'algorithme spécifique est implémenté dans le fichier vues.py sous ce dossier.
sjet
Implémentez le plan de la fonction Sjet. L'algorithme spécifique est implémenté dans le fichier vues.py sous ce dossier.
tfidf
Implémentez le plan de la fonction TFIDF. L'algorithme spécifique est implémenté dans le fichier vues.py sous ce dossier.
modèles
Modèle frontal. Le modèle utilise le moteur de modèles Jinja2 pour le rendu frontal.