Las tareas de cálculo y recuperación de información social requieren las siguientes funciones:
TFIDF: dada una carpeta que lleva su nombre, rastree una cierta cantidad de páginas web y Weibo para formar una colección de corpus y guárdela en la carpeta, realice estadísticas TFIDF sobre las palabras que contiene en línea y envíelas a un archivo. El directorio de almacenamiento de archivos es app/tfidf/tfidf_result
.
SIM: en el estado en línea, ingrese dos oraciones cualesquiera de la página web y encuentre su similitud, incluidos tres métodos de medición: producto interno, coseno y Jaccard.
SJet: Implementación de un motor de búsqueda basado en el Modelo de Espacio Vectorial (VSM).
Abra la terminal en el directorio raíz del proyecto.
Utilice el siguiente comando para activar el entorno virtual de Python
source venv/bin/activate
Ejecute el programa con el siguiente comando
python hello.py runserver
Acceso 127.0.0.1:5000
net_ease_roll.py
reptil. El contenido rastreado incluye las secciones nacional, internacional y social de las noticias en desplazamiento de NetEase, con un total de 416 artículos de noticias. El entorno de ejecución del rastreador es Windows.
tfidf_calc.py
Realice un preprocesamiento de segmentación de palabras en el texto de noticias rastreado.
configuración.py
Configuración de almacenamiento.
hola.py
Se utiliza para iniciar programas y otros programas de tareas.
aplicación
__init__.py
Archivos de proyecto de matraz
sim
Implemente el modelo de función SIM. El algoritmo específico se implementa en el archivo views.py en esta carpeta.
sjet
Implemente el modelo de función Sjet. El algoritmo específico se implementa en el archivo views.py en esta carpeta.
tfidf
Implemente el modelo de función TFIDF. El algoritmo específico se implementa en el archivo views.py en esta carpeta.
plantillas
Plantilla de interfaz de usuario. La plantilla utiliza el motor de plantillas Jinja2 para el renderizado frontal.