As tarefas de recuperação e cálculo de informações sociais requerem as seguintes funções:
TFIDF: Dada uma pasta com seu nome, rastreie um certo número de páginas da web e do Weibo para formar uma coleção de corpus e armazene-a na pasta, execute estatísticas TFIDF sobre as palavras nela contidas e envie-as para um arquivo. O diretório de armazenamento de arquivos é app/tfidf/tfidf_result
.
SIM: No estado online, insira duas frases quaisquer da página da web e encontre sua semelhança, incluindo três métodos de medição: produto interno, cosseno e Jaccard.
SJet: Implementando um mecanismo de busca baseado no Modelo de Espaço Vetorial (VSM).
Abra o terminal no diretório raiz do projeto
Use o seguinte comando para ativar o ambiente virtual python
source venv/bin/activate
Execute o programa com o seguinte comando
python hello.py runserver
Acesso 127.0.0.1:5000
net_ease_roll.py
réptil. O conteúdo rastreado inclui as seções nacionais, internacionais e sociais das notícias de rolagem da NetEase, com um total de 416 artigos de notícias. O ambiente de execução do rastreador é o Windows.
tfidf_calc.py
Execute o pré-processamento de segmentação de palavras no texto de notícias rastreado.
config.py
Configuração de armazenamento.
olá.py
Usado para iniciar programas e outros programas de tarefas.
aplicativo
__init__.py
Arquivos de projeto Flask
sim
Implemente o modelo da função SIM O algoritmo específico é implementado no arquivo views.py nesta pasta.
jato
Implementar o blueprint da função Sjet O algoritmo específico é implementado no arquivo views.py nesta pasta.
tfidf
Implementar o modelo da função TFIDF O algoritmo específico é implementado no arquivo views.py nesta pasta.
modelos
Modelo de front-end. O modelo usa o mecanismo de modelo Jinja2 para renderização front-end.