Tugas pengambilan dan penghitungan informasi sosial memerlukan fungsi berikut:
TFIDF: Diberikan folder yang dinamai menurut nama Anda sendiri, silakan jelajahi sejumlah halaman web dan Weibo untuk membentuk kumpulan korpus dan simpan di folder tersebut, lakukan statistik TFIDF pada kata-kata di dalamnya secara online dan keluarkan ke file. Direktori penyimpanan file adalah app/tfidf/tfidf_result
.
SIM: Dalam keadaan online, masukkan dua kalimat apa pun dari halaman web dan temukan kesamaannya, termasuk tiga metode pengukuran: hasil kali dalam, kosinus, dan Jaccard.
SJet: Mengimplementasikan mesin pencari berdasarkan Vector Space Model (VSM).
Buka terminal di direktori root proyek
Gunakan perintah berikut untuk mengaktifkan lingkungan virtual python
source venv/bin/activate
Jalankan program dengan perintah berikut
python hello.py runserver
Kunjungi 127.0.0.1:5000
net_ease_roll.py
reptil. Konten yang dirayapi mencakup bagian domestik, internasional, dan sosial dari berita bergulir NetEase, dengan total 416 artikel berita. Lingkungan yang menjalankan crawler adalah Windows.
tfidf_calc.py
Melakukan preprocessing segmentasi kata pada teks berita yang dirayapi.
config.py
Konfigurasi penyimpanan.
halo.py
Digunakan untuk memulai program dan program tugas lainnya.
aplikasi
__init__.py
File proyek labu
sim
Menerapkan cetak biru fungsi SIM. Algoritma spesifik diimplementasikan dalam file views.py di bawah folder ini.
jet
Menerapkan cetak biru fungsi Sjet. Algoritma spesifik diimplementasikan dalam file views.py di bawah folder ini.
tfidf
Menerapkan cetak biru fungsi TFIDF. Algoritma spesifik diimplementasikan dalam file views.py di bawah folder ini.
templat
Templat ujung depan. Templat ini menggunakan mesin templat Jinja2 untuk rendering front-end.