งานการดึงข้อมูลและการคำนวณข้อมูลทางสังคมจำเป็นต้องมีฟังก์ชันต่อไปนี้:
TFIDF: เมื่อกำหนดโฟลเดอร์ที่ตั้งชื่อตามตัวคุณเอง โปรดรวบรวมข้อมูลหน้าเว็บจำนวนหนึ่งและ Weibo เพื่อสร้างคอลเลกชันคลังข้อมูลและจัดเก็บไว้ในโฟลเดอร์ ดำเนินการสถิติ TFIDF กับคำในนั้นออนไลน์และส่งออกเป็นไฟล์ ไดเร็กทอรีที่เก็บไฟล์คือ app/tfidf/tfidf_result
SIM: ในสถานะออนไลน์ ให้ป้อนสองประโยคจากหน้าเว็บและค้นหาความคล้ายคลึงกัน รวมถึงวิธีการวัดสามวิธี: ผลคูณภายใน โคไซน์ และ Jaccard
SJet: การใช้เครื่องมือค้นหาตาม Vector Space Model (VSM)
เปิดเทอร์มินัลในไดเร็กทอรีรากของโปรเจ็กต์
ใช้คำสั่งต่อไปนี้เพื่อเปิดใช้งานสภาพแวดล้อมเสมือนของ Python
source venv/bin/activate
รันโปรแกรมด้วยคำสั่งต่อไปนี้
python hello.py runserver
เข้าถึง 127.0.0.1:5000
net_ease_roll.py
สัตว์เลื้อยคลาน เนื้อหาที่รวบรวมข้อมูลประกอบด้วยส่วนข่าวในประเทศ ต่างประเทศ และสังคมของข่าวแบบเลื่อนของ NetEase โดยมีบทความข่าวทั้งหมด 416 บทความ สภาพแวดล้อมการทำงานของโปรแกรมรวบรวมข้อมูลคือ Windows
tfidf_calc.py
ดำเนินการแบ่งส่วนคำล่วงหน้าในข้อความข่าวที่รวบรวมข้อมูล
config.py
การกำหนดค่าการจัดเก็บข้อมูล
สวัสดี.py
ใช้เพื่อเริ่มโปรแกรมและโปรแกรมงานอื่นๆ
แอป
__init__.py
ไฟล์โครงการขวด
ซิม
ใช้พิมพ์เขียวฟังก์ชัน SIM อัลกอริธึมเฉพาะถูกนำไปใช้ในไฟล์ views.py ภายใต้โฟลเดอร์นี้
เจ็ต
ใช้พิมพ์เขียวฟังก์ชัน Sjet อัลกอริธึมเฉพาะถูกนำไปใช้ในไฟล์ views.py ภายใต้โฟลเดอร์นี้
tfidf
ใช้พิมพ์เขียวฟังก์ชัน TFIDF อัลกอริธึมเฉพาะถูกนำไปใช้ในไฟล์ views.py ภายใต้โฟลเดอร์นี้
แม่แบบ
เทมเพลตส่วนหน้า เทมเพลตใช้เครื่องมือเทมเพลต Jinja2 สำหรับการเรนเดอร์ส่วนหน้า