simple_search_engine
1.0.0
社會資訊檢索與計算作業,要求實現功能如下:
TFIDF: 給定用自己名字命名的資料夾,請自己爬取一定數量的網頁、微博形成語料集合,存入該資料夾;在線狀態下,對其中的詞語進行TFIDF統計,且輸出到文件中。檔案儲存目錄為app/tfidf/tfidf_result
。
SIM: 在線上狀態下,從網頁頁面輸入任兩個句子,求其相似度,包括:內積,餘弦及Jaccard三種度量方式。
SJet:實現基於向量空間模型(VSM)的搜尋引擎。
在工程根目錄下開啟終端
用以下指令啟動python虛擬環境
source venv/bin/activate
用如下命令運行程序
python hello.py runserver
訪問127.0.0.1:5000
net_ease_roll.py
爬蟲。爬取內容為網易滾動新聞國內、國際、社會版塊,共416篇新聞。爬蟲運行環境為Windows。
tfidf_calc.py
將爬取的新聞文本做分詞預處理。
config.py
儲存配置。
hello.py
用於啟動程式以及其他的任務程序。
app
__init__.py
Flask工程文件
sim
實作SIM功能藍本,具體演算法實作在此資料夾下views.py檔案中
sjet
實作Sjet功能藍本,具體演算法實作在此資料夾下views.py檔案中
tfidf
實作TFIDF功能藍本,具體演算法實作在此資料夾下views.py檔案中
templates
前端模板。模板使用Jinja2模板引擎做前端渲染。