ソーシャル情報の検索および計算タスクには、次の機能が必要です。
TFIDF: 自分の名前にちなんで名付けられたフォルダーを指定し、一定数の Web ページと Weibo をクロールしてコーパス コレクションを形成し、フォルダーに保存します。オンラインでその中の単語について TFIDF 統計を実行し、ファイルに出力します。ファイルの保存ディレクトリはapp/tfidf/tfidf_result
です。
SIM: オンライン状態で、Web ページから任意の 2 つの文を入力し、内積、コサイン、Jaccard の 3 つの測定方法を含む類似点を見つけます。
SJet: ベクトル空間モデル (VSM) に基づいた検索エンジンの実装。
プロジェクトのルート ディレクトリでターミナルを開きます
次のコマンドを使用して、Python 仮想環境をアクティブ化します。
source venv/bin/activate
次のコマンドでプログラムを実行します
python hello.py runserver
アクセス127.0.0.1:5000
net_ease_roll.py
爬虫類。クロールされたコンテンツには、NetEase のスクロール ニュースの国内、国際、社会セクションが含まれており、合計 416 件のニュース記事が含まれます。クローラーの実行環境はWindowsです。
tfidf_calc.py
クロールされたニュース テキストに対して単語分割の前処理を実行します。
config.py
ストレージ構成。
こんにちは。
プログラムやその他のタスク プログラムを起動するために使用されます。
アプリ
__init__.py
Flaskプロジェクトファイル
シム
SIM 関数のブループリントを実装します。特定のアルゴリズムは、このフォルダー内の views.py ファイルに実装されます。
ジェット
Sjet 関数のブループリントを実装します。特定のアルゴリズムは、このフォルダー内の views.py ファイルに実装されます。
tfidf
TFIDF 関数のブループリントを実装します。特定のアルゴリズムは、このフォルダー内の views.py ファイルに実装されます。
テンプレート
フロントエンドのテンプレート。このテンプレートは、フロントエンド レンダリングに Jinja2 テンプレート エンジンを使用します。