소셜 정보 검색 및 계산 작업에는 다음 기능이 필요합니다.
TFIDF: 자신의 이름을 딴 폴더가 있으면 일정 수의 웹페이지와 Weibo를 크롤링하여 말뭉치 컬렉션을 구성하고 폴더에 저장하세요. 온라인으로 해당 단어에 대한 TFIDF 통계를 수행하고 파일로 출력하세요. 파일 저장 디렉터리는 app/tfidf/tfidf_result
입니다.
SIM: 온라인 상태에서 웹 페이지의 두 문장을 입력하고 내적, 코사인 및 Jaccard의 세 가지 측정 방법을 포함하여 유사성을 찾습니다.
SJet: VSM(벡터 공간 모델)을 기반으로 검색 엔진을 구현합니다.
프로젝트 루트 디렉터리에서 터미널을 엽니다.
Python 가상 환경을 활성화하려면 다음 명령을 사용하십시오.
source venv/bin/activate
다음 명령으로 프로그램을 실행하십시오.
python hello.py runserver
접속 127.0.0.1:5000
net_ease_roll.py
비열한. 크롤링된 콘텐츠에는 NetEase 스크롤 뉴스의 국내, 국제 및 소셜 섹션이 포함되며 총 416개의 뉴스 기사가 있습니다. 크롤러 실행 환경은 Windows입니다.
tfidf_calc.py
크롤링된 뉴스 텍스트에 대해 단어 분할 전처리를 수행합니다.
config.py
스토리지 구성.
hello.py
프로그램 및 기타 태스크 프로그램을 시작하는데 사용됩니다.
앱
__init__.py
플라스크 프로젝트 파일
심
SIM 기능 청사진을 구현합니다. 특정 알고리즘은 이 폴더 아래의 views.py 파일에 구현됩니다.
젯
Sjet 함수 청사진을 구현합니다. 특정 알고리즘은 이 폴더 아래의 views.py 파일에 구현됩니다.
tfidf
TFIDF 함수 청사진을 구현합니다. 특정 알고리즘은 이 폴더 아래의 views.py 파일에 구현됩니다.
템플릿
프런트엔드 템플릿. 템플릿은 프런트엔드 렌더링을 위해 Jinja2 템플릿 엔진을 사용합니다.