Задачи поиска и расчета социальной информации требуют следующих функций:
TFIDF: если у вас есть папка, названная в вашу честь, просканируйте определенное количество веб-страниц и Weibo, чтобы сформировать коллекцию корпуса и сохранить ее в папке, выполните статистику TFIDF по словам в ней онлайн и выведите ее в файл. Каталог хранения файлов — app/tfidf/tfidf_result
.
SIM: В режиме онлайн введите любые два предложения с веб-страницы и найдите их сходство, включая три метода измерения: внутреннее произведение, косинус и Жаккард.
SJet: реализация поисковой системы на основе векторной пространственной модели (VSM).
Откройте терминал в корневом каталоге проекта.
Используйте следующую команду для активации виртуальной среды Python
source venv/bin/activate
Запустите программу с помощью следующей команды
python hello.py runserver
Доступ 127.0.0.1:5000
net_ease_roll.py
рептилия. Просканированный контент включает в себя внутренние, международные и социальные разделы прокручиваемых новостей NetEase, всего 416 новостных статей. Средой работы сканера является Windows.
tfidf_calc.py
Выполните предварительную обработку сегментации слов в просканированном тексте новостей.
config.py
Конфигурация хранилища.
привет.py
Используется для запуска программ и других целевых программ.
приложение
__init__.py
Файлы проекта Flask
сим
Реализуйте схему функции SIM. Конкретный алгоритм реализован в файлеviews.py в этой папке.
выброс
Реализуйте схему функции Sjet. Конкретный алгоритм реализован в файлеviews.py в этой папке.
tfidf
Реализуйте схему функции TFIDF. Конкретный алгоритм реализован в файлеviews.py в этой папке.
шаблоны
Шаблон интерфейса. В шаблоне используется механизм шаблонов Jinja2 для внешнего рендеринга.