단순화된 검색 엔진
데이터를 크롤링, 스크랩, 색인화하여 데이터베이스에 저장하는 것입니다.
이 프로그램은 Python 언어로 작성되었으며 정규 표현식을 사용하여 HTML을 구문 분석하고 멀티스레딩을 사용하여 더 빠르게 진행합니다. 데이터베이스 부분은 MongoDB에 의해 보장됩니다. 프로젝트에는 4개의 파일이 포함되어 있습니다.
PersonalParser.py:
- HTML 콘텐츠를 가져오고, 구문 분석하고, 저장하고, 페이지 콘텐츠의 각 링크에 대해 새 PersonalParser 스레드를 시작하는 PersonnalParser 클래스가 포함되어 있습니다.
DBManager.py
- DB와의 연결과 삽입 및/또는 찾기 작업을 보장하는 DBManager 클래스가 포함되어 있습니다.
fill_database.py:
- 시작 URL, 프록시 설정 및 깊이 검색과 같은 일반 설정이 포함되어 있습니다. 첫 번째 크롤링 스레드가 여기에서 시작됩니다.
main.py
- 사용자 검색을 가져오고, 데이터베이스 콘텐츠를 가져오고, 결과를 관련성에 따라 정렬하는 코드가 포함되어 있습니다.