SP1 개선 사항: 웹 페이지 인코딩의 자동 인식을 수정하고, 해싱을 개선하여 스파이더 크롤링을 더욱 포괄적으로 만들고, 특별한 상황에서 웨어하우징 오류를 수정합니다.
K-PageSearch는 Kwindsoft가 독자적으로 개발한 전문적인 웹 검색 엔진 시스템으로, 첨단 지능형 분석 및 대용량 데이터 검색 기술을 갖추고 있습니다. 핵심은 멀티스레드 수집 시스템, 지능형 분석 시스템, 대규모 색인 시스템, 전체 검색 시스템으로 구성됩니다. 텍스트 검색 시스템. 이 시스템은 전문가 수준의 검색 엔진 시스템 아키텍처를 채택하고 대용량 데이터에 대한 밀리초 수준의 전체 텍스트 검색을 지원합니다. 주로 대규모 및 중간 규모 산업 검색 엔진, 지역 검색 엔진, 전문 정보 검색 엔진 및 기타 응용 분야를 위해 설계된 전문적인 전체 텍스트 검색 제품으로 사용자에게 대규모 데이터의 전체 텍스트 검색 응용 프로그램에 이상적인 솔루션을 제공합니다.
V2.1 버전의 주요 개선 사항: .NET 기술을 사용하여 웹 프런트 엔드 프로그램 개발, UTF-8 웹 페이지 인코딩, 새로운 인덱싱 시스템 및 관리 도구의 소스 코드 열기를 사용합니다.
기능적 특징: 멀티 스레드 네트워크 스파이더, 웹 페이지 방향 획득, 다국어 웹 페이지 코딩, 자동 인식, 해시 테이블, 웹 페이지 중복 제거, 지능형 웹 페이지 텍스트 추출, 어휘 기반 지능형 중국어 단어 분할, 중국어 단어 분할, 어휘 관리, 대용량 데이터, 밀리초 수준의 전체 텍스트 검색, 캐싱 기술, 웹 페이지 스냅샷, 고급 검색 입찰 웹 스파이더 순위 지정
웹 스파이더는 멀티 스레드를 사용하여 웹 페이지를 동시에 수집하고 효율적인 수집 메커니즘과 전략적 배포를 결합하여 웹 페이지 수집 효율성을 극대화합니다. 데이터 품질과 관련성을 향상시키기 위한 수직 검색 엔진의 핵심 기술인 웹 페이지의 타겟 수집을 지원합니다. 사용자는 특정 웹 페이지를 수집하기 위해 수집 규칙을 사용자 정의할 수 있습니다. 여러 동적 및 정적 웹 페이지 유형의 컬렉션과 다국어 웹 페이지 인코딩의 자동 식별을 지원합니다. 고성능, 낮은 시스템 사용량의 특징을 지닌 해시 테이블 웹 페이지 중복 제거 기술을 사용하여 웹 스파이더가 효율적이고 안정적으로 실행될 수 있도록 합니다. 단일 또는 일괄 웹사이트 수집, 자동 수집, 자동 업데이트 기능을 지원합니다.
텍스트 추출
지능형 웹페이지 텍스트 추출 기술은 웹페이지의 중심 테마 콘텐츠를 추출하고 웹페이지 주제와 관련 없는 정보(광고, 탐색, 저작권 및 기타 웹페이지 본문 콘텐츠가 아닌 정보)를 필터링하는 기능입니다. 이 기술은 웹페이지 정보 수집 및 검색 관련성, 지능형 자동 식별, 정확한 웹페이지 텍스트 추출 품질을 효과적으로 향상시키며 95% 이상의 정확도를 제공합니다.
중국어 단어 분할
동의어 사전 기반 지능형 중국어 단어 분할 기술은 중국어 및 영어 분할, 중국어 간체 및 번체 글꼴 변환, 전자 및 반자 변환, 중국어 이름 인식 등 다중 지능형 분석 기술을 지원합니다. 사용자는 최상의 단어 분할 효과를 달성하기 위해 자신의 응용 프로그램 요구 사항에 따라 어휘 라이브러리를 확장하고 유지 관리할 수 있습니다.
전체 텍스트 검색
대용량 데이터 인덱싱 시스템 아키텍처와 고급 전체 텍스트 검색 알고리즘 기술을 효율적인 검색 최적화 전략과 결합하여 대용량 데이터 및 다중 사용자 동시 검색의 밀리초 수준 검색 속도를 지원합니다. 고급 검색은 사용자의 다양한 검색 요구 사항을 충족하는 맞춤형 검색 방법을 지원합니다. 효율적인 캐싱 기술 전략을 채택하여 시스템 안정성과 로드 용량을 향상하고 시스템 부담을 줄이며 캐시 데이터는 특정 조건에 따라 자동으로 업데이트됩니다.
적용대상
웹 검색 엔진을 구축하기 위해 기업, 정부 기관, 학교 등과 같은 내부 웹 사이트 그룹 또는 인터넷 웹 사이트 그룹에 적합합니다.
산업 웹 검색 엔진을 구축하기 위해 다양한 산업 및 분야의 웹사이트 그룹에 적합합니다.
지방, 시, 구 등 지역 웹사이트 그룹이 지역 웹 검색 엔진을 구축하는 데 적합합니다.
확장하다