웹사이트의 로그를 관찰하고 분석한 결과 웹사이트의 많은 페이지가 스파이더에 의해 반복적으로 크롤링되는 것을 발견했으며 이는 웹사이트 최적화에 그다지 좋지 않습니다. 그렇다면 웹사이트 페이지가 스파이더에 의해 반복적으로 크롤링되는 것을 어떻게 방지할 수 있을까요?
1. robots 파일을 사용하여 이 페이지를 차단하는 구체적인 방법은 다음과 같습니다.
허용하지 않음: /page/ #Restrict 크롤링 of WordPress 페이지네이션 웹사이트를 확인해야 하는 경우 다음 명령문을 함께 작성하여 너무 많은 중복 페이지를 피할 수도 있습니다. * 허용 안 함: /category/*/page/* #카테고리 페이지 크롤링 제한* Disallow:/tag/ #태그 페이지 크롤링 제한* 허용 안 함: */trackback/ #트랙백 콘텐츠 크롤링 제한* Disallow:/category /* #모든 카테고리 목록의 크롤링을 제한합니다. 스파이더란 크롤러라고도 불리는 프로그램입니다. 이 프로그램의 기능은 웹 사이트의 URL을 따라 일부 정보를 계층별로 읽고 간단한 처리를 수행한 다음 중앙 집중식 처리를 위해 백엔드 서버에 다시 공급하는 것입니다. 웹사이트를 더 잘 최적화하려면 스파이더의 선호도를 이해해야 합니다. 다음으로 거미의 작업 과정에 대해 이야기하겠습니다.
2. 스파이더는 동적 페이지를 만난다
스파이더는 동적 웹 페이지 정보를 처리할 때 문제에 직면합니다. 동적 웹 페이지는 프로그램에 의해 자동으로 생성된 페이지를 의미합니다. 이제 인터넷이 발달하면서 프로그램 개발을 위한 스크립팅 언어가 점점 많아지고 jsp, asp, php 및 기타 언어 등 점점 더 동적인 웹페이지 유형이 자연스럽게 개발되고 있습니다. 스파이더가 이러한 스크립팅 언어로 생성된 웹 페이지를 처리하는 것은 어렵습니다. 최적화할 때 최적화 프로그램은 항상 JS 코드를 최대한 사용하지 않는 것을 강조합니다. 이러한 언어를 완벽하게 처리하려면 스파이더에 자체 스크립트가 있어야 합니다. 웹사이트를 최적화할 때 불필요한 스크립트 코드를 줄여 스파이더 크롤링을 용이하게 하고 페이지 반복 크롤링을 방지하세요!
3. 거미의 시간
웹사이트의 콘텐츠는 업데이트나 템플릿 변경을 통해 자주 변경됩니다. Spider는 또한 웹 페이지의 콘텐츠를 지속적으로 업데이트하고 크롤링합니다. Spider 개발자는 크롤러의 업데이트 주기를 설정하여 지정된 시간에 따라 웹 사이트를 검색하여 다음과 같이 업데이트해야 하는 페이지를 확인하고 비교할 수 있습니다. 제목이 변경되었는지 여부, 어떤 페이지가 웹사이트의 새로운 페이지인지, 어떤 페이지가 만료된 죽은 링크인지 등. 강력한 검색엔진의 업데이트 주기는 지속적으로 최적화됩니다. 검색엔진의 업데이트 주기가 검색엔진의 회수율에 큰 영향을 미치기 때문입니다. 그러나 업데이트 주기가 너무 길면 검색 엔진의 검색 정확도와 무결성이 저하되고, 새로 생성된 일부 웹 페이지는 업데이트 주기가 너무 짧으면 기술 구현이 더 어려워지고, 대역폭이 영향을 받아 서버 리소스가 낭비됩니다.
4. 스파이더의 반복되지 않는 크롤링 전략
웹사이트의 웹페이지 수는 매우 많고, 스파이더 크롤링은 엄청난 규모의 프로젝트입니다. 웹페이지 크래킹에는 많은 회선 대역폭, 하드웨어 리소스, 시간 리소스 등이 필요합니다. 동일한 웹페이지를 자주 반복적으로 크롤링하게 되면 시스템의 효율성이 크게 저하될 뿐만 아니라 정확도가 낮아지는 등의 문제가 발생하게 됩니다. 일반적으로 검색 엔진 시스템은 웹 페이지를 반복적으로 크롤링하지 않는 전략을 설계했습니다. 이는 동일한 웹 페이지가 특정 기간 내에 한 번만 크롤링되도록 하기 위한 것입니다.
이것은 웹사이트 페이지의 반복적인 크롤링을 방지하는 방법에 대한 소개입니다. 이 기사는 Global Trade Network에서 편집되었습니다.
편집장 : Chen Long 저자 Fuzhou SEO Planning의 개인 공간