늙은 웹마스터가 바이두와 구글 스파이더를 키우는 방법을 가르쳐준다

저자：Eve Cole 업데이트 시간：2009-07-07 16:45:48

이 주제에 관해 질문하실 수 있습니다. 왜 우리가 이러한 거미 로봇을 유지관리해야 합니까? 웹사이트의 콘텐츠를 매일 업데이트하면 안 되나요? 웹사이트 혼자 보기 위해 만들어도 괜찮지만, 저희 웹사이트는 집에서 즐길 수 있도록 만들어진 것이 아니라 모두와 함께 즐거움을 분석하기 위해 만들어졌습니다. 그래서 우리는 이 거미 로봇들을 귀한 손님으로 대접하고 잘 보살펴야 합니다. 이제 키우는 방법에 대해 이야기해보겠습니다.

1. 바이두와 구글 스파이더 로봇의 활동 분석

가장 간단한 방법은 서버의 IIS 로그를 보는 것이지만, 이는 자신의 서버를 가지고 있는 사람들에게만 해당되거나 몇몇 공간 공급자 웹사이트에서 제공되고 있어 대부분의 웹사이트에서는 볼 수 없습니다. 그렇다면 이 귀중한 정보를 어떻게 볼 수 있을까요? 나는 모든 사람에게 소스 코드를 추천합니다: Luzhu CMS는 주요 검색 로봇의 흔적을 명확하게 기록할 수 있으며, 각 로봇의 방문 시간, 방문한 페이지 및 방문 세부 데이터가 분석됩니다. 세그먼트 분석, 채널별 분석, 추가한 콘텐츠 섹션 분석을 24시간 진행합니다. 주요 검색 로봇이 귀하의 웹사이트에서 어떤 채널과 섹션을 좋아하는지 분석하고, 다른 채널과 섹션을 개선하기 위한 제안도 제공합니다.

Baidu와 Google의 자세한 활동 방법에 대한 예를 들어 보겠습니다. 물론 각 웹 사이트의 방법은 다릅니다. 이제 내 웹 사이트 Luzhu 웹 사이트의 예를 들어 보겠습니다. Baidu의 스파이더 로봇은 웹사이트의 홈페이지를 크롤링하는 것을 가장 좋아하며 5분마다 한 번씩 크롤링합니다. 또한 Baidu는 웹사이트의 홈페이지를 진입점으로 사용하여 두 페이지 사이에 차이점이 있음을 발견합니다. 이번 홈페이지와 지난번 링크를 클릭하면 즉시 새 링크 페이지로 크롤링됩니다. Google은 다릅니다. 각 웹사이트에 대한 지도가 있으므로 홈페이지를 자주 크롤링하지는 않습니다. 물론 기록이 있는 경우에는 크롤링하지 않습니다. 이를 통해 Baidu는 귀하 웹사이트의 새로운 콘텐츠를 빠르게 발견하지만 Google은 귀하의 새로운 콘텐츠를 신속하게 발견하지 못한다는 것을 쉽게 알 수 있습니다. 한 번은 내 웹사이트에 콘텐츠를 추가한 후 즉시 백그라운드에서 스파이더 크롤러 기록을 확인했는데 Baidu가 해당 사이트를 다운로드하기 위해 갔더니 포함되어 있었습니다. 물론 이 내용은 제가 직접 작성한 소프트 글이고, 바이두가 원본으로 간주하는 글이므로 매우 빠르게 포함됩니다.

2. 웹 사이트를 자주 수정하거나 거의 변경하지 마십시오.

이렇게 말하는 이유는 무엇입니까? Baidu와 Google은 귀하의 웹사이트에 대한 일부 정보를 데이터베이스에 기록할 것입니다. 이번에 크롤링된 페이지는 지난번에 크롤링된 페이지와 비교 분석될 것입니다. 마찬가지로 새로운 웹사이트의 경우 스파이더 크롤링이 일정 기간 동안 중단됩니다. 이는 귀하의 웹사이트가 즉시 관찰 기간에 진입한다는 것을 의미하며, 이 기간 동안 스파이더 크롤링은 자주 발생하지 않으며 이는 Baidu와 Google이 귀하를 포함하지 않음을 의미합니다. 이 기간 동안 귀하의 페이지 권한도 강등될 수 있습니다. 5월에 한 번 웹사이트 템플릿을 변경한 것으로 기억합니다. 두 템플릿은 매우 달랐습니다. 예전에는 일부 페이지가 거의 매일 포함되어 있었는데, 일주일 정도 중단되었습니다. 포함된 페이지도 포함되지 않았습니다. 수량도 많이 줄었습니다. 이것은 웹사이트의 포괄적인 변화입니다. 이번 달에도 3일 만에 90개가 넘는 외부 링크를 추가한 것으로 기억하는데, 이는 웹사이트의 작은 변화인데도 여전히 처음에는 스파이더를 정지하지 않았습니다. 일주일 후 포함된 페이지 수를 확인해보니 갑자기 수백 페이지가 누락되었습니다. 바이두와 구글에서 다운로드되는 IP 주소 수도 원래 수에 비해 감소했다.

3. 웹사이트 업데이트 콘텐츠는 가능한 원본이거나 유사 원본이어야 합니다.

Baidu와 Google이 독창적인 기사를 좋아한다는 것은 누구나 알고 있으므로 오래된 손님이 집에 오면 그가 가장 좋아하는 요리와 차를 알아야 합니다. 우리는 Baidu와 Google이 이것을 좋아한다는 것을 알고 있습니다. 이것을 잘 활용하는 것은 어떨까요? Sina와 일부 대형 유명 웹사이트를 자주 읽으면 때로는 원본 기사가 아닐 수도 있지만 검색 스파이더의 취향을 만족시키기 위해 기사를 어느 정도 처리하는 의사 원본 기사도 있다는 것을 알게 될 것입니다. 그런데 또 인터넷에는 엄청난 양의 정보가 매일 업데이트 되기 때문에 독창적인 작품도 너무 많습니다. 우리처럼 좋은 사람도 있고 나쁜 사람도 있습니다. 유명 웹사이트들이 유사 원본 처리에 참여하고 있습니다. 중소 규모의 웹마스터로서 우리는 이것을 해 보는 것은 어떨까요? 바이두와 구글의 로봇은 신이 아니라 인간이 작성한 프로그램이고 이를 실행한다. 현재 프로그램에서 모든 기사를 완벽하게 분석하는 것은 불가능합니다. 동일한지, 원본인지만 비교할 수 있습니다. 우리 웹사이트에 콘텐츠를 추가할 때, 우리 웹사이트의 포함도를 높이기 위해 가짜 원본 콘텐츠를 많이 추가하는 것은 어떨까요?

4. 웹사이트 업데이트 콘텐츠의 적시성

앞서 언급했듯이 Baidu와 Google은 하루에 여러 번 귀하의 웹사이트를 크롤링하므로 이를 활용해야 합니다. 그러므로 우리 웹사이트도 적시에 콘텐츠를 업데이트하여 그들이 올 때 뭔가를 얻을 수 있도록 해야 하며, 더 자주 올 것이므로 귀하의 포함이 더 많아질 것입니다. 앞서 언급한 것처럼 웹사이트 콘텐츠를 업데이트할 때 가짜 기사를 만들 수 있습니다. 가짜 기사를 만드는 데 능숙하지 않다면 부지런히 웹사이트에 기사가 나타나면 적시에 웹사이트에 업데이트할 수 있습니다. 그렇다면 Baidu와 Google은 당시 해당 내용을 포함하지 않았을 수 있으며 귀하의 웹사이트에 있는 콘텐츠를 원본으로 잘못 간주할 수도 있습니다. 적시에 정기적으로 웹 사이트 콘텐츠를 업데이트하면 그것이 다른 사람의 원본이라도 Baidu와 Google은 귀하의 모든 페이지를 포함합니다.

요약하자면, 우리 웹사이트가 Baidu와 Google에 의해 매일 대량으로 포함되기를 원한다면 우리는 귀하의 웹사이트에서 그들의 스파이더 활동 시간과 방법을 깊이 이해하고 레이아웃을 변경하지 않고 일부를 추가해야 합니다. 적시에 원본 기사를 제공합니다.

위의 내용은 내 의견 중 일부이며 상대적으로 피상적입니다. 제 의견을 수정하고 http://www.luzhuba.cn과 소통하실 수 있습니다.