먼저 바이두가 사이트에 새로 공개된 콘텐츠를 빠르게 수집하는 방법에 대해 설명하겠습니다. 바이두의 사이트 수집 및 크롤링 원칙을 설명하면 아래 예시를 통해 쉽게 이해할 수 있습니다.
Baidu의 포함 문제에 관하여
많은 친구들이 자신의 웹사이트가 Baidu 스파이더에 의해 크롤링되었지만 IIS 로그를 읽은 후에는 포함되지 않았다고 포럼에 게시했습니다. 이는 Baidu 검색 엔진의 원리와 관련이 있습니다.
먼저, 검색엔진은 웹맵(Webmap)을 생성하여 인터넷의 링크 구조를 기록한 후, 웹 크롤러(로봇)를 이용하여 웹맵을 기반으로 고품질의 웹페이지를 크롤링(Crawl)하여 저장하게 됩니다. 웹 페이지 스냅샷 데이터베이스. 그러면 인덱서 프로그램(Indexer)은 스냅샷 데이터베이스에 있는 웹페이지 번호를 웹페이지 인덱스 데이터베이스에 저장하게 됩니다. 이 과정에서 부정행위를 하는 웹페이지(스팸)를 제거하기 위해 관련 기술이 사용됩니다. 사용자가 검색할 검색어를 입력하면 검색어 프로그램은 이 검색어를 사용하여 색인 데이터베이스에서 이를 비교합니다. 관련성을 계산한 후 관련성이 높을수록 웹페이지가 정렬됩니다. 순위가 더 높아요. 관련성 계산은 웹사이트 제목이나 웹페이지 내용과 검색어의 일치 여부, 웹페이지가 링크된 횟수 등 다양한 요소를 포함하는 종합적인 결과입니다. 따라서 검색 엔진의 다음 업데이트를 인내심을 갖고 기다리는 한 페이지를 볼 수 있습니다.
동시에 Baidu는 새로운 콘텐츠 포함과 관련하여 다음과 같은 상황을 가지고 있습니다. "이전에 입찰을 했다면 지금은 입찰하지 않을 것입니다. 하지만 입찰하지 않으면 Baidu는 이를 포함하지 않습니다."
한 SEO 담당자가 Baidu 직원에게 이런 질문을 한 적이 있는데, 그들은 이렇게 말했습니다.
1. 이전에 하신 적이 있으나 부정행위를 하신 경우, 입찰을 하여도 바이두에 포함되지 않습니다.
2. 입찰을 하고 포함을 중단하면 단기간만 했다는 뜻인데 반년 이상 하면 당연히 포함된다고 하는데 믿기지 않습니다. 그들이 말하는 것. 또한 자신이 운영하는 사이트의 상황, 신규 사이트인지 기존 사이트인지, 포함된 적이 없는지, 포함되어 있는지 등에 따라 달라지며, 구체적인 상황을 토대로 분석을 하게 됩니다.
위의 내용은 SEO 담당자가 직면한 일부 문제에 대한 요약입니다. 모든 사람이 배울 수 있는 참고 자료가 되기를 바랍니다.
아래에서는 "Baidu에 새로 출시된 콘텐츠를 빠르게 포함시키는 방법"을 개별 사례별로 분석해 보겠습니다.
먼저 58라이프서비스 내비게이션 사이트의 생활안내 중 일부를 살펴보겠습니다. 2009년 대학 입시가 막 끝났는데, 많은 친구들이 대학 입시 점수 문의를 받고 있는 것 같아 새로 대학 입학을 열었습니다. 시험점수 조회란 카테고리 :
나는 오후 30분쯤 이 칼럼의 카테고리를 작성하고 북경 내비게이션 홈페이지에 추천받아 오른쪽 스탠드 위치를 오후 3시쯤에 탔다. Baidu 사이트: 010.58.com/gaokao/에서는 거의 33개의 기사가 Baidu에 포함되어 있는 것으로 나타났으며 포함률은 90%에 달합니다.
매우 혼란스러우실 텐데요! 왜 그렇게 짧은 기간에 바이두에 포함됐고, 포함률도 꽤 높은 걸까요? 참고로 바이두의 빠른 포함에 대한 문제점을 정리한 다음 사항을 살펴보겠습니다.
1. 우선, 생활내비게이션 홈페이지에 새롭게 오픈한 칼럼을 추천드립니다. 베이징 생활내비게이션, pr5, Alexa 홈페이지가 2008년 1120에서 659로 늘어났습니다. 이 홈페이지의 비중이 꽤 크다고 생각합니다. 새로 오픈한 칼럼을 넣었습니다. 홈페이지에 추천하는 칼럼은 비중이 높은 외부 링크로 지원해 바이두에 빠르게 포함될 예정입니다. 이에 대해서는 의심의 여지가 없다고 생각합니다. 앞으로 새로운 콘텐츠를 게시한다면 자신의 웹사이트 홈페이지에서 추천하여 효과를 시험해 볼 수 있습니다.
2. 그러면 제가 추천하는 시간을 구체적으로 살펴보면 오후 3시쯤인 것을 알 수 있습니다. Baidu는 일반적으로 오후 3시에서 4시쯤에 데이터베이스를 업데이트합니다. 방금 게시한 데이터베이스와 콘텐츠가 포함되어 표시됩니다.
제가 판단한 시점이 틀렸다고 의심한 적도 있고, 30분 뒤에 업데이트가 안 되자 일부러 베이징라이프 내비게이션 홈페이지에 페이지를 추천했는데, 그랬습니다. 이 점에 관해서는 바이두 데이터베이스 업데이트 시간이 오후 4시쯤이라는 점을 기준으로 하여 감히 100%라고 말할 수는 없습니다. 왜냐하면 제가 말씀드린 것 중 90%가 포함되어 있기 때문입니다. 30분 후에는 아직 포함되지 않은 10%가 있습니다. 아마도 제가 연습한 페이지는 10% 중 하나일 뿐입니다. 따라서 제가 판단한 Baidu 데이터베이스 업데이트 시점은 참고용으로만 제공될 수 있기를 바랍니다. 이를 증명하는 데에는 정확성이 있습니다.
3. 마지막으로 생활안내서 의료칼럼 내용 "베이징 301 병원 주소, 전화번호, 버스노선 목록"을 작성하면서 첫 번째 판단을 증명하기 위해 또 다른 작은 연습을 했습니다.
http://010.58.com/yiyuan/4255.shtml 여기 글의 내용은 모두 손으로 정리한 것이고 복사해서 붙여넣는 것이 아니기 때문에 유사 원본이고 검색 엔진 크롤링에 적합하지만 권장하지는 않습니다. Life Navigation 홈페이지에 게시된 지 일주일이 지났는데 아직 Baidu에 포함되어 있지 않습니다. 그러다가 아침에 몇 가지를 추천했지만 여전히 Baidu에 포함되어 있지 않은 것 같습니다. Baidu가 데이터베이스를 업데이트하는 시간입니다.
나는 많은 웹마스터들이 자신이 게시하는 모든 기사가 가치 있고, 트래픽을 유도할 수 있으며, 동시에 사용자의 요구를 충족시키기를 원한다고 믿습니다. 여기서 우리는 Baidu가 우리가 게시하는 최신 콘텐츠를 신속하게 포함하도록 해야 하며 모든 것을 갖추는 것이 가장 좋습니다. 그 중에서 Baidu가 데이터베이스를 업데이트하는 시간을 모두가 기억하고, 고중량 사이트에 대한 외부 링크 지원, 추천 칼럼에 대한 가중치 지원, 칼럼을 작성하는 많은 SEOer가 iResearch를 가지고 있는 등 사용 가능한 리소스를 유연하게 파악해야 합니다. columns, admin5, Matador 등. 가중치가 있는 웹사이트의 열의 경우 가중치가 높은 리소스의 외부 링크가 지원되도록 새로 출시된 원본 기사 콘텐츠의 URL을 사용할 수도 있습니다. 일단 포함되면 외부 링크를 취소하고 재활용할 수 있습니다. 이는 귀하의 사이트가 Baidu에 신속하게 포함되는 데 도움이 될 것입니다.
나는 많은 일들로 바빠서 이 기간 동안 블로그를 하지 않았습니다. 나는 인터넷에 접속할 시간을 많이 잃었다고 느낍니다. 나는 점점 더 많은 사람들과 멀어지고 있다는 것을 알게 되었습니다. 앞으로 내 공부 Xu Qian SEO 블로그 www.hongren.org에 자주 오시는 것을 환영합니다.