많은 친구들이 자신의 웹사이트가 Baidu 스파이더에 의해 크롤링되었지만 IIS 로그를 읽은 후에 포함되지 않았다고 포럼에 게시했습니다. 이는 Baidu 검색 엔진의 원리와 관련이 있습니다. 먼저 검색 엔진이 웹 맵(Webmap)을 생성하고 기록합니다. 인터넷의 링크 구조를 파악한 후, 웹 크롤러(로봇)를 이용하여 웹 페이지 맵을 기반으로 양질의 웹 페이지를 크롤링(Crawl)하고, 이를 웹 페이지 스냅샷 데이터베이스에 저장합니다.
그러면 인덱서 프로그램(Indexer)은 스냅샷 데이터베이스에 있는 웹페이지 번호를 웹페이지 인덱스 데이터베이스에 저장하게 됩니다. 이 과정에서 부정행위를 하는 웹페이지(스팸)를 제거하기 위해 관련 기술이 사용됩니다. 사용자가 검색할 검색어를 입력하면 검색어 프로그램은 이 검색어를 사용하여 색인 데이터베이스에서 이를 비교합니다. 관련성을 계산한 후 관련성이 높을수록 웹페이지가 정렬됩니다. 순위가 더 높아요. 관련성 계산은 웹사이트 제목이나 웹페이지 내용과 검색어의 일치 여부, 웹페이지가 링크된 횟수 등 다양한 요소를 포함하는 종합적인 결과입니다. 따라서 검색 엔진의 다음 업데이트를 인내심을 갖고 기다리는 한 페이지를 볼 수 있습니다.
바이두 포함 SEO를 하고 있는 많은 친구들, 혹은 SEO를 배우고 있는 친구들 중 이 문제가 늘 고민이었던 것 같아요.
그래서 오늘은 바이두 수집기술에 대해 간략하게 소개하겠습니다.
제가 가장 먼저 이야기하고 싶은 것은 웹사이트 자체의 문제입니다. 많은 사람들은 단지 더 많은 콘텐츠를 온라인에 얻기 위해 웹사이트가 온라인화되기 전에 다른 사람의 기사나 정보를 복사하는 것을 좋아합니다. 유사 독창성을 채택할 수도 있습니다.
물론 이는 잘못된 것입니다. 웹사이트에 Baidu 크롤러가 크롤링할 만큼 충분한 데이터가 있는 것은 좋은 일입니다. 그러나 새로운 웹사이트이고 중복된 콘텐츠를 다시 크롤링한다면 검색 엔진은 어떻게 생각할까요? 당신은?
모두가 알고 있다고 말할 필요는 없을 것 같습니다. 이것은 바이두의 수집 기술 중 하나입니다.
두 번째는 Baidu의 크롤러를 유인하는 것입니다. 크롤러는 웹 페이지의 시작점을 통해 콘텐츠를 크롤링하고 캡처하므로 새 사이트가 온라인에 있으면 Baidu가 자주 업데이트하고 링크를 보내는 몇 군데만 찾을 수 있습니다. 바이두. 팁 2.
세 번째는
마지막으로 크롤러를 유치할 수 있는 몇 가지 좋은 장소를 알려드리겠습니다. admin5, chinaz bianews는 Baidu가 매우 좋아하는 장소입니다. 결정을 내리는 방법은 권위 있는 것이 아니라 개인적인 제안일 뿐입니다. 방법은 그냥 아이디어일 뿐이에요. 천천히 스스로 찾아내야 해요.
자, 여기서 글을 마치겠습니다.
이 기사는 Qiying Online(www.hnqiying.com)에서 처음으로 재인쇄되었습니다. 출처를 명시해 주세요. 작성자: 인수