요즘 웹사이트 홍보나 상품홍보 일을 하다보니 이해가 안 되는 부분이 많은데, 제가 홍보하는 것 중에 아주 매력적인 명사들이 많아요. 첫 번째는 SEO를 이해하는 과정에서 '외부 링크'를 접하게 되었는데, '스파이더 크롤링'을 접하게 되었는데, 정말 많은 정보를 한꺼번에 얻을 수 있다는 게 정말 신기했습니다. 간단하지 않습니다.
그리고 오늘 저는 "거미 크롤링"이라는 단어에 대해 이야기하고 싶습니다. 나는 후발자이기 때문에 내가 처음으로 언급한 것은 아니라고 생각하지만, 내 설명이 더 많은 사람들이 이 단어를 이해하는 데 도움이 되기를 바랍니다. 이해할 수 없는.
먼저 바이두(Baidu) 포함을 소개하겠습니다. 온라인 세계에는 아주 많은 웹사이트가 있고, 그 웹사이트에는 우리와 마찬가지로 60억 명이 넘는 인구가 있는 셀 수 없이 많은 웹페이지가 포함되어 있습니다. 글쎄요, 성룡, 이소룡, 마이클 잭슨 등과 같이 세상에 큰 영향력을 미치는 사람들도 있지만, 우리처럼 알려지지 않은 사람들은 너무나 겸손합니다. 세상에 큰 공헌을 한 사람은 자연스럽게 유명해지게 되는데, 즉 인터넷에서 '공헌'하는 사람은 바이두에 포함되는 것이고, 바이두에 포함되는 것입니다. 포함된다는 명성은 귀하가 Baidu 검색의 헤드라인에 나타날 수 있다는 것을 의미하며 헤드라인은 항상 많은 관심을 끌고 있습니다. SEO(검색 엔진 최적화)가 탄생한 것은 바로 모든 사람이 이 위치를 놓고 경쟁하기를 원하기 때문입니다.
그런 다음 수집된 콘텐츠는 순서대로 라이브러리에 저장되며 이 라이브러리는 온라인 세계에서 "데이터베이스"라는 좋은 이름을 갖습니다. 데이터베이스의 원리에 대해서는 여기에서 자세히 설명하지 않겠습니다. 이해하기 특정 형식으로 데이터를 저장하거나 기록하는 것입니다. "Spider Crawl"은 이것을 사용합니다. "거미"에 대해 다시 말씀드리겠습니다. 물론 우리가 매일 보는 거미는 아닙니다. 간단히 말해서, 크롤링 과정은 알고리즘을 구현하는 과정입니다. 단순히 일일 연산 과정으로 이해될 수는 없습니다.) 최근에는 Baidu가 검색 알고리즘을 변경한 것 같지만 변경 방법을 천천히 이해하도록 하세요.
"스파이더 크롤링"은 좀 더 비유적으로 말하면 수직 크롤링과 수평 크롤링이 있는데, 이는 우리 컴퓨터 용어로 깊이 탐색과 폭 탐색입니다. 탐색한 콘텐츠는 탐색 후 적극적으로 다운로드됩니다. 반환된 웹 페이지는 다양한 프로그램을 통해 계산된 후 검색 영역에 배치되며, 그래야만 안정적인 순위가 형성되어 Baidu의 데이터베이스에 최종적으로 표시됩니다. 그리고 여기서 Baidu는 "거미"를 한 마리만 보낸 것이 아니라 여러 개, 어쩌면 열, 수백, 수천, 심지어 수만, 수십만 개를 보냈습니다. 간단히 말해서 거미가 많이 있을 것입니다. 여기에 거미가 있습니다. 컴퓨터 용어: 스레드. 분명히 다중 스파이더는 다중 스레드이며 다중 스레드가 검색을 수행하는 경우에만 효율성이 높아집니다. 여러 개의 "스파이더"가 함께 검색하는 경우 하나의 "스파이더"가 특정 규칙을 따르는 경우 심층 검색입니다. 웹 페이지 검색은 깊이 우선, 너비 우선입니다. Baidu 스파이더는 페이지를 크롤링할 때 더 많은 URL과 깊이를 크롤링하기 위해 시작 사이트(즉, 시드 사이트는 일부 포털 사이트를 나타냄)부터 크롤링합니다. 우선 크롤링은 고품질 웹 페이지를 크롤링하는 것입니다. 이 전략은 스케줄링에 의해 계산되며 Baidu Spider는 크롤링만 담당합니다. 가중치 우선 순위는 역방향 연결이 더 많은 페이지를 크롤링하는 유형입니다. 일반적으로 웹 크롤링의 경우 40%가 정상 범위이고 60%는 양호한 것으로 간주되며 100%는 불가능합니다. 물론 크롤링이 많을수록 좋습니다. 배우는 과정에서 스파이더 크롤링의 안전성을 소개하는 기사를 접하게 되었는데, 스파이더는 일반적으로 해당 웹사이트를 탐색하는 것을 선호하며 해당 웹사이트에 빠지지 않도록 자동으로 네트워크 취약점을 피한다는 내용이 나와 있습니다. 이 기사의 소개를 기억하십시오. 동적 웹사이트에는 무한 루프가 있을 수 있으므로 정적 웹사이트를 먼저 탐색하여 스파이더가 들어간 후 빠져나올 수 없습니다. 그러나 일반적인 스파이더 검색 프로세스는 먼저 웹사이트의 보안을 확인하고 이러한 것을 발견합니다. 파괴적인 행동은 피할 것입니다. 나는 이것이 고려해 볼 가치가 있다고 생각합니다. 동적 웹사이트를 구축하는 과정에서 웹사이트 취약점을 피하기 위해 프로그램 코드를 엄격하게 적용해야 합니다. 결국에는 어떤 거미도 감히 침입할 수 없습니다.
오늘 소개는 여기까지입니다. 부족한 점을 바로잡아 주시기 바랍니다. Asia Ceramics Mall: www.asiachinachina.com
(편집 담당 : momo) 작가의 개인 공간 아시아도자상가