거미가 원본 기사를 식별하는 방법

저자：Eve Cole 업데이트 시간：2009-06-02 17:54:49

요즘에는 대부분의 개인 웹사이트 트래픽이 검색 엔진에서 발생합니다. 트래픽을 늘리려면 가장 중요한 것은 귀하의 사이트가 주요 검색 엔진에 포함되도록 하는 것입니다. 오늘날, www가 검색 엔진에 포함되도록 하려면 어떻게 해야 할까요? .yuanwa.com에서 공유해 드립니다!

1. 우선 독창성과 유사독창성이라는 개념을 명확히 해야 한다.

독창성(Originality) : 쉽게 이해하면 인터넷에 최초로 공개된 콘텐츠, 이전에 등장한 적이 없는 콘텐츠를 의미합니다.

유사 원본: 웹사이트에서 정보를 얻어 2차 처리를 수행하는 것이며, 제목 수정, 내용 수정, 일부 단어 추가 또는 일부 단어 축소 등의 2차 수정 후의 콘텐츠입니다.

그렇다면 검색 엔진은 독창성을 어떻게 판단합니까?

일반적으로 다음 요소에 의해 결정됩니다.

1. 스냅샷 날짜.

2. 거미 크롤링 날짜.

3. 페이지에 대한 외부 링크 수.

4. 기사의 수정 정도.

2. 예를 들어, www.yuanwa.com 웹사이트에 기사를 게시하는 경우. 검색 엔진이 이 웹사이트에 와서 이 기사를 크롤링하여 데이터베이스에 저장하고, 포함된 데이터베이스에서 유사한 콘텐츠가 발견되지 않으면 원본으로 간주됩니다.

이 시점에서 주목해야 할 세부 사항이 있습니다.

1: 기사가 포함되어야 합니다. 포함되지 않으면 검색 엔진에서 독창성은 물론이고 전혀 찾을 수 없습니다.

2: 기사가 재인쇄되었습니다

새로 게시된 기사를 다른 사람이 재인쇄하면 원본은 누구입니까? 검색 엔진에서 누가 먼저 크롤링하는지에 따라 달라지는데 이는 업데이트 주기의 문제입니다. A 사이트가 게시하고 B 사이트가 이를 다시 인쇄하는 경우 A 사이트가 먼저 크롤링되면 A 사이트에 속합니다. B 사이트가 먼저 크롤링되면 원본 저작물은 B 사이트에 속합니다. 따라서 귀하가 먼저 게시했다는 의미는 아닙니다. , 원본 저작물은 귀하의 것입니다. 이는 검색 엔진에 귀하의 콘텐츠가 언제 포함되었는지에 따라 다릅니다.

3. 접속시간

거미가 B 스테이션을 먼저 방문했다면 어떨까요?

1. 당연히 B 스테이션에 가중치가 주어집니다. 보통 이런 경우가 많습니다!

2. B 방송국이 재인쇄한 기사에 A 방송국의 기사 원본 페이지에 대한 링크가 포함되어 있으면 어떻게 되나요?

3. 이는 매우 명확합니다. 처음 포함되었을 때 두 결과가 순위에 함께 나타나면 B 스테이션의 순위가 더 좋을 가능성이 있습니다.

물론 기사가 여러 번 재인쇄된 후에는 A 사이트의 링크가 많을수록 A 사이트의 기사에 더 많은 이익이 될 것이며 순위는 점차 A 사이트가 선두에 오를 것입니다.

다른 재인쇄 기사에 스테이션 B 페이지에 대한 링크가 있으면 어떻게 되나요?

평가가 좋지 않으면 링크 인기 콘테스트가 된다.

그러나 외부 링크가 많고 차이가 크지 않다면 먼저 포함된 사람이 원본으로 돌아가야 한다는 판단 규칙이 적용됩니다.

4. 스냅샷 날짜

일반적으로 날짜가 가장 빠른 스냅샷이 원본입니다!

반드시 그런 것은 아니지만 이 진술은 업데이트 주기 내에 있어야 합니다. 예를 들어 기사가 게시된 후 1주일 이내의 스냅샷 시간이 있는 주소는 원본으로 인식될 가능성이 더 높습니다.

하지만 기사가 게시된 지 몇 달이 지났다면 아마도 검색 엔진이 스냅샷을 다시 얻었고 스냅샷 날짜가 변경되었을 수도 있습니다!

다른 가능성이 있나요?

예, 예를 들어 Baidu에는 컬렉션 데이터베이스가 있을 수 있으며 필터링 후에만 수집된 콘텐츠가 검색 결과에 포함됩니다. 이 기간 동안 A 방송국에서 처음으로 출판했고 B 방송국에서 재인쇄하는 등 몇 가지 문제가 있었습니다. 거미는 먼저 스테이션 A를 방문한 다음 스테이션 B를 방문합니다. 그런 다음 스테이션 B의 결과가 먼저 공개될 수 있으며 스테이션 A는 여전히 데이터베이스에 있습니다.

따라서 검색엔진에 포함되어 있지 않다고 해서 검색엔진 스파이더가 해당 콘텐츠에 접근하지 않았다는 의미는 아니며, 이미 검색엔진 인벤토리에 기록되어 있지만 확인 당시에는 공개되지 않았을 뿐일 수도 있습니다. 마치 콘텐츠가 25일에 공개된 것과 마찬가지로, 스냅샷은 검색 엔진의 인벤토리 콘텐츠인 20일이며, 이는 독창성을 테스트하는 핵심 시점이기도 합니다.

이러한 상황은 일반적으로 새 사이트와 기존 사이트 사이에서 발생합니다. 사이트 A가 게시되고 사이트 B가 재인쇄되지만 사이트 A는 검색 엔진에 대한 신뢰도가 높지 않습니다. 그러나 A 사이트를 먼저 방문하는 한 원래의 권리는 여전히 A 사이트에 속합니다. 이는 웹의 내용을 알지 못하면 스파이더가 어느 사이트를 먼저 방문했는지 알 수 없기 때문에 구별하기 가장 어려운 상황입니다. 두 사이트의 공간 로그를 보면 검색 엔진이 두 페이지를 얼마나 오랫동안 방문했는지 확인할 수 있습니다.

5. 유사 원본

유사 원본 저작물은 원본으로 간주됩니까?

대부분의 경우 검색 엔진 스파이더는 생각이 너무 정형화되어 있기 때문에 이러한 것들을 명확하게 구분할 수 없습니다. 제목이 변경되고 기사의 문단이 변경되면 스파이더가 이 기사가 포함되었는지 여부를 판단하기 어려울 수 있습니다. 어쩌면 일부 내용이 반복된다고 판단할 수는 있지만 이 기사가 포함되었는지 확인할 수는 없습니다. 물론, 검색 엔진의 프로그래밍이 향상됨에 따라 유사한 내용도 있어야 합니다. 예를 들어 텍스트 내용의 유사성이 몇 퍼센트를 초과하면 재인쇄로 간주됩니다.

이 분석을 마친 후에는 모든 사람이 이를 이해해야 한다고 생각합니다. 그냥 월넛님의 의견일 뿐입니다. 모두가 원하는 바를 이해해 주시길 바랍니다. 동의하지 않으시면 의견을 보내주세요!

몇 가지 추가 제안:

1. 귀하의 사이트가 새로운 사이트이고 그 비중이 높지 않은 경우 스파이더가 홈페이지에서 귀하의 페이지를 찾아 데이터베이스에 저장하도록 하려면 어떻게 해야 합니까? 실제로는 매우 간단합니다. Net Picker 및 Baidu Collection과 같은 도구를 사용하십시오. 거미가 귀하의 페이지를 더 빨리 찾을 수 있도록!

3. 기사를 게시하고 다른 사이트에 게시하기 전에 직접 포함될 때까지 기다리면서 동시에 원래 주소를 추가하는 방법은 매우 안전합니다!