검색 엔진은 페이지 기사의 내용이 원본인지 어떻게 확인합니까?

저자：Eve Cole 업데이트 시간：2011-06-29 16:44:06

현재는 비주류 웹사이트를 운영하고 있는데, 처음에는 포함이 괜찮았는데 나중에는 수만 건의 데이터가 포함된 사이트가 몇십 개밖에 안 됐습니다. 물론, 쭉 모아두는 것은 선택사항이 아니고 제한된 인력으로 하나씩 추가하는 것이 불가능하고 비현실적이라는 것도 알고 있습니다. 그래서 검색엔진이 원본인지 아닌지를 어떻게 판단하는지 찾아보고 싶었는데 아쉽게도 이 부분에 대한 내용은 많지 않습니다. 그러다가 검색엔지니어의 입장에서 생각해 보니 진품인지 아닌지 판단하기가 너무 쉬웠기 때문에 식은땀을 흘리지 않을 수 없었습니다. 참고용으로 제가 생각하는 순서대로 분석하겠습니다.

이 기사를 예로 들어 설명하겠습니다. 제목: Nanhao Beijing Technology Co., Ltd.는 커서 리더 전문 제조업체입니다. 내용: Nanhao Technology가 개발한 커서 리더는 빠른 카드 판독, 우수한 품질 및 우수한 서비스를 제공합니다. 저희 회사 주소는 베이징 XXXX에 있습니다. Spiders는 하이퍼링크 텍스트를 통해 우리 웹사이트에 왔고, 사이트 내 링크를 통해 이 기사 페이지에 왔습니다. 검색엔진 판단분석이 시작됩니다.

1. 제목 분석. 이제 많은 웹 페이지에는 최적화의 흔적이 뚜렷하고 많은 롱테일 단어가 포함되어 있습니다. 하지만 뒤쪽에 있는 이러한 롱테일 단어는 엔진에 페이지 내용을 알려주어야 합니다. 많은 반복합니다. 분명히 이것은 잘못된 접근 방식입니다. 실제로 가로채기 기능이 있어야 하는데, 예를 들어 처음 40자만 분석 내용으로 가로채는 것입니다. 마지막으로 엔진이 가로채는 내용은 다음과 같습니다. Nanhao Beijing Technology Co., Ltd.는 전문 커서 리더입니다.

가장 먼저 해야 할 일은 이 제목이 독특한지 판단하는 것입니다. 어떻게 판단할지 방법이 있습니다. 우리 모두는 엔진 분류가 단어 항목을 기반으로 한다는 것을 알고 있습니다. 그렇다면 항목을 어떻게 얻을 수 있습니까? 단순: 관련 검색어 항목입니다. 아래와 같이:

엔진은 관련 검색어에 따라 데이터베이스에서 가로채는 제목을 하나씩 분석하고 일치시킵니다. 예를 들어, 제목에서 "cursor reader"라는 단어를 가져온 다음 관련 검색어와 일치시킵니다. 이 제목이 데이터베이스에 이미 존재하는 경우 이 제목은 고유하지 않은 것으로 간주되며 기사 내용은 다음과 같아야 합니다. 일치합니다. 단어 커서 리더가 일치하면 Nanhao Beijing이 다시 가로채는 식으로 엔진이 제목에 포함되어 있다고 생각하는 모든 키워드를 분석할 때까지 일치가 수행됩니다.

제목에 대한 두 가지 최종 일치 결과가 있습니다. 첫째, 제목 데이터베이스에 현재 이 콘텐츠가 없으며 콘텐츠를 조사해야 합니다. 둘째, 이 콘텐츠는 이미 타이틀 데이터베이스에 존재하므로 조사가 필요합니다.

2. 내용 분석. 기본적인 아이디어는 제목의 분석과 유사해야 하지만, 결국 내용에 포함된 정보는 제목보다 더 복잡하고 더 복잡한 알고리즘이 필요합니다.

앞서 언급한 바와 같이 우리의 콘텐츠는 다음과 같습니다: Nanhao Technology가 개발한 커서 리더는 빠른 카드 판독, 우수한 품질 및 우수한 서비스를 제공합니다. 저희 회사 주소는 베이징 XXXX에 있습니다. 기사의 내용은 일반적으로 매우 길기 때문에 키워드 분석이 불가능하며, 문장이나 문단을 분석하여 일치시켜야 합니다. 그러나 이 일치 범위는 여전히 제목의 관련 검색어와 함께 기사 데이터베이스에서 분석되고 일치되어야 합니다.

먼저 그의 일반적인 분석 방법에 대해 이야기해 보겠습니다. 임의의 긴 필드를 무작위로 가로채서 이 필드 전후의 내용을 분석합니다. 현재 페이지와 엔진 콘텐츠 데이터베이스에 동일한 필드가 있고 앞문단과 뒷문단도 동일합니다. 마찬가지로 이 글은 표절, 비독창성 의심이 있는 것으로 간주됩니다. 이 분석 프로세스는 일반적으로 여러 번 반복되어야 합니다. 10번, 9번은 가로채는 필드 전후에 동일한 콘텐츠가 있으며 이 경우 제목도 동일합니다. 기사는 독창적이지 않은 것으로 간주됩니다.

아래에서 시뮬레이션해 보겠습니다.

엔진은 처음으로 "커서 리더가 카드를 빠르게 읽는다"를 가로채더니 관련 검색어를 통해 기사 데이터베이스로 들어왔습니다. 기존 데이터베이스 필드 앞에는 "기술 연구 및 개발"이 있었고 뒤의 필드는 "우수한 품질"이었습니다. ". 이 두 필드를 꺼내 현재 페이지와 일치시킵니다. 동일한 내용이 있으면 0으로 기록하고, 유사한 내용이 없으면 1로 기록합니다. 한 경기가 완료되었습니다.

그런 다음 "회사 주소"를 가로채서 작업을 수행하고 다시 0 또는 1의 결과를 얻는 식으로 계속됩니다. 엔진이 설정한 매칭 횟수가 완료될 때까지. 10번 일치하고 동일한 내용이 7, 8, 10번 발견되면 귀하의 기사는 원본이 아닌 것으로 간주됩니다...

더 나아가, 이것이 원본 기사라고 판단되면 엔진은 도메인 이름 가중치 데이터베이스의 도메인 이름에 대해 +1 작업을 수행합니다. 당연히 더 많은 원본 기사가 게시될수록 가중치는 더 높아질 것입니다. 점점 더 높아질 것이고 순위도 더욱 높아질 것입니다. A5, chinaZ와 같은.

제목과 내용의 키워드를 일치시키고, 해당 데이터베이스의 일치 범위를 과감하게 확장하면 기사의 원본인지 아닌지를 알 수 있습니다. 실제로 오늘날의 프로세서는 점점 더 빨라지고 저렴해지고 있습니다. 또한 검색 엔진 엔지니어는 모두 고등 교육을 받았으며 알고리즘이 개선되었으며 경험이 축적되었습니다. 검색 엔진은 양배추를 자르는 것처럼 쉽게 기사의 원본 여부를 판단합니다.

생각하지 않아도 괜찮은데 생각해보면 정말 충격적이네요. 컬렉션 스테이션은 죽어야 한다는 결론을 내렸어요. 아니면 제목이라도 바꿔야죠! 한번 살펴보고, 시간이 된다면 엔진으로 분석할 수 없는 유사 원본 기사 작성 방법을 공유하겠습니다.

위의 내용은 단순한 분석일 뿐입니다. 실제 알고리즘은 참고용일 뿐입니다. 또 다른 광고: http://www.nanhaokeji.com . PR이 방금 업데이트되었습니다. 1, QQ: 419844484, 친구를 추가할 때 친구 링크를 표시하세요.

담당 편집자 : Chen Long 저자 Feelingseas의 개인 공간