귀하의 웹사이트를 Sina의 뉴스 데이터와 동기화하기 위해 지난주에 기사를 작성했습니다. 일부 네티즌들이 관심을 보였기 때문에 거기에 언급된 의사 원본 시스템을 공유하고 그 구현 원리도 소개하기로 결정했습니다. 내 Sisyphus 워크샵에서.
결국 검색 엔진은 여전히 기계입니다. 제목 변경, 일부 단어 교체, 일부 장 섞기, 일부 링크 삽입 등을 통해 현재 유사한 유사 원본 도구가 있습니다. 인터넷이지만 여전히 수동 작업이 필요하므로 자동 수집 프로그램과 결합하여 완전 자동, 무감독 자동 유사 원본 시스템을 만들고 싶습니다. , 전체 과정은 누구도 관리할 수 없으며 실시간 섹스를 합니다.
더 가까운 곳에서 기사의 의미에 영향을 주지 않고 단어를 바꾸는 더 좋은 방법은 동의어를 사용하여 바꾸는 것입니다. 그래서 첫 번째 단계는 인터넷에서 그러한 데이터베이스를 검색한 후 소용이 없다고 생각했습니다. 관련 웹사이트를 찾기로 결정했고, 수집 후 Kingsoft PowerWord가 내 요구 사항을 매우 잘 충족할 수 있다는 것을 알게 되었고, 수집을 통해 수만 개의 데이터가 포함된 어휘 라이브러리를 구축했습니다.
그러면 핵심 단어가 교체되는데 어떻게 교체하고 어떤 단어를 교체해야 할까요? 먼저 기사를 여러 개의 구문으로 분할한 다음 한자 2자 이상의 단어를 동의어 사전에서 검색하는 것이 제 생각입니다. 예, 그런 다음 교체하세요. 또한 동의어 속도를 높이기 위해 Python을 사용합니다. 일부 키 코드는 다음과 같습니다.
def getnewword(텍스트, 목록):
cxn. 실행("name='%s' 제한 1인 tool_words에서 ID 선택"%text)
결과=cxn. 가져오기()
유형(결과)이 NoneType이 아닌 경우:
cxn. Execute("tool_wordslike에서 이름을 선택하세요. 여기서 wid=%d order by rand() 제한 1"%result[0])
결과4=cxn. 가져오기()
유형(결과4)이 NoneType이 아닌 경우:
목록[텍스트]=결과4[0]
def cuttest(텍스트, 플래그):
목록={}
wlist = 세그먼트. 잘라내기(텍스트)
wlist. 뒤집다()
결과=""
wlist의 tmp의 경우:
iflen(tmp)>1:
플래그==1인 경우:
getnewword(tmp,목록)
플래그==1인 경우:
결과=""
목록의 k에 대해. 반복키():
결과+=k+","+목록[k]+";"
또 다른:
결과+=tmp+";";
결과 반환
하지만 결국 의사-원본 시스템도 프로그램이기 때문에 의미의 부적절성과 문장의 부드러움을 완전히 보장하는 것은 확실히 불가능합니다. 주로 가비지 덤프인 전문가에게 제공됩니다. 하하. 내 웹사이트는 개종 후 꽤 웃겼습니다. http://www.xxfsw.com/show24047.html 그 결과, 그의 죽음은 죽음으로 바뀌었습니다. 말 못하는. 물론 동의어 교체 외에 문단 반전, 링크 삽입 등도 있습니다. 이는 구현하기가 비교적 쉽기 때문에 나중에 구현 상황에 따라 자세히 설명하지 않겠습니다. , 나는 또한 검색 엔진에 표시를 달성하기 위한 몇 가지 방법을 생각했습니다. 의사 원본 콘텐츠를 사용하면 사용자에게 사전 의사 원본 콘텐츠를 제공할 수 있습니다. 그러나 이것이 얼마나 위험한지는 모르겠습니다. 이는 Baidu에서 수동으로 감지할지 여부입니다.
그 이후로 이 모든 문제가 발생한 후 Baidu Spider가 귀하의 사이트에 와서 충격을 받았습니다. 앗, 이전에 이 기사의 내용을 본 적이 없었습니다. 나는 그것을 수락했습니다.