Escrevi um artigo na semana passada para manter o seu site sincronizado com os dados de notícias do Sina. Alguns internautas se interessaram, então resolvi compartilhar com vocês o sistema pseudo-original nele mencionado e apresentar o princípio de sua implementação, este sistema também é abordado. em meu Workshop de Sísifo.
Afinal, um mecanismo de busca ainda é uma máquina. Ao alterar o título, substituir algumas palavras, embaralhar alguns capítulos, inserir alguns links, etc., ele pode atingir o objetivo de pseudo-originalidade. Atualmente, existem ferramentas pseudo-originais semelhantes. a Internet, mas eles ainda exigem operação manual, então eu quero fazer um sistema pseudo-original totalmente automático e não supervisionado. Combinado com o programa de coleta automática, o processo de coleta-> armazenamento-> pseudo-original pode ser realizado. , e todo o processo não pode ser gerenciado por ninguém e faz sexo em tempo real.
Mais perto de casa, a melhor maneira de alterar palavras sem afetar a semântica do artigo é usar sinônimos para substituí-las. Então pensei que o primeiro passo seria construir um dicionário de sinônimos. Depois de pesquisar esse banco de dados na Internet, sem sucesso. Decidi encontrar um site relacionado. Após a coleta, descobri que Kingsoft PowerWord pode atender muito bem aos meus requisitos. Por meio da coleção, estabeleci uma biblioteca de vocabulário com dezenas de milhares de dados.
Em seguida, as palavras-chave são substituídas, então como substituí-las e quais substituir. Minha ideia é primeiro segmentar o artigo em várias frases e depois procurar aquelas com comprimento superior a dois caracteres chineses no dicionário de sinônimos. sim, então substitua-o. Eu uso python para implementar esse processo. Além disso, para acelerar os sinônimos, você pode usar o armazenamento de valores-chave. Alguns códigos-chave são os seguintes:
def getnovapalavra(texto, lista):
cxn. execute("selecione o id de tool_words onde nome='%s' limite 1"%text)
resultado=cxn. buscar()
se o tipo (resultado) não for NoneType:
cxn. execute("selecione o nome de tool_wordslike onde wid=%d ordene por rand() limite 1"%resultado[0])
resultado4=cxn. buscar()
se type(result4) não for NoneType:
lista[texto]=resultado4[0]
def cuttest(texto, bandeira):
lista={}
listaw = seg. cortar (texto)
lista de desejos. reverter()
resultado = ""
para tmp em wlist:
iflen(tmp)>1:
se sinalizador==1:
obternovapalavra(tmp,lista)
se sinalizador==1:
resultado = ""
para k na lista. iterkeys():
resultado+=k+","+lista[k]+";"
outro:
resultado+=tmp+";";
resultado de retorno
Mas afinal, o sistema pseudo-original também é um programa. É certamente impossível garantir completamente a inadequação da semântica e da suavidade das frases. Ele é fornecido principalmente para aqueles especialistas que são lixões. no meu site foi bastante engraçado após a conversão http ://www.xxfsw.com/show24047.html , o acadêmico russo Ginzburg, ganhador do Prêmio Nobel de Física, faleceu. sem palavras. Claro que além da substituição de sinônimos, há também a inversão de parágrafos, inserção de links, etc. São relativamente fáceis de implementar, por isso não entrarei em detalhes mais tarde. , também pensei em alguns métodos para conseguir a exibição nos mecanismos de pesquisa. O uso de conteúdo pseudo-original fornecerá aos usuários conteúdo pré-pseudo-original. Isso atinge o objetivo sem afetar a experiência do usuário. isto é e se será detectado manualmente pelo Baidu.
Desde então, depois de todo esse problema, o Baidu Spider chegou ao seu site e ficou chocado: Ops, não vi o conteúdo deste artigo antes, aceitei!