Atualmente, estou operando um site não convencional. O conteúdo é coletado. A inclusão foi aceitável no início, mas foi banida logo depois. Apenas algumas dezenas de sites com dezenas de milhares de dados foram incluídos no Baidu. Claro, também sei que colecionar o tempo todo não é uma opção, mas com mão de obra limitada, é impossível adicioná-los um por um, e também é irrealista. Queria então pesquisar como os motores de busca determinam se é original ou não, mas infelizmente não há muito conteúdo sobre esse aspecto. Então pensei nisso da perspectiva de um engenheiro de pesquisa e não pude deixar de suar frio, porque era muito fácil determinar se era original ou não. Vou analisá-lo na ordem do meu pensamento para referência.
Deixe-me usar este artigo como exemplo para explicar. Título: Nanhao Beijing Technology Co., Ltd. é um fabricante profissional de leitores de cursor. Conteúdo: O leitor de cursor desenvolvido pela Nanhao Technology possui leitura rápida de cartões, excelente qualidade e bom atendimento. O endereço da nossa empresa é em XXXX, Pequim. Os spiders chegaram ao nosso site por meio de texto de hiperlink e à página deste artigo por meio de links no site. A análise de julgamento do mecanismo de pesquisa começa.
1. Análise do título. Muitas páginas da web agora têm traços óbvios de otimização e contêm muitas palavras de cauda longa, mas essas palavras de cauda longa no final devem apenas dizer ao mecanismo do que se trata a página, porque neste caso o mecanismo pensará que há também muitos repetem, obviamente esta é uma abordagem incorreta. Na verdade, deveria haver uma função de interceptação, por exemplo, apenas os primeiros 40 caracteres são interceptados como conteúdo da análise. Finalmente, presume-se que o que o mecanismo intercepta é: Nanhao Beijing Technology Co., Ltd. é um leitor de cursor profissional.
A primeira coisa a fazer é julgar se este título é único. Como julgar? Não se preocupe, existe uma maneira. Todos nós sabemos que a classificação do mecanismo é baseada em entradas de palavras, então como obtemos as entradas? Simples: entradas de termos de pesquisa relacionados. Conforme mostrado abaixo:
O mecanismo analisará e combinará os títulos interceptados um por um em seu banco de dados de acordo com os termos de pesquisa relevantes. Por exemplo, pegue a palavra "cursor reader" do título e combine-a com os termos de pesquisa relacionados. Se este título já existir no banco de dados, será considerado que este título não é único e o conteúdo do artigo precisa ser. combinado. Se a palavra leitor de cursor for correspondida, Nanhao Beijing será interceptado novamente, e assim por diante, e a correspondência será realizada... até que tenha analisado todas as palavras-chave que o motor pensa que o título contém.
Existem dois resultados finais correspondentes para o título: Primeiro, o banco de dados de títulos não possui atualmente esse conteúdo e o conteúdo precisa ser investigado. Em segundo lugar, este conteúdo já existe na base de dados de títulos e precisa de ser investigado.
2. Análise de conteúdo. A ideia básica deveria ser semelhante à análise do título, mas há diferenças. Afinal, as informações contidas no conteúdo são mais complexas que o título. São mais diversificadas e requerem algoritmos mais complexos.
Conforme mencionado anteriormente, nosso conteúdo é: o leitor de cursor desenvolvido pela Nanhao Technology possui leitura rápida de cartões, excelente qualidade e bom atendimento. O endereço da nossa empresa é em XXXX, Pequim. Como o conteúdo dos artigos geralmente é muito longo, é impossível analisar palavras-chave. Ele tem que analisar e combinar uma frase ou parágrafo. No entanto, este intervalo de correspondência ainda deve ser analisado e combinado na base de dados do artigo com termos de pesquisa relevantes no título.
Primeiro, vamos falar sobre seu método de análise em geral: interceptar aleatoriamente campos longos aleatórios e, em seguida, analisar o conteúdo antes e depois desse campo. Se a página atual e o banco de dados de conteúdo do mecanismo tiverem os mesmos campos e os parágrafos anteriores e posteriores também forem os mesmos. mesmo, considerar-se-á que este artigo possui Plágio, suspeita de não originalidade. Este processo de análise geralmente precisa ser repetido várias vezes. Se você analisar 10 vezes, 9 vezes haverá o mesmo conteúdo no banco de dados de conteúdo existente antes e depois do campo interceptado, mais o título será o mesmo. o artigo será Foi considerado não original.
Vamos simular abaixo.
O mecanismo interceptou pela primeira vez "O leitor de cursor lê cartões rapidamente" e, em seguida, chegou ao banco de dados de artigos por meio de termos de pesquisa relacionados. O campo do banco de dados existente foi precedido por "Pesquisa e Desenvolvimento de Tecnologia" e o campo seguinte foi "Excelente Qualidade". ". Retire esses dois campos que correspondem à nossa página atual. Se houver o mesmo conteúdo, será registrado como 0; se não houver conteúdo semelhante, será registrado como 1. Uma partida foi concluída.
Em seguida, intercepte o "endereço da empresa", execute a operação e obtenha novamente o resultado 0 ou 1 e assim por diante. Até que o número de ciclos correspondentes definido pelo motor seja concluído. Se você acertar 10 vezes e encontrar o mesmo conteúdo 7, 8 ou 10 vezes, seu artigo será considerado não original...
Indo além, se for determinado que este é um artigo original, o mecanismo executará uma operação +1 no nome de domínio em seu banco de dados de peso de nomes de domínio. Obviamente, à medida que mais e mais artigos originais forem publicados, o peso será maior. e mais alto, e a classificação será mais alta. Como A5, chinaZ.
Quero combinar as palavras-chave entre o título e o conteúdo. Contanto que haja correspondências suficientes e expanda com ousadia o intervalo de correspondência do banco de dados relevante, posso dizer se um artigo é original ou não. Na verdade, os processadores de hoje estão cada vez mais rápidos e baratos. Além disso, os engenheiros dos mecanismos de pesquisa são todos altamente qualificados, os algoritmos foram aprimorados e a experiência foi acumulada. Os motores de busca julgam se um artigo é original ou não, tão fácil quanto cortar repolho.
Tudo bem se eu não pensar nisso, mas fico muito chocado quando penso nisso. Cheguei à conclusão de que a estação de coleta deveria morrer. Deveria ser original, ou pelo menos o título deveria ser alterado. Vamos dar uma olhada e, se tiver tempo, compartilharei como escrever artigos pseudo-originais que não podem ser analisados pelos motores.
O texto acima é apenas minha análise simples. Afinal, o algoritmo real é muito mais complicado. É apenas para referência. Outro anúncio: http://www.nanhaokeji.com Um site que eu opero está procurando links amigáveis. preferido. O PR acaba de ser atualizado 1, QQ: 419844484, indique o link do amigo ao adicionar amigos.
Editor responsável: Chen Long Autor, espaço pessoal do sentimento do mar