¿Cómo determinan los motores de búsqueda si el contenido del artículo de una página es original?

Autor：Eve Cole Fecha de actualización：2011-06-29 16:44:06

Actualmente estoy operando un sitio web no convencional. El contenido se recopila. La inclusión estuvo bien al principio, pero fue prohibida poco después. Solo se incluyen unas pocas docenas de sitios con decenas de miles de datos. Por supuesto, también sé que recolectar todo el tiempo no es una opción, pero con mano de obra limitada, es imposible agregarlos uno por uno y tampoco es realista. Así que quería investigar cómo los motores de búsqueda determinan si es original o no, pero lamentablemente no hay mucho contenido sobre este aspecto. Luego lo pensé desde la perspectiva de un ingeniero de búsqueda y no pude evitar sudar frío, porque era demasiado fácil determinar si era original o no. Lo analizaré en el orden de mi pensamiento como referencia.

Permítanme usar este artículo como ejemplo para explicarlo. Título: Nanhao Beijing Technology Co., Ltd. es un fabricante profesional de lectores de cursor. Contenido: El lector de cursor desarrollado por Nanhao Technology tiene una lectura rápida de tarjetas, excelente calidad y buen servicio. La dirección de nuestra empresa está en XXXX, Beijing. Las arañas llegaron a nuestro sitio web a través de texto de hipervínculo y a la página de este artículo a través de enlaces dentro del sitio. Comienza el análisis del criterio del motor de búsqueda.

1. Análisis del título. Muchas páginas web ahora tienen rastros obvios de optimización y contienen muchas palabras de cola larga, pero estas palabras de cola larga al final deberían decirle al motor de qué trata la página, porque en este caso el motor pensará que también las hay. Muchos repiten, obviamente este es un enfoque incorrecto. De hecho, debería haber una función de interceptación, por ejemplo, solo se interceptan los primeros 40 caracteres como contenido del análisis. Finalmente, se supone que lo que intercepta el motor es: Nanhao Beijing Technology Co., Ltd. es un lector de cursor profesional.

Lo primero que hay que hacer es juzgar si este título es único. ¿Cómo juzgar? No te preocupes, hay una manera. Todos sabemos que la clasificación de motores se basa en entradas de palabras, entonces, ¿cómo obtenemos las entradas? Simple: entradas de términos de búsqueda relacionados. Como se muestra a continuación:

El motor analizará y relacionará los títulos interceptados uno por uno en su base de datos según los términos de búsqueda relevantes. Por ejemplo, tome la palabra "lector de cursor" del título y luego combínela con términos de búsqueda relacionados. Si este título ya existe en la base de datos, se considerará que este título no es único y el contenido del artículo debe serlo. emparejado. Si el lector de cursor de palabras coincide, Nanhao Beijing será interceptado nuevamente, y así sucesivamente, y se llevará a cabo la coincidencia... hasta que haya analizado todas las palabras clave que el motor cree que contiene el título.

Hay dos resultados finales coincidentes para el título: primero, la base de datos del título no tiene actualmente este contenido y es necesario investigar el contenido. En segundo lugar, este contenido ya existe en la base de datos de títulos y necesita ser investigado.

2. Análisis de contenido. La idea básica debería ser similar al análisis del título, pero existen diferencias después de todo, la información contenida en el contenido es más compleja que el título y requiere algoritmos más complejos.

Como se mencionó anteriormente, nuestro contenido es: el lector de cursor desarrollado por Nanhao Technology tiene una lectura rápida de tarjetas, excelente calidad y buen servicio. La dirección de nuestra empresa está en XXXX, Beijing. Debido a que el contenido de los artículos es generalmente muy extenso, es imposible analizar las palabras clave. Tiene que analizar y relacionar una oración o un párrafo. Sin embargo, este rango de coincidencia aún debe analizarse y compararse en la base de datos del artículo con términos de búsqueda relevantes en el título.

Primero, hablemos de su método de análisis en general: intercepte aleatoriamente campos largos aleatorios y luego analice el contenido antes y después de este campo si la página actual y la base de datos de contenido del motor tienen los mismos campos y los párrafos frontal y posterior también son los mismos. De igual forma, se considerará que este artículo tiene Plagio, sospecha de falta de originalidad. Este proceso de análisis generalmente debe repetirse varias veces. Si lo analiza 10 veces, 9 veces habrá el mismo contenido en la base de datos de contenido existente antes y después del campo interceptado, además el título es el mismo. El artículo será considerado no original.

Simulémoslo a continuación.

El motor interceptó por primera vez "El lector de cursor lee tarjetas rápidamente" y luego llegó a la base de datos del artículo a través de términos de búsqueda relacionados. El campo de la base de datos existente estaba precedido por "Investigación y desarrollo de tecnología" y el campo posterior era "Excelente calidad". ". Saque estos dos campos que se comparan con nuestra página actual. Si hay el mismo contenido, se registra como 0; si no hay contenido similar, se registra como 1. Se completa un partido.

Luego intercepte la "dirección de la empresa", realice la operación y obtenga nuevamente un resultado de 0 o 1, y así sucesivamente. Hasta completar el número de ciclos coincidentes fijados por el motor. Si coincides 10 veces y encuentras el mismo contenido 7, 8 o 10 veces, entonces tu artículo se considerará no original...

Yendo más allá, si se determina que se trata de un artículo original, el motor realizará una operación +1 en el nombre de dominio en su base de datos de peso de nombres de dominio. Obviamente, a medida que se publiquen más y más artículos originales, el peso será mayor. y más alto, y la clasificación será más alta. Como A5, chinaZ.

Quiero hacer coincidir las palabras clave entre el título y el contenido, siempre que haya suficientes coincidencias y ampliar audazmente el rango de coincidencias de la base de datos relevante, puedo saber si un artículo es original o no. De hecho, los procesadores actuales son cada vez más rápidos y más baratos. Además, todos los ingenieros de motores de búsqueda tienen un alto nivel de formación, se han mejorado los algoritmos y se ha acumulado experiencia. Los motores de búsqueda juzgan si un artículo es original o no, tan fácil como picar repollo.

Está bien si no pienso en eso, pero me sorprende mucho cuando lo pienso. Llegué a la conclusión de que la estación de recolección debe morir. ¡Debería ser original, o al menos debería cambiarse el título! Echemos un vistazo y, si tengo tiempo, compartiré cómo escribir artículos pseudooriginales que los motores no pueden analizar.

Lo anterior es solo mi análisis simple. Después de todo, el algoritmo real es mucho más complicado. ¡Es solo como referencia! Otro anuncio: http://www.nanhaokeji.com . Un sitio web que opero busca enlaces amigables. preferido El PR acaba de actualizarse 1, QQ: 419844484, indique el enlace de amigo al agregar amigos.

Editor a cargo: Chen Long Autor espacio personal de listeningseas