En términos generales, el hecho de que una palabra o frase pueda convertirse en una palabra clave en un artículo depende principalmente de su capacidad para reflejar la idea central del artículo. La correlación entre palabras clave y artículos tiene como objetivo principal ilustrar qué tan bien una palabra o frase seleccionada puede reflejar la idea central o el tema del artículo para un artículo determinado. La extracción de palabras clave se ve afectada por la posición de la palabra en el artículo, la frecuencia de aparición y las características semánticas de la palabra. Entonces, ¿cómo determinan los motores de búsqueda la correlación entre palabras clave y artículos? Aquí, el autor parte de algunas de sus propias opiniones y tiene algunas ideas que deberían usarse para inspirar a otros y obtener la orientación de todos.
Personalmente, creo que los motores de búsqueda deberían analizar las palabras clave y la naturaleza del artículo mediante los siguientes pasos:
Primero: El motor de búsqueda primero purifica las páginas web a analizar.
La purificación de páginas web elimina principalmente una gran cantidad de anuncios inútiles, barras de navegación y otros ruidos de plantillas de páginas web, así como contenido sin sentido, como scripts javaScript, etiquetas CSS y otros contenidos de la página web. En cuanto a qué algoritmo utiliza el motor de búsqueda, no lo sabemos, pero mi estimación personal es que divide las páginas web en diferentes bloques, determina los bloques que contienen contenido temático midiendo la importancia de los bloques de la página web y luego extrae como Para el contenido de este bloque, en cuanto a cómo los motores de búsqueda determinan la importancia de la velocidad de la página web, ese es otro tema.
Segundo: realizar procesamiento de segmentación de palabras en el contenido extraído
Personalmente, creo que el motor de búsqueda puede haber utilizado algún tipo de algoritmo para segmentar aproximadamente el contenido en palabras y obtener primero N resultados de segmentación con la mayor probabilidad, luego utilizar el método de anotación de roles para identificar palabras no registradas y calcular sus probabilidades; Las palabras se agregan al gráfico de palabras segmentadas y luego se tratan como palabras ordinarias y, finalmente, se realiza una programación dinámica para seleccionar N resultados de anotaciones de segmentación de máxima probabilidad. y grabarlo.
Tercero: elimine las palabras sin sentido de los resultados preliminares de la segmentación de palabras.
El motor de búsqueda analiza los resultados de la segmentación de palabras en el segundo paso y elimina algunas palabras no sustanciales, como partículas modales y adjetivos, y algunas palabras. También considera que la información expresada por palabras de una sola palabra no es lo suficientemente completa y debe filtrarse. . La eliminación de palabras vacías se logra mediante la creación de una lista de palabras vacías. De esta manera, después de eliminar estas palabras sin sentido, lo que queda son palabras significativas dignas de análisis.
Cuarto: determinar y analizar el peso de las palabras clave.
Después de completar la segmentación y purificación de palabras del artículo, es necesario analizar todas las palabras clave del artículo. La idea del autor es que el motor de búsqueda represente el texto como un vector de características de cuatro dimensiones, y cada componente dimensional consta de palabras clave y. sus pesos. Generalmente se cree que la determinación del peso de las palabras clave en un texto se compone principalmente de tres partes: la frecuencia de las palabras, la posición y el significado de las palabras influyen conjuntamente en la decisión. El impacto de la frecuencia y posición de las palabras en palabras o frases se puede determinar mediante ciertos algoritmos, y el peso del significado de las palabras también se analiza y calcula utilizando algoritmos fijos. El motor de búsqueda utiliza un algoritmo establecido para calcular y analizar las palabras clave anteriores. Para obtener el resultado final.
El autor cree que el motor de búsqueda obtendrá el resultado final después de analizarlo mediante los pasos anteriores. El autor aquí habla sobre su método de análisis específico del motor de búsqueda, que es solo su opinión personal:
Primero: peso del motor de búsqueda según la posición de las palabras clave
En un documento, la ubicación de una palabra clave juega un papel importante a la hora de determinar el peso de una palabra clave en la página para los motores de búsqueda. Por ejemplo, los motores de búsqueda consideran que el nombre de dominio es el factor más fijo del sitio web. Por ejemplo, un nombre de dominio que contiene la palabra clave DVD tiene una ventaja inherente cuando los usuarios buscan la palabra clave DVD. El título es el recurso más valioso del sitio web. Los motores de búsqueda creen que el título se muestra en la barra de título del navegador. Debido a que se muestra a los usuarios, es el resumen más importante y conciso del archivo. Destacar adecuadamente la proporción de palabras clave en el título ayuda mucho a mejorar la clasificación.
Segundo: los motores de búsqueda se basan en la frecuencia de las palabras clave.
El número total de palabras clave diferentes en la página web es un aspecto muy importante. Personalmente, creo que aunque la ubicación y la frecuencia de las palabras clave tienen una gran influencia en el peso de las palabras clave, una alta frecuencia de palabras no determina si la palabra es adecuada como palabra clave. Por poner un ejemplo sencillo, estamos optimizando "Estados Unidos" en un artículo. La frecuencia de la palabra es muy alta y la posición donde aparece también es muy importante. Sin embargo, todavía no se le puede dar un peso mayor a esta palabra porque "Estados Unidos". "Estados Unidos" también aparece ampliamente en otros documentos. En estos documentos, "Estados Unidos" también aparece con frecuencia y su ubicación también es importante. Por lo tanto, a las palabras que tienen alta frecuencia pero que no son adecuadas como palabras clave se les debe dar menos peso.
Tercero: la distancia entre las palabras clave importantes del documento.
Análisis personal, la distancia entre las palabras clave importantes en el documento también debería ser un aspecto importante para medir la relevancia de las palabras clave y los artículos.
El autor cree que después de que el motor de búsqueda realiza la serie de procesamiento anterior, le dará al artículo una determinada puntuación para esta palabra clave. Cuando un usuario busca una determinada palabra clave, la posibilidad de que el artículo con una puntuación alta ocupe el primer lugar es. mucho mayor, por supuesto, esto excluye la influencia de enlaces externos. Las anteriores son algunas opiniones personales sobre los motores de búsqueda, que no son necesariamente correctas. Espero poder aprender de ellas juntos. Finalmente, los derechos de autor del artículo pertenecen a: Guangzhou Abortion Hospital: http://www.gzrlw.net/ . Puede reimprimirlo, pero hágalo. Conserve el enlace. ¡Gracias por su comprensión y cooperación!
Gracias a siyi8473 por su contribución.