D'une manière générale, le fait qu'un mot ou une expression puisse devenir un mot-clé dans un article dépend principalement de sa capacité à refléter l'idée centrale de l'article. La corrélation entre les mots-clés et les articles vise principalement à illustrer dans quelle mesure un mot ou une expression sélectionné peut refléter l'idée centrale ou le thème de l'article pour un article donné. L'extraction des mots-clés est affectée par la position du mot dans l'article, la fréquence d'occurrence et les caractéristiques sémantiques du mot. Alors, comment les moteurs de recherche déterminent-ils la corrélation entre les mots-clés et les articles ? Ici, l'auteur part de certaines de ses propres opinions et a quelques idées, qui devraient être utilisées pour inspirer les autres et obtenir les conseils de chacun.
Personnellement, je pense que les moteurs de recherche devraient analyser les mots-clés et la nature des articles en suivant les étapes suivantes :
Premièrement : Le moteur de recherche purifie d’abord les pages web à analyser.
La purification des pages Web supprime principalement un grand nombre de publicités inutiles, de barres de navigation et autres bruits de modèles de pages Web, ainsi que le contenu dénué de sens, tel que les scripts javaScript, les balises CSS et autres contenus de la page Web. Quant à l'algorithme utilisé par le moteur de recherche, nous ne le savons pas, mais mon estimation personnelle est qu'il divise les pages Web en différents blocs, détermine les blocs contenant du contenu thématique en mesurant l'importance des blocs de la page Web, puis extrait As pour le contenu de ce bloc, quant à la manière dont les moteurs de recherche déterminent l'importance de la vitesse des pages Web, c'est un autre sujet.
Deuxièmement : effectuer un traitement de segmentation de mots sur le contenu extrait
Personnellement, je pense que le moteur de recherche a peut-être utilisé une sorte d'algorithme pour segmenter grossièrement le contenu en mots, et obtenir d'abord N résultats de segmentation avec la probabilité la plus élevée, puis utiliser la méthode d'annotation de rôle pour identifier les mots non enregistrés et calculer leurs probabilités. des mots sont ajoutés au graphique de mots segmenté, puis traités comme des mots ordinaires, et enfin une programmation dynamique est effectuée pour sélectionner N résultats d'annotation de segmentation à probabilité maximale. et enregistrez-le.
Troisièmement : supprimez les mots dénués de sens des résultats préliminaires de la segmentation des mots.
Le moteur de recherche analyse les résultats de la segmentation des mots dans un deuxième temps et supprime certains mots non substantiels tels que les particules modales et les adjectifs ainsi que certains mots. Il considère également que les informations exprimées par des mots composés d'un seul mot ne sont pas suffisamment complètes et doivent être filtrées. . La suppression des mots vides est réalisée en créant une liste de mots vides. De cette façon, après avoir supprimé ces mots dénués de sens, il ne reste que des mots significatifs qui méritent d’être analysés.
Quatrième : Déterminer et analyser le poids des mots-clés
Après avoir terminé la segmentation et la purification des mots de l'article, il est nécessaire d'analyser tous les mots-clés de l'article. L'idée de l'auteur est que le moteur de recherche représente le texte comme un vecteur de caractéristiques de dimension IV et que chaque composant dimensionnel est constitué de mots-clés et de mots-clés. leurs poids. On pense généralement que la détermination du poids des mots-clés dans un texte est principalement composée de trois parties : la fréquence, la position et la signification des mots influencent conjointement la décision. L'impact de la fréquence et de la position des mots sur des mots ou des phrases peut être déterminé grâce à certains algorithmes, et les poids de signification des mots sont également analysés et calculés à l'aide d'algorithmes fixes. Le moteur de recherche utilise un algorithme défini pour calculer et analyser les mots-clés ci-dessus. Pour obtenir le résultat final.
L'auteur pense que le moteur de recherche obtiendra le résultat final après l'avoir analysé à travers les étapes ci-dessus. L'auteur parle ici de sa méthode d'analyse spécifique du moteur de recherche, qui n'est que son opinion personnelle :
Premièrement : poids des moteurs de recherche en fonction de la position du mot clé
Dans un document, l'emplacement d'un mot-clé joue un rôle important dans la détermination du poids d'un mot-clé sur la page pour les moteurs de recherche. Par exemple, le nom de domaine est considéré par les moteurs de recherche comme le facteur le plus fixe du site Web. Par exemple, un nom de domaine contenant le mot-clé DVD présente un avantage inhérent lorsque les utilisateurs recherchent le mot-clé DVD. Le titre est la ressource la plus précieuse du site Web. Les moteurs de recherche pensent que le titre est affiché dans la barre de titre du navigateur. Parce qu'il est affiché aux utilisateurs, il s'agit du résumé le plus important et le plus concis du fichier. Bien mettre en avant la proportion de mots-clés dans le titre est très propice à l’amélioration des classements.
Deuxièmement : les moteurs de recherche sont basés sur la fréquence des mots-clés
Le nombre total de mots-clés différents dans la page Web est un aspect très important. Personnellement, je pense que même si l'emplacement et la fréquence des mots-clés ont une grande influence sur le poids des mots-clés, une fréquence élevée des mots ne détermine pas si le mot convient comme mot-clé. Pour donner un exemple simple, nous optimisons « États-Unis » dans un article. La fréquence du mot est très élevée et la position où il apparaît est également très importante. Cependant, ce mot ne peut toujours pas avoir un poids plus élevé car « États-Unis ». "États-Unis" apparaît également largement dans d'autres documents. Dans ces documents, "États-Unis" apparaît également fréquemment et son emplacement est également important. Par conséquent, les mots qui sont très fréquents mais qui ne conviennent pas comme mots-clés devraient avoir moins de poids.
Troisièmement : la distance entre les mots-clés importants dans le document
Analyse personnelle, la distance entre les mots-clés importants dans le document doit également être un aspect important pour mesurer la pertinence des mots-clés et des articles.
L'auteur estime qu'une fois que le moteur de recherche aura effectué la série de traitements ci-dessus, il attribuera à l'article un certain score pour ce mot-clé. Lorsqu'un utilisateur recherche un certain mot-clé, la probabilité que l'article avec un score élevé soit classé en premier est élevée. beaucoup plus grande. Bien sûr, cela exclut l’influence des liens externes. Ce qui précède sont quelques opinions personnelles sur les moteurs de recherche, qui ne sont pas nécessairement correctes. J'espère pouvoir en tirer des leçons ensemble. Enfin, les droits d'auteur de l'article appartiennent à : Guangzhou Abortion Hospital : http://www.gzrlw.net/ . Vous êtes invités à le réimprimer, mais veuillez le faire. Veuillez conserver le lien, merci pour votre compréhension et votre coopération !
Merci à siyi8473 pour sa contribution