Une brève analyse des principes des moteurs de recherche : correspondance de fichiers et sélection initiale de sous-ensembles

Auteur：Eve Cole Date de mise à jour：2011-03-21 16:26:40

La correspondance de fichiers et la sélection initiale de sous-ensembles sont deux aspects très importants dans le processus de classement des moteurs de recherche. Aujourd'hui, je vais vous donner quelques résumés de base sur ces deux aspects. Bien que ceux-ci semblent n'avoir rien à voir avec nous, tout le monde devrait en apprendre davantage sur certains principes de base, qui auront une certaine importance pour la construction et l'optimisation futures de sites Web. Bien sûr, ce ne sont que quelques-uns de mes propres résumés. S'il y a des erreurs. , j'espère que s'il vous plaît apporter des corrections.

Une fois que le moteur de recherche a franchi les premières étapes de prétraitement, le moteur de recherche obtient un ensemble de mots-clés en unités de mots. Avant cela, le moteur de recherche obtenait d'abord un fichier correspondant à plusieurs mots-clés, mais une telle efficacité de requête était trop faible et irréaliste, de sorte que le moteur de recherche mappait ces fichiers de manière inversée, et le résultat était un mot-clé correspondant à un document à plusieurs mots-clés. De cette manière, lorsque l'utilisateur recherche un certain mot-clé, le calcul et la correspondance sont effectués dans tous les fichiers correspondant au mot-clé, et les meilleurs résultats de recherche sont renvoyés à l'utilisateur. Après avoir compris ce processus général, commençons à partager les deux aspects principaux d’aujourd’hui.

La première est la correspondance de fichiers : les robots des moteurs de recherche explorent et récupèrent tout le temps, et ils trient, résument et stockent constamment les données capturées. Ces processus ne sont pas effectués lorsque l'utilisateur effectue une recherche, mais sont prétraités avant et après la recherche. Lorsque l'utilisateur recherche un certain mot-clé, le moteur de recherche effectue une recherche uniquement dans sa propre base de données, plutôt que de rechercher sur Internet en temps réel. sur tous les sites Internet. Afin de l'exprimer plus clairement, je vais vous l'expliquer avec un schéma simple :

Cette image est un tableau de fichiers de correspondance rapide à index inversé typique. Lorsque l'utilisateur recherche "mot-clé 1, mot-clé 16", le moteur de recherche effectuera des calculs simples et une correspondance dans tous les fichiers correspondant à ces deux mots, et trouvera les fichiers qui contiennent le mot-clé 1. contient également toutes les pages du mot-clé 16.

La seconde est la sélection initiale du sous-ensemble : le sous-ensemble doit répondre plus rapidement aux besoins des utilisateurs. Le moteur de recherche doit sélectionner parmi toutes les pages pertinentes, et ne calcule que les pages ayant un poids légèrement plus élevé et les renvoie à l'utilisateur. est souvent appelé le sous-ensemble initial de filtrage. Vous pouvez imaginer que lorsque nous recherchons un certain mot-clé, le nombre de pages contenant ce mot-clé est souvent énorme, voire des centaines de milliers ou des millions. Si un moteur de recherche correspond à une telle quantité de données, cela prendra évidemment plus de temps. Afin de mieux répondre aux besoins des utilisateurs, dans la pratique, les moteurs de recherche ne sélectionneront que les pages avec un poids élevé, mais quels types de pages ont un poids élevé. poids ? , pour répondre aux conditions des moteurs de recherche ? Cela inclut l’influence de nombreux aspects du contenu et des éléments liés à la page, à la fois externes et internes. Cette question n'est pas au centre du résumé de cet article, je la partagerai lentement avec vous dans les prochains articles.

Habituellement, lorsque nous effectuons une recherche, il est impossible d'examiner tous les résultats de recherche un par un. Généralement, nous examinons uniquement les premières pages ou même les premières. Bien qu'il existe de nombreux résultats connexes renvoyés par le moteur de recherche, ces résultats sont. toujours qualifié sur Internet.Il ne s'agit que d'une petite partie de nombreuses pages Web.Par conséquent, les habitudes de recherche des utilisateurs changent et les moteurs de recherche sont également confrontés à de grands défis.Comment mieux aider les utilisateurs à rechercher les informations dont ils ont besoin est toujours la priorité des moteurs de recherche. essaient de faire la chose.

À ce stade, j'ai partagé avec vous quelques principes de base des moteurs de recherche via la correspondance de fichiers et la sélection initiale de sous-ensembles. Bien sûr, il y a beaucoup plus de choses qui doivent être techniquement impliquées, et tous les aspects à prendre en compte sont plus complets et complexes. Ce sont juste des principes généraux que j’ai résumés pour tout le monde. En comprenant tous les aspects des moteurs de recherche, il peut jouer un certain rôle directeur dans la construction de notre site Web et l’optimisation des moteurs de recherche.

D'accord, c'est tout pour cet article, je continuerai à le résumer et à le partager avec vous à l'avenir. Cet article provient de : Beijing SEO, site Web : http://www.seostudy.org/ , veuillez conserver les droits d'auteur pour la réimpression, merci !

Merci à Beijing SEO pour votre contribution