Avec le développement rapide de la science et de la technologie des réseaux, les gens deviennent de plus en plus dépendants des moteurs de recherche sur les réseaux. Surtout au 21e siècle, où les ressources des réseaux sont abondantes et où la demande d'informations sur les réseaux augmente, la technologie de recherche occupe une part très importante du domaine. Internet. Les hauteurs dominantes. De nos jours, les gens utilisent souvent les moteurs de recherche pour rechercher diverses informations telles que du matériel multimédia, les dernières informations et des cartes.
Tout d’abord, les principes de base des moteurs de recherche
Un moteur de recherche est un système capable d'obtenir des informations sur les pages Web d'un site Web, de créer une base de données et de fournir des requêtes.
1.1 Structure des moteurs de recherche
La collecte de pages Web consiste à explorer des pages Web via des araignées Web et à explorer d'autres pages Web le long des liens de chaque page Web. Finalement, de nombreuses pages Web peuvent être explorées et ces pages Web peuvent être compressées et stockées dans la base de connaissances. Les programmes Web Spider exploreront en permanence l’ensemble du Web pour garantir l’actualité et l’efficacité des informations.
Le prétraitement consiste à effectuer une analyse des liens sur les pages Web collectées, à calculer l'importance de la page Web, à extraire des mots-clés et à établir une base de données d'index. L'architecture de cette base de données doit être propice à la recherche et les informations contenues doivent être aussi complètes que possible.
Le service fait référence à la fourniture de services aux utilisateurs lorsque l'utilisateur saisit un mot-clé, les informations pertinentes sont rapidement trouvées dans la base de données d'index en fonction du mot-clé et renvoyées à l'utilisateur.
1.2 Classification des moteurs de recherche
Les moteurs de recherche peuvent être divisés en trois catégories : les moteurs de recherche en texte intégral, les moteurs de recherche d’annuaire et les méta-moteurs de recherche.
Les moteurs de recherche en texte intégral utilisent des robots Web pour explorer diverses pages Web, extraire leurs informations et les stocker dans une base de données. Lorsque l'utilisateur les utilise, ils font correspondre les mots-clés saisis par l'utilisateur et renvoient les informations à l'utilisateur. Il s'agit du moteur de recherche le plus couramment utilisé. Google et Baidu entrent dans cette catégorie.
Les moteurs de recherche d'annuaire classent les ressources recherchées d'une certaine manière et finissent par créer un grand système d'annuaire. Lorsque les utilisateurs interrogent, ils peuvent ouvrir et parcourir l'annuaire couche par couche, et enfin trouver les informations qu'ils souhaitent. À proprement parler, les moteurs de recherche d'annuaire le sont. pas un vrai moteur de recherche. Les Yahoo et Sina que nous utilisons entrent dans cette catégorie.
Le métamoteur est un moteur qui appelle d’autres moteurs de recherche. Il peut couvrir davantage de ressources et fournir des services plus complets. Les plus couramment utilisés sont Dogpile, Vivisimo et la recherche d'étoiles domestiques.
Les trois moteurs de recherche ci-dessus peuvent être utilisés dans différentes situations et ont leurs propres avantages et inconvénients. Les moteurs de recherche en texte intégral sont généralement utilisés pour des recherches complètes. Ses avantages sont de grandes quantités d'informations, des mises à jour rapides et l'absence d'intervention manuelle. Ses inconvénients sont qu'ils traitent de grandes quantités d'informations et rendent difficile leur filtrage. Les moteurs de recherche d'annuaire sont principalement orientés vers les sites Web, fournissant des services de navigation dans les annuaires et des services de récupération directe. Leur avantage est que l'intervention manuelle est utile pour améliorer la précision de la recherche d'informations, mais leurs inconvénients sont qu'ils nécessitent une intervention manuelle, ont des coûts de maintenance élevés et sont lents. mises à jour et une petite quantité d'informations. Étant donné que les métamoteurs de recherche peuvent interroger plusieurs autres moteurs de recherche, ils sont particulièrement adaptés aux situations nécessitant un taux de rappel élevé. Cependant, actuellement, les méthodes ou règles spécifiques pour établir des bases de données d'index et effectuer la récupération des requêtes sont différentes selon les moteurs de recherche. l'effet de récupération des outils de méta-recherche.
Deuxièmement, plusieurs technologies clés pour la mise en œuvre des moteurs de recherche
2.1 Araignées
Les robots Web peuvent être implémentés des manières suivantes :
(1) Basé d’abord sur la largeur. Un algorithme basé sur la largeur d'abord accède aux liens dans l'ordre dans lequel ils sont rencontrés. C’est la stratégie la plus simple de toutes les araignées Web.
(2) Basé d’abord sur la profondeur. Sur la base de l'idée de priorité en profondeur, la similarité entre la page Web et le sujet de recherche est calculée en fonction des conditions sélectionnées, et le lien présentant la similarité la plus élevée est sélectionné pour la recherche. Dans le processus de calcul de similarité, le cosinus est généralement. utilisé pour le calcul.
(3) Basé sur les évaluations des pages. Sur la base du classement des pages Web, l'évaluation de la page Web est utilisée en combinaison avec le contenu pour évaluer la collection de documents recherchée, et les résultats calculés sont utilisés pour sélectionner le lien ayant la note la plus élevée comme prochain objet de recherche.
(4) InfoSpider. InfoSpider utilise des tableaux de mots-clés évolués et des méthodes de réseau neuronal pour calculer la similarité des pages Web liées au sujet, et détermine le prochain objet à rechercher en fonction des résultats du calcul. Le coût dépensé pour obtenir le document modifie l'énergie de l'agent et détermine si. pour annuler, régénérer ou survivre à l'agent en fonction de son niveau d'énergie.
2.2 Jugement de l'importance des pages web
Il existe deux méthodes principales pour juger de l'importance des pages Web : l'une est basée sur les liens
méthode, et l’autre est basée sur la similarité.
Il doit exister une relation de mappage crédible entre les informations de lien et l'objet lié sur la base du calcul basé sur la méthode de lien. Les éléments suivants sont souvent utilisés lors de l'application :
(1) In-degree : le nombre de pages Web contenant des cibles de liens pointant vers cette page Web ;
(2) Degré sortant : le nombre de liens vers des pages Web liés à partir de cette page Web ;
(3) Page Rank : désigne la possibilité pour un utilisateur de visiter la page Web à tout moment.
Cette méthode est largement utilisée et très efficace.
Pour les calculs basés sur la similarité, le modèle spatial vectoriel est généralement utilisé pour convertir la chaîne de requête et le texte en vecteurs, puis la similarité entre le texte et la chaîne de requête est évaluée.
2.3 Mise en place d'un système matériel de moteur de recherche
Le système matériel du moteur de recherche est l'épine dorsale de l'ensemble du système. Afin de fournir une vitesse de requête plus rapide, le système matériel adopte généralement une structure distribuée. Les serveurs de Google sont répartis dans le monde entier et la technologie parallèle est également utilisée pour accélérer le processus. vitesse d'exécution. En outre, la conception matérielle de la base de données d’index est également très importante et essentielle à l’amélioration de la vitesse d’accès aux données.
Troisièmement, la tendance au contre-développement des moteurs de recherche
Les moteurs de recherche du futur auront les caractéristiques suivantes :
(1) Capable de collecter presque toutes les informations sur Internet ;
(2) Certaines informations illégales peuvent être bloquées ;
(3) Amélioration du taux de rappel et du taux de précision
(4) Non seulement il peut reconnaître les termes de recherche de texte, mais il peut également reconnaître les images, les audios, les vidéos, etc.
(5) Les informations sont mises à jour plus rapidement ;
(6) Introduction pratique aux requêtes inter-bases de données ;
(7) L'interface interactive est humanisée et personnalisée ;
(8) Une recherche intelligente peut être réalisée.
(9) La recherche mobile fera de grands progrès.
Quatrièmement, résumé
Cet article explique le moteur de recherche en détail, analyse la mise en œuvre de ses technologies clés et propose les futures tendances de développement. Avec le développement de la technologie et l'amélioration des besoins des gens, les moteurs de recherche deviendront de plus en plus intelligents et de plus en plus efficaces. et pratique.