J'ai été occupé à étudier l'optimisation de sites Web récemment, et je me suis soudainement intéressé et j'ai brièvement étudié les principes de SE. Après avoir lu cet article, ce sera certainement un gros gain pour les référenceurs. Ce n'est qu'en comprenant mieux le mécanisme et les principes des moteurs de recherche qu'ils pourront obtenir. un meilleur classement.
Les problèmes techniques que les moteurs de recherche doivent résoudre sont généralement divisés en programmes spider + classification et indexation + vocabulaire + facteurs d'algorithme de tri + indexation et optimisation de la base de données + structure de la base de données.
1. Araignée. À l’heure actuelle, il semble que les spiders puissent être implémentés en C ou en PHP. La plupart des araignées de Baidu sont constituées de C. C peut également prendre en charge plusieurs interfaces de connexion à des bases de données, et l'efficacité opérationnelle de C est supérieure à celle de PHP, et C peut également mieux contrôler la couche inférieure. Bien que le C soit si bon, je souhaite toujours utiliser PHP. Il faut gagner davantage de temps et nous ne pouvons plus apprendre le C. Si vous devez utiliser C à l'avenir si vous avez besoin d'une efficacité élevée, utilisez à nouveau C. La base de données peut rester inchangée et MYSQL peut être connecté à C. PHP présente des avantages et des inconvénients. Cela ne devrait pas poser de gros problèmes si vous êtes une araignée. Le plus gros problème est que cela peut être très lent. Lors de l'exploration de pages Web, les problèmes qui peuvent survenir sont l'ordre d'exploration, la manière d'enregistrer si l'analyse échoue ou expire, et quand mettre à jour l'analyse la prochaine fois. La base de données du moteur de recherche est nouvelle au début, sans aucune URL, et un grand nombre d'URL doivent être ajoutées. Vous pouvez utiliser ici une instruction de boucle for pour boucler automatiquement selon les lettres anglaises. Bien sûr, le site Web n'est pas seulement en anglais, mais aussi en chiffres, qui ne peuvent être saisis que manuellement. Si vous le saisissez toujours en boucle, on estime que beaucoup d'entre eux échoueront. Le code capturé doit être analysé pour voir si le type de codage est utf-8 ou gb2312. Mon moteur de recherche souhaite uniquement capturer le chinois simplifié. Si la récupération expire, elle sera enregistrée et sera récupérée à nouveau environ dix jours plus tard. Si elle expire trois fois de suite, elle sera supprimée de la base de données.
2. La création d'index est un problème très difficile. Baidu et Google peuvent utiliser leurs propres batteries de serveurs pour créer des serveurs distribués. Je n'ai pas beaucoup de serveurs. J'ai donc voulu essayer une autre approche. Créez des pages statiques. Je ne savais pas auparavant qu'il faudrait environ 0,2 seconde pour saisir un mot relativement rare dans Baidu et Google, alors que les mots courants ne prennent que 0,1 seconde. De plus, le temps de requête requis pour saisir un mot à plusieurs reprises une deuxième fois est bien moindre. C'est probablement l'impact de l'indice. Si l'index est placé en mémoire, la vitesse de lecture sera très correcte. Je n'ai qu'un seul serveur, et même si je n'y mets qu'un index de 50 000 termes de requêtes courants, ce serait probablement un peu fatiguant. Une page doit faire au moins 20 000 pages, et 50 000 pages correspondent à 20 000 * 50 = 1 Go. Ceci n'est que la première page de 50 000 mots. Si l'utilisateur souhaite tourner les pages pour interroger, la mémoire ne suffira certainement pas. Si seule la première page est mise en mémoire et que l’utilisateur tourne les pages pour interroger, la vitesse ne sera pas améliorée. Je vais donc passer au mode statique complet. Simulez une requête de 50 000 mots puis générez une page statique. La première page de tous les mots est placée dans la mémoire et les pages suivantes sont placées sur le disque dur. Si la page avait pu être mise en mémoire, ce problème aurait été résolu.
3. Vocabulaire. Il existe des milliers de caractères chinois, et au moins 3 000 caractères chinois couramment utilisés. On estime qu’il contient 20 000 mots couramment utilisés. Comment ajouter ce thésaurus ? Dans quel format doit-il être stocké ? Fichier CSV, base de données ou fichier texte ? Auparavant, j'avais pensé à trouver le fichier du thésaurus de Kingsoft PowerWord et à essayer de le copier directement. Cette méthode n'a pas encore réussi.
4. Tous les algorithmes qui affectent le tri doivent être placés dans un tableau. Ensuite, il existe des algorithmes fixes, qui sont des facteurs propres au site Web lui-même, et des algorithmes variables, qui sont des facteurs qui changent en raison des mots saisis par l'utilisateur ou en raison des différentes heures, saisons, etc. L'algorithme fixe est placé dans un tableau et le score total est calculé pour chaque site Web. Une partie de l'algorithme de changement a été générée auparavant et une partie est calculée après la saisie de l'utilisateur.
5. Il n’existe actuellement aucune bonne solution pour l’indexation des bases de données. Il ne doit pas y avoir trop d'index d'expression, car un trop grand nombre affecterait la vitesse.
6. Structure de la base de données. C’est crucial. On estime que la structure de la base de données doit être finalisée avant la sortie de l'interface frontale du site Web. Il est également nécessaire de laisser une interface pour les futures mises à niveau, comme l'ajout de facteurs d'algorithme, ou la modification de champs afin d'optimiser les instructions de requête, etc. La structure préliminaire est la suivante. 1 à 3 tableaux stockent les informations du site Web. Le premier champ est la clé primaire auto-incrémentée, le deuxième champ est l'adresse de la page d'accueil du site Web et, dans l'ordre, l'heure d'enregistrement du nom de domaine du site Web, l'heure de collecte, l'heure du dernier instantané, le nombre total de pages incluses, le nombre d'octets sur la page d'accueil, la classification du nom de domaine (com/cn/org/net/gov/edu), le nombre total de backlinks, la classification du site Web (cela peut aller de 1 à 10, le portail peut être étendu à 30), etc.
L'article est reproduit à partir de : www.jianfeiyiqi.com Veuillez indiquer la source avec le lien.