introduction
WWW est l'une des applications les plus populaires sur Internet. Sa croissance rapide a provoqué une congestion du réseau et une surcharge des serveurs, entraînant une augmentation des délais d'accès des clients et des problèmes de qualité du service WWW. La technologie de mise en cache est considérée comme l'un des moyens efficaces de réduire la charge du serveur, de réduire la congestion du réseau et d'améliorer l'évolutivité du Web. Son idée de base est d'utiliser le principe de localité temporelle de l'accès client pour stocker le contenu auquel le client a accédé dans le Web. Cache. Stockez une copie lors du prochain accès au contenu, il n'est pas nécessaire de le connecter au site Web d'hébergement, mais il est fourni par la copie conservée dans le cache.
Le contenu Web peut être mis en cache côté client, serveur proxy et serveur. La recherche montre que la technologie de mise en cache peut améliorer considérablement les performances du Web [1][2] et peut apporter les avantages suivants :
(1) Réduire le trafic réseau, atténuant ainsi la congestion du réseau ;
(2) Réduire le délai d'accès des clients. Les principales raisons sont les suivantes : ① Pour le contenu mis en cache dans le serveur proxy, les clients peuvent l'obtenir directement à partir du proxy plutôt qu'à partir du serveur distant, réduisant ainsi le délai de transmission dû ; la congestion du réseau et la charge du serveur sont réduites afin que les clients puissent les obtenir plus rapidement ;
(3) Puisqu'une partie du contenu de la requête du client peut être obtenue à partir du proxy, la charge sur le serveur distant est réduite ;
(4) Si le serveur distant ne peut pas répondre à la demande du client en raison d'une panne du serveur distant ou d'une panne du réseau, le client peut obtenir une copie en cache du contenu à partir du proxy, ce qui améliore la robustesse du service WWW.
Les systèmes de mise en cache Web entraînent également les problèmes suivants :
(1) Le contenu obtenu par le client via l'agent peut être obsolète ;
(2) Si une invalidation du cache se produit, la latence d'accès du client augmente en raison de la surcharge supplémentaire de traitement du proxy. Par conséquent, lors de la conception d'un système de cache Web, il convient de s'efforcer de maximiser le taux de réussite du cache et de minimiser le coût des échecs ;
(3) L'agent peut devenir un goulot d'étranglement. Par conséquent, une limite supérieure du nombre de clients du service et une limite inférieure de l'efficacité du service doivent être fixées pour un agent, de sorte que l'efficacité d'un système d'agent soit au moins aussi efficace que celle des clients directement connectés au serveur distant.
A l'heure actuelle, des recherches approfondies et approfondies ont été menées autour des systèmes de mise en cache Web et de leurs problématiques d'optimisation, et ces travaux de recherche portent principalement sur le rôle des proxys.
2 Caractéristiques idéales d'un système de mise en cache Web Un système de mise en cache Web idéal doit avoir les caractéristiques suivantes :
(1) Vitesse : le système de mise en cache doit être capable de réduire efficacement les délais d'accès des clients ;
(2) Robustesse : la robustesse signifie la disponibilité, et les clients souhaitent que les services Web soient disponibles à tout moment ;
(3) Transparence : le système de mise en cache doit être transparent pour les clients, et les résultats obtenus par les clients ne sont qu'une réponse rapide et une bonne disponibilité ;
(4) Évolutivité : le système de mise en cache Web doit être capable d'évoluer à mesure que la taille et la densité du réseau continuent de croître ;
(5) Efficacité : plus la surcharge apportée par le système de mise en cache Web au réseau est faible, mieux c'est ;
(6) Adaptabilité : le système de mise en cache peut s'adapter aux changements dynamiques des demandes des clients et de l'environnement réseau, ce qui implique la gestion du cache, le routage du cache, la configuration du proxy, etc., et est crucial pour obtenir des performances de cache idéales ;
(7) Stabilité : la solution adoptée par le système de mise en cache Web ne doit pas entraîner d'instabilité dans le réseau ;
(8) Équilibrage de charge : une solution de mise en cache idéale doit être capable de répartir uniformément la charge sur l'ensemble du réseau pour éviter qu'un certain agent ou serveur ne devienne un goulot d'étranglement ou un point chaud, provoquant une dégradation des performances d'une partie du système, voire de l'ensemble du système ;
(9) Capacités de traitement hétérogènes : à mesure que l'échelle du réseau et la zone de couverture continuent d'augmenter, le réseau couvrira une série d'architectures matérielles et logicielles différentes. Les systèmes de mise en cache Web doivent pouvoir s'adapter à différentes architectures de réseau ;
(10) Simplicité : les solutions simples sont faciles à mettre en œuvre et généralement acceptées. Une solution de mise en cache Web idéale doit être simple et facile à configurer.
En se concentrant sur les caractéristiques ci-dessus, un système de mise en cache Web doit résoudre les problèmes suivants :
(1) Architecture du cache : comment les proxys de mise en cache sont organisés et configurés dans le réseau ;
(2) Coopération des agents : comment coopérer entre les agents qui coopèrent entre eux peuvent augmenter le taux de réussite et améliorer les performances du système de cache ;
(3) Routage du cache : lorsqu'un proxy de cache échoue, comment transmettre la demande à d'autres proxys de cache ;
(4) Algorithme de remplacement du cache : lorsque l'espace du cache n'est pas suffisant, comment remplacer le contenu du cache ;
(5) Cohérence du cache : c'est-à-dire l'actualité du contenu mis en cache et comment empêcher le contenu mis en cache de devenir obsolète ;
(6) Prélecture du contenu : comment l'agent décide de préextraire le contenu du serveur ou d'autres agents pour réduire le délai d'accès du client ;
(7) Équilibrage de charge : Comment résoudre le phénomène de « point chaud » dans le réseau ;
(8) Contenu du cache : quel type de contenu peut être mis en cache.
Lors de la conception d'un système de mise en cache Web, les problèmes ci-dessus doivent être résolus.
3 Présentation des solutions de mise en cache Web
3.1 Architecture du cache Web Les performances d'un système de cache Web dépendent de la taille de sa clientèle. Plus la clientèle est grande, plus la probabilité que le contenu mis en cache soit demandé à nouveau est élevée. Les groupes de cache qui coopèrent entre eux peuvent augmenter le taux de réussite et améliorer les performances du système de cache. Par conséquent, l'architecture du système de cache doit garantir que les agents peuvent coopérer efficacement. Les architectures de cache typiques sont les suivantes : hiérarchique, distribuée et hybride.
Figure 1 Schéma de l'architecture du système de mise en cache Web
3.1.1 Architecture du cache hiérarchique
Le projet Harvest [3] a d'abord proposé une architecture de mise en cache Web hiérarchique. Dans l'architecture de cache hiérarchique, le cache est configuré à plusieurs niveaux dans le réseau, comme le montre la figure 1(a). Par souci de simplicité, on suppose qu'il existe quatre niveaux : le cache de couche inférieure, le cache de couche locale, le cache de couche régionale et le cache de couche étendue. La couche inférieure est le cache client/navigateur. Lorsque le cache client ne peut pas satisfaire la demande du client, la demande est transmise au cache de la couche locale. Si elle n'est toujours pas satisfaite, la demande est transmise au cache de la couche régionale jusqu'à ce que le cache soit étendu. Cache de couche de zone. Si la demande ne peut pas être satisfaite dans les caches à tous les niveaux, la demande est finalement transmise au serveur. La réponse du serveur à la requête est ensuite envoyée de haut en bas au client, laissant une copie dans chaque cache intermédiaire en cours de route. Les autres demandes portant sur le même contenu sont transmises de bas en haut jusqu'à ce qu'elles soient satisfaites dans un certain niveau de cache.
L'architecture de mise en cache hiérarchique est très efficace en termes de bande passante et le contenu Web présentant des taux de clics élevés peut être distribué sur le réseau rapidement et efficacement. Cependant, cette architecture présente également quelques inconvénients[4] :
(1) Établir une architecture de cache hiérarchique. Les serveurs de cache doivent être configurés aux points d'accès clés du réseau et les serveurs de cache doivent coopérer les uns avec les autres ;
(2) Chaque niveau de cache entraînera un délai supplémentaire ;
(3) Le cache de haut niveau peut devenir un goulot d'étranglement et entraîner de longs délais d'attente ;
(4) Plusieurs copies du même contenu sont stockées dans différents caches et l'utilisation de l'espace de cache de l'ensemble du système n'est pas élevée.
3.1.2 Architecture de cache distribué Compte tenu des défauts mentionnés ci-dessus de la structure de cache hiérarchique, certains chercheurs ont proposé une architecture de cache distribuée. Dans cette structure, il n'y a qu'un cache de bas niveau, comme le montre la figure 1(b). Dans la structure de cache Web distribuée dans la littérature [5], il n'y a pas de couche de cache intermédiaire au-delà de la couche locale, et les caches coopèrent les uns avec les autres pour gérer les pannes. Afin de déterminer à quel cache de couche locale transmettre la demande du client pour obtenir le contenu invalide, chaque cache de couche locale conserve une copie des informations de répertoire du contenu mis en cache dans d'autres caches de couche locale, de sorte que la demande du client puisse être transmis avec précision lorsqu'une invalidation se produit au cache de la couche locale correspondante. Cache Array Routing Protocol CARP [6] (Cache Array Routing protocol) est un schéma de mise en cache distribué qui divise l'espace URL en différentes parties et attribue chaque partie à un groupe de cache faiblement couplé. Chaque cache ne peut mettre en cache que le contenu Web auquel une URL est attribuée. à celui-ci, permettant de déterminer vers quel cache transmettre la requête en fonction de l'URL à partir de laquelle le client a demandé le contenu.
Dans une structure de cache distribué, la majeure partie du trafic réseau se produit au bas du réseau, ce qui est moins susceptible de provoquer une congestion du réseau. L'utilisation de l'espace du cache est élevée, le partage de charge peut être mieux réalisé et la tolérance aux pannes est meilleure. Cependant, la configuration d'un système de cache distribué à grande échelle peut rencontrer plusieurs problèmes : un nombre élevé de connexions, des exigences de bande passante élevées et une gestion difficile [4].
3.1.3 Architecture de cache hybride L'architecture hybride est représentée sur la figure 1(c). Le cache au même niveau adopte une structure de cache distribuée et coopère les uns avec les autres. L'Internet Cache Protocol ICP (Internet Cache Protocol) conçu par Harvest Group prend en charge l'obtention du contenu correspondant à partir du cache parent ou du cache voisin avec le plus petit RTT.
3.1.4 La recherche sur l'optimisation de l'architecture de cache montre que [4], par rapport à la structure de cache distribuée, l'architecture de cache hiérarchique a un temps de connexion plus court, de sorte que les documents plus petits sont mis en cache dans le cache de couche intermédiaire. La latence d'accès peut être réduite ; temps de transmission et une utilisation plus élevée de la bande passante. La solution idéale est de combiner les deux pour faire jouer pleinement leurs atouts respectifs tout en réduisant le temps de connexion et le temps de transmission.
3.2 Routage du cache Compte tenu de l'évolutivité du système de mise en cache Web, la plupart des systèmes de mise en cache dispersent un grand nombre de cache sur Internet. Le plus gros problème que cela pose est de savoir comment localiser rapidement le cache qui met en cache le contenu requis. . Ce problème est quelque peu similaire au routage réseau, mais ne peut pas être résolu de la même manière. Le routage réseau traditionnel peut être basé sur le regroupement d'adresses (la représentation hiérarchique des adresses rend le regroupement d'adresses possible), mais sur le Web, les documents avec le même préfixe d'URL ou le même préfixe d'adresse de serveur peuvent ne pas être envoyés au même client, ce qui rend difficile le routage des adresses. regroupés de sorte que la table de routage du cache devienne ingérable. De plus, le contenu du cache est constamment mis à jour et des informations de routage de cache obsolètes entraîneront une invalidation du cache. Afin de réduire le coût d'une défaillance du cache, un algorithme de routage de cache idéal doit acheminer la demande du client vers le proxy suivant, qui a une probabilité d'aboutissement plus élevée et est situé sur ou à proximité du chemin réseau allant du client au serveur.
3.2.1 Méthode de table de routage de mise en cache
Malpani et al. [7] ont combiné un groupe de Cache Lorsque la demande du client est transmise au Cache spécifié, si le Cache a le contenu demandé, elle sera envoyée au client. via la multidiffusion IP. D'autres caches du même groupe répondent à la demande du client à partir du cache qui met en cache le contenu correspondant. Si le contenu demandé n'est mis en cache dans aucun cache, la demande est transmise au serveur d'origine. Le système de mise en cache Harvest[3] organise le cache selon une structure hiérarchique et utilise le protocole de résolution de cache ICP (Internet Cache Protocol). Lorsqu'une défaillance du cache se produit, le cache de niveau inférieur interroge d'abord le cache du nœud frère avant de transmettre la demande du client au cache. cache de niveau supérieur. Indique si le contenu correspondant est mis en cache pour éviter de surcharger le cache de niveau supérieur. Le système de mise en cache Web adaptative [8] établit une arborescence de cache pour chaque serveur. Les caches de l'arborescence sont organisées en groupes de multidiffusion qui se chevauchent, et une requête obtient le contenu mis en cache correspondant via ces groupes de transmission. Cette méthode construit une arborescence de cache différente pour chaque serveur, il n'y a donc pas de problème de surcharge du nœud racine, et l'auto-configuration et la robustesse sont relativement bonnes. Cependant, les demandes de contenu avec de faibles taux de clics peuvent passer par davantage de caches, ce qui entraîne une surcharge de communication du cache plus importante. L'auteur recommande de limiter le nombre de caches traversés par les demandes pour résoudre ce problème.
3.2.2 Méthode de la fonction de hachage
Le Cache Array Routing Protocol CARP [6] utilise une fonction de hachage basée sur la liste des membres du tableau et l'URL pour déterminer l'adresse exacte du cache d'un objet Web ou l'endroit où un objet Web doit être mis en cache. Dans Summary Cache [9], chaque proxy enregistre une URL récapitulative du contenu mis en cache par d'autres proxys du même groupe. Le proxy vérifie ces informations récapitulatives lors de la transmission de la demande du client pour déterminer à quel proxy transmettre la demande. Pour réduire les frais généraux, ces informations récapitulatives sont mises à jour périodiquement. Les expériences montrent que ce système peut réduire considérablement la quantité d'informations entre les caches, la consommation de bande passante et la surcharge du processeur causée par le protocole, tout en conservant presque le même taux de réussite du cache qu'ICP.
3.3 Algorithme de remplacement du cache
L'algorithme de remplacement du cache est un facteur important affectant les performances du système de cache proxy. Un bon algorithme de remplacement du cache peut produire un taux de réussite plus élevé. Les algorithmes proposés jusqu'à présent peuvent être divisés dans les trois catégories suivantes :
(1) Algorithme de remplacement traditionnel et son évolution directe Ses algorithmes représentatifs sont : ①Algorithme LRU (Least Récemment Utilisé) : remplace le contenu le moins récemment utilisé hors du Cache ②Algorithme LFU (Lease Fréquemment Utilisé) : remplace le contenu le moins visité hors du Cache. le Cache Cache ; ③Pitkow/Recker[10] a proposé un algorithme de remplacement : si tous les contenus du Cache sont mis en cache le même jour, le plus gros document sera remplacé du Cache, sinon il sera remplacé selon l'algorithme LRU.
(2) Algorithme de remplacement basé sur les caractéristiques clés du contenu du cache. Ses algorithmes représentatifs comprennent : ①Algorithme de remplacement Size[10] : remplace le plus grand contenu du cache ; ②Algorithme de remplacement LRU-MIN[11] : cet algorithme s'efforce de rendre le document remplacé individuel Le plus petit nombre. Supposons que la taille du document à mettre en cache est S et que les documents mis en cache dans le cache d'une taille d'au moins S sont remplacés selon l'algorithme LRU s'il n'y a pas d'objet d'une taille d'au moins S, le LRU ; l'algorithme est utilisé à partir de documents d'une taille d'au moins S/2. Remplacer ; ③LRU—Algorithme de remplacement Threshold[11] : identique à l'algorithme LRU, sauf que les documents dont la taille dépasse un certain seuil ne peuvent pas être mis en cache ; 12] algorithme de remplacement : remplace le document ayant le plus petit délai d'accès hors du cache.
(3) Algorithme de remplacement basé sur le coût. Ce type d'algorithme utilise une fonction de coût pour évaluer les objets dans le cache et détermine finalement l'objet de remplacement en fonction de la valeur du coût. Ses algorithmes représentant la valeur d'utilité la plus basse du cache ; ③ Algorithme de remplacement au moindre coût normalisé (LCNR) [14] : Cet algorithme utilise une fonction d'inférence sur la fréquence d'accès aux documents, le temps de transmission et la taille pour déterminer les documents de remplacement ; a proposé une méthode basée sur le coût du temps de transmission du document, la taille et la fonction d'inférence pondérée du dernier temps d'accès pour déterminer le remplacement du document. Algorithme ⑤Size-Adjust LRU (SLRU) [16] : trier les objets mis en cache en fonction du rapport du coût ; à la taille et sélectionnez l'objet avec le rapport le plus petit pour le remplacement.
Bref, afin de maximiser le taux de réussite du Cache, de nombreux travaux ont été réalisés autour de l'algorithme de remplacement du Cache. Cependant, les performances de l'algorithme de remplacement dépendent en grande partie des caractéristiques de l'accès WWW. gérer tous les modes d’accès au Web sont meilleurs que les autres algorithmes.
3.4 Cohérence du cache
Le système de mise en cache Web peut réduire la latence d'accès, mais il a un effet secondaire : la copie mise en cache fournie aux clients peut être un contenu obsolète, un mécanisme de cohérence du cache doit donc être en place pour garantir que le contenu mis en cache peut être mis à jour et validé en temps opportun. manière, afin de fournir aux clients le contenu le plus récent.
Il existe actuellement deux principaux types de cohérence du cache : une cohérence de cache forte et une cohérence de cache faible.
3.4.1 Forte cohérence du cache (1) Confirmation du client : Pour chaque accès, le proxy considère le contenu mis en cache comme obsolète et envoie un en-tête "IF-Modified-Since-date" au serveur avec la requête. Si le contenu change après le délai spécifié, le serveur envoie le contenu mis à jour à l'agent et éventuellement au client ; si le contenu demandé n'a pas été modifié, une réponse "304" est renvoyée, indiquant que le document n'a pas été modifié. et le contenu mis en cache continue d'être efficace.
(2) Confirmation du serveur : lorsque le serveur détecte qu'un contenu a changé, le serveur envoie des informations d'invalidation à tous les clients qui ont récemment demandé le contenu et qui peuvent avoir mis le contenu en cache [17]. Cette méthode nécessite que le serveur enregistre une liste chaînée de clients accédant au contenu afin d'envoyer des informations non valides. Lorsque le nombre de clients est important, cette méthode deviendra inapplicable. Dans le même temps, la liste chaînée elle-même peut également devenir obsolète. , ce qui oblige le serveur à envoyer des messages à de nombreux clients qui ne sont plus mis en cache. Les clients de ce contenu reçoivent des informations non valides.
3.4.2 Faible cohérence du cache (1) Mécanisme adaptatif TTL [18] (Time To Live) : en observant la durée de vie d'un document pour ajuster son temps de survie, résolvant ainsi le problème de cohérence du cache. Si un document n’a pas été modifié pendant une période de temps considérable, il aura tendance à ne plus changer. De cette manière, l'attribut de durée de vie d'un document se voit attribuer un pourcentage de « l'âge » actuel du document (égal à l'heure actuelle moins l'heure de la dernière modification). La méthode TTL adaptative peut contrôler la possibilité qu'un document devienne obsolète à moins de 5 %. La plupart des serveurs proxy utilisent ce mécanisme, mais ce mécanisme de cohérence du cache basé sur la durée de vie du document ne garantit pas la validité du contenu mis en cache.
(2) Mécanisme d'invalidation de ferroutage
Krishnamurthy et al. ont proposé d'utiliser un mécanisme d'invalidation de ferroutage pour améliorer l'efficacité de la cohérence du cache. Ils ont proposé trois mécanismes : ① Mécanisme Piggyback Cache Validation (PCV) [19] : utilisation des requêtes envoyées par le proxy au serveur pour améliorer la cohérence du cache. Par exemple, lorsqu'un proxy fait une requête au serveur, il transporte une série de contenus mis en cache mais éventuellement obsolètes depuis le serveur pour confirmation de validité ; ② Mécanisme d'invalidation du service Piggyback (PSI) [20] (Piggyback Service Invalidation) : l'idée de base ; est-ce que lorsque lorsque le serveur répond au proxy, il indique au serveur proxy une série de contenus qui ont changé depuis le dernier accès au proxy et le proxy invalide ces contenus, prolongeant ainsi la durée de cache des autres contenus mis en cache dans le cache ③ PSI ; et mécanisme hybride PCV [21] : ce mécanisme détermine quel mécanisme utiliser pour obtenir les meilleures performances globales en fonction de la taille de l'intervalle actuel depuis que la dernière requête a été invalidée par l'agent. Si cet intervalle de temps est petit, le mécanisme PSI est utilisé, sinon le mécanisme PCV est utilisé pour confirmer le contenu du cache. Le principe de base est que plus l'intervalle de temps est petit, plus le nombre d'annulations envoyées avec le PSI est petit, mais à mesure que le temps augmente, la surcharge liée à l'envoi des annulations sera supérieure à la surcharge liée à la demande de confirmation.
3.5 Prélecture du contenu
La technologie de mise en cache Web peut améliorer les performances Web, mais les recherches montrent [22] que quel que soit le système de mise en cache utilisé, le taux de réussite maximum du cache n'est généralement pas supérieur à 40 à 50 %. Pour améliorer encore le taux de réussite du cache, une technologie de prélecture est introduite. La technologie Prefetch est essentiellement une technologie de mise en cache active. Son idée de base est d'utiliser la connaissance préalable du contenu ou du mode d'accès du client pour prédire le contenu de la prochaine demande du client lors du traitement de la demande actuelle du client, et d'utiliser le contenu demandé par le client pour mettre en cache le contenu de prédiction dans Gap. le Cache pour mieux masquer la latence et améliorer la qualité du service.
Les premières recherches se sont concentrées sur la prélecture de contenu entre les navigateurs/clients et les serveurs Web. Lorsque les proxys ont été introduits, l'intérêt des chercheurs s'est déplacé vers la technologie de prélecture entre les proxys et les serveurs. La recherche montre que la technologie de prélecture peut réduire efficacement la latence d'accès des clients, mais la technologie de prélecture reste controversée pour deux raisons :
(1) La prélecture de contenu est une tâche avec des exigences élevées en temps réel. Elle utilise principalement l'intervalle des demandes des clients, et cet intervalle est généralement inférieur à une minute [23]. , la prélecture n'aura plus de sens. Par conséquent, les exigences en matière d’efficacité de l’algorithme de prélecture sont plus élevées.
(2) La prélecture du contenu réduit le temps de réponse du client au détriment de l'augmentation de la charge du serveur et du trafic réseau. Il existe donc des exigences plus élevées en matière de précision de la prélecture. Dans le même temps, un modèle de prélecture doit prendre en compte les caractéristiques d'accès du client, la charge du serveur et les conditions de trafic réseau lors de la détermination du nombre de documents prélevés. Sans ces facteurs, la prélecture peut avoir des effets contre-productifs.
En bref, un bon modèle de prélecture doit avoir une efficacité et une précision élevées à faible coût. Des recherches supplémentaires sont nécessaires sur l’efficacité et la précision de la prélecture.
3.5 Équilibrage de charge Lorsque de nombreux clients obtiennent des données ou des services d'un serveur en même temps, le phénomène Hot Spot se produit, entraînant une dégradation des performances du serveur, voire une panne. La plupart des méthodes actuelles pour résoudre ce problème consistent à utiliser une stratégie de réplication pour stocker le contenu demandé sur Internet, répartissant ainsi la charge sur plusieurs serveurs (agents) [24] pour éviter qu'un seul serveur ne devienne un goulot d'étranglement.
3.6 Mise en cache du contenu Un proxy peut jouer plusieurs rôles En plus de la mise en cache des données, il peut également effectuer la mise en cache des connexions et la mise en cache des calculs. La mise en cache des connexions fait référence à l'utilisation de connexions persistantes entre le client et l'agent, et entre l'agent et le serveur, pour réduire la surcharge liée à l'établissement d'une connexion TCP et la surcharge de démarrage lent lorsque le serveur envoie, réduisant ainsi le délai d'accès du client [25 ]. La mise en cache informatique peut être considérée comme des serveurs Web qui peuvent migrer certains de leurs services vers des proxys pour atténuer les goulots d'étranglement des serveurs. L'une de ses applications est la mise en cache dynamique des données, qui met en cache les données dynamiques via des proxys et migre une partie des calculs vers des proxys, qui sont générés par. proxys. et maintenir les données dynamiques en cache, améliorant ainsi les performances des clients dans l'obtention de données dynamiques.
4 Questions nécessitant des recherches plus approfondies De nombreuses recherches ont été menées autour de la technologie de mise en cache Web et des résultats fructueux ont été obtenus, mais certaines questions nécessitent encore des recherches plus approfondies. Ces problèmes comprennent :
(1) Recherche sur les modèles d'accès des clients : en étudiant les modèles d'accès des clients, nous pouvons mieux effectuer la gestion du cache et la prélecture du contenu, et améliorer le taux de réussite du cache ;
(2) Mise en cache dynamique des données : une raison importante pour laquelle le taux de réussite actuel du cache Web n'est pas élevé est qu'une partie considérable du contenu (données privées, données autorisées, données dynamiques, etc.) ne peut pas être mise en cache. Comment rendre davantage de données mises en cache et comment réduire le délai d'accès des clients aux pages non mises en cache est devenu un problème clé dans l'amélioration des performances Web ;
(3) Caractéristiques du trafic Web : l'efficacité du système de mise en cache réside dans la localité temporelle des flux d'accès au Web et dans de bonnes stratégies de gestion du cache. Comprendre les caractéristiques de charge générées par les clients Web est d'une grande importance pour mieux concevoir et fournir des services Web ;
(4) Configuration du proxy : Pour obtenir de bonnes performances Web, la configuration du proxy est cruciale. Les normes idéales pour les stratégies de configuration du proxy sont : l'auto-organisation, le routage efficace, l'équilibrage de charge, le comportement stable, etc. Des recherches supplémentaires sont nécessaires sur cette question.
En bref, la recherche de pointe pour améliorer les performances du Web réside dans le développement de solutions de mise en cache évolutives, robustes, adaptables, stables, efficaces et pouvant être mieux configurées dans les réseaux actuels et futurs.
Wang Shike Wu Ji Jin Shiyao
(Laboratoire d'État clé de parallélisme et de distribution, École d'informatique, Université nationale de technologie de la défense, Changsha 410073)
-