Grand Meng 2022-2024
Une page Web intégrée est une page Web qui combine les URL d'un certain thème. Les pages Web intégrées utilisent la technologie hypertexte ou de base de données pour intégrer le contenu du sujet et un grand nombre de liens, établir un répertoire structuré et le concentrer sur une page Web statique. Il s'agit d'une page Web basée sur des données et l'une des nombreuses formes concurrentes de Web3. .0. Selon l'échelle d'intégration, lorsque le nombre de liens dépasse cent, on parle de « page Web intégrée à moyenne échelle (MSIP) » ; lorsque le nombre de liens dépasse mille, on parle de « page Web intégrée à grande échelle » (LSIP). ); lorsque le nombre de liens dépasse mille, on parle de « page Web intégrée à grande échelle » (LSIP) ; le nombre de liens dépasse 10 000 et on parle de « page Web intégrée à très grande échelle (VLSIP) ».
Dans le passé, cet ensemble complet de données était généralement stocké sur le serveur sous la forme d'une base de données, et le script du serveur envoyait un sous-ensemble de requête à l'utilisateur. La page Web qui implémentait le processus de requête était appelée « page Web dynamique ». . Ce type de page Web qui cache les données derrière le serveur est appelé DeepWeb ; avec l'amélioration de la vitesse du réseau et l'amélioration des capacités du navigateur, le serveur peut également envoyer directement l'ensemble des données au navigateur, en transmettant la requête de données, le filtrage, tri et autres tâches. Donnez-le au navigateur pour qu'il le termine. Une page Web intégrée est une « page Web statique » qui contient un ensemble complet de données sous un certain aspect. La requête de données de l'utilisateur est implémentée localement via le navigateur sans passer par le serveur. Cela permet non seulement d'économiser le nombre d'interactions réseau et. temps, mais améliore également la récupération des données et l'utilisation de la liberté.
L'intégration à grande échelle de pages Web (LSIP) utilise des réseaux plus rapides et plus solides pour amener les données DeepWeb au premier plan, ce qui est une forme possible du Web 3.0. Le concept de « LSIP » a été publié pour la première fois par Dameng en juillet 2022 en établissant un projet sur Github. Le projet utilise LSIP comme corps principal pour discuter de la théorie et de la pratique des « pages Web intégrées ».
Avantages
Les pages Web intégrées à grande échelle (LSIP) transmettent des données aux utilisateurs et offrent techniquement la possibilité de copier les données d'un site Web. Ceci est à l’opposé de la stratégie de sécurité des pages Web dynamiques traditionnelles. Les pages Web dynamiques cachent l'ensemble des données dans une base de données derrière le serveur, à laquelle les utilisateurs ne peuvent pas accéder directement. Si un pirate informatique contourne le script du serveur et télécharge directement la base de données du site Web, on parle de « base de données déplacée », ce qui constitue un réseau sérieux. incident de sécurité.
LSIP est techniquement une « page Web statique » et présente les avantages des pages Web statiques.
Les données du LSIP ne sont pas seulement ouvertes aux utilisateurs, mais également à Internet – c'est quelque chose que l'application n'est pas disposée à faire. D'autres sites Web, notamment les moteurs de recherche, peuvent récupérer, copier et réutiliser les données, ce qui augmente le taux de réutilisation des données. L'augmentation du taux de réutilisation des données permettra de mieux utiliser les données : statistiques, identification, apprentissage automatique et LSIP pour générer des informations dérivées. Ce processus est souvent appelé « Data Mining ».
L’inconvénient est que le LSIP est plus difficile à produire et à mettre à jour. Cependant, ces difficultés sont laissées à l’auteur de la page web et non aux lecteurs.
Thèmes ou avenir
L'intégration à grande échelle de pages Web convient aux données initialement publiques, telles que les dispositions légales, les documents politiques, les données publiques gouvernementales, etc. Ces données permettent intrinsèquement aux utilisateurs de copier, et LSIP permet aux utilisateurs de copier plus rapidement.
Si l’on dit que « le corpus est la clé de toutes sortes d’IA » [1] , alors LSIP est la mine d’or pour les grands modèles d’IA. LSIP peut devenir une entrée de corpus pour l'intelligence artificielle (IA).
Certaines données publiques ne conviennent pas au LSIP. Données qui changent à tout moment et en tout lieu, telles que les informations d'enregistrement de nom de domaine Internet. Même si l'utilisateur télécharge l'ensemble des données à un moment donné, les modifications dans la seconde suivante doivent toujours être interrogées sur le serveur, ce qui n'enregistre pas le nombre d'interactions réseau. Les données sans quantité claire ne conviennent pas au LSIP. La production de pages Web ne peut jamais être achevée. Elle ne peut être que « collectée » mais ne peut pas être « complétée ».
Pour résumer, les pages Web intégrées à grande échelle (LSIP) conviennent aux données publiques et aux données limitées.
Indicateurs techniques
Le nombre de liens à lui seul ne peut pas évaluer si une page Web devient un LSIP. Sinon, rendre une page Web laide et longue peut facilement atteindre la norme. Lorsque nous démontons un téléphone portable ou un ordinateur, nous pouvons voir que les blocs de circuits intégrés à l'intérieur sont très petits, et que la plupart des puces ne sont pas plus grosses qu'une gomme et qu'il y a beaucoup de transistors à l'intérieur, ce qui reflète la nécessité de disposer de gros composants. échelle Les caractéristiques techniques de « pouvoir « s'intégrer dans un petit morceau ». Les pages Web intégrées nécessitent des métriques pour mesurer des caractéristiques techniques similaires.
Dameng définit les indicateurs techniques suivants pour la page Web intégrée :
Le nombre statistique de liens sous un seul sujet sur la page. Il ne s'agit pas d'un simple nombre total de liens vers des pages, mais d'un nombre de liens au sein du sujet ; les liens en dehors du sujet, tels que les liens de navigation dans les en-têtes et les pieds de page, les liens de saut dans la page et les liens publicitaires intégrés, doivent être exclus.
Taille d'une page Web archivée sous forme de fichier .mht, mesurée en Ko. La page Web est enregistrée sous forme de page Web à fichier unique (.mht) à l'aide du navigateur et, lorsqu'elle est ouverte localement par l'utilisateur, tous les liens vers le thème de la page Web peuvent être affichés. En d'autres termes, le « nombre de liens (LC) » ne sera pas perdu une fois la page Web copiée localement par l'utilisateur. mht est l'abréviation de « MHTML », également connu sous le nom de « archive Web/archive de pages Web ».
Le rapport entre le « nombre de liens » et la taille de l'archive de la page Web est appelé « densité des liens ». Formule de calcul :
LD = LC / mht-size (KB)
Si le nombre de liens d'une page Web dépasse 1 000 et que la densité des liens est supérieure à 1, on peut parler de « page Web intégrée à grande échelle », et les conditions sont les suivantes :
LSIP: LC ≥ 1000
& LD > 1
En prenant comme exemple une page Web contenant 1 000 liens, la taille de l'archive doit être contrôlée dans la limite de 1 000 Ko (1 Mo) avant de pouvoir être appelée LSIP. Calculée sous un autre angle, c'est-à-dire que la taille de l'archive occupée par chaque lien LSIP ne peut pas dépasser 1 Ko. En physique, la densité de l'eau (H2O) est de 1. Si la densité d'un objet est inférieure à 1, alors il flottera sur l'eau ; si la densité des liens (LD) d'une page Web est inférieure à 1, alors le la page Web est « trop liquide », pas vraiment une page Web intégrée. ?
Projets LSIP par Diamond
Dameng a proposé le concept de LSIP lors de la pratique de création de pages Web et a clarifié l'orientation de la pratique après avoir proposé le concept de LSIP. Quatre des pages Web peuvent être qualifiées de LSIP typique :
Les indicateurs techniques de ces projets LSIP sont les suivants :
Nom et version du projet | Nombre de liens (LC) | Taille des archives | Densité de lien (LD) |
---|---|---|---|
Tableau des pays v0.7.7 | 1431 | 662 Ko | 2.168 |
Actions centrales de l'entreprise v0.4.1 | 1109 | 358 Ko | 3.098 |
Collection de méthodes v0.9.4 | 3045 | 542 Ko | 5.618 |
Qianxian.com v0.6.7 | 3205 | 559 Ko | 5.733 |
Documents associés :
Nommé
La pratique des « pages Web intégrées » est apparue pour la première fois en 2019 lorsque Dameng a produit la page Web « Old Cliché Cloud Media ». Dameng a rencontré des difficultés lors de la recherche sur les sites Web des médias officiels à partir de divers endroits au début de l'épidémie de COVID-19. l’idée d’inclure tous les sites de médias officiels sur une page web…
L'origine et le nom de LSIP{:target="_top"}
Un nouveau concept est né ! Le « Réseau gouvernemental des mille comtés de Chine » peut être appelé : « page Web intégrée à grande échelle » ! Anglais : Page Web intégrée à grande échelle, abrégée en : LSIP.
Le circuit intégré à grande échelle, LSIC, fait référence à un circuit qui intègre plus de 1 000 transistors.
L'intégration à grande échelle de pages Web, LSIP, fait référence à l'intégration de pages Web comportant plus de 1 000 hyperliens.
Coût
Le LSIC est populaire car il propose des solutions à faible coût pour un large éventail de besoins, et le LSIP a également besoin de cet avantage.
La matière première principale du LSIC est très bon marché, à savoir la silice (sable), et le coût de la matière première peut être ignoré. Par conséquent, le coût du LSIC concerne principalement le lien de conception et le lien de production (copie), et la main-d'œuvre est souvent divisée entre différentes entreprises. Par exemple, Huawei conçoit des puces HiSilicon et les confie à TSMC pour la production.
La principale matière première du LSIP est constituée de données de sites Web (hyperliens), qui sont généralement faciles à obtenir ; tandis que la production (copie) de pages Web ne coûte presque rien, l'essentiel des coûts du LSIP réside donc dans le processus de conception. La conception de circuits intégrés est assez difficile et nécessite une assistance informatique. Les pages Web intégrées évolueront également dans cette direction. Plus l'échelle d'intégration est grande, plus la conception sera difficile.
Mais LSIP a également un coût que le matériel n'a pas : les mises à jour. Une fois le matériel traditionnel vendu, il n'y a pratiquement aucune mise à jour du produit, à l'exception des réparations de pannes. Lorsque la mémoire de notre téléphone portable est pleine, pouvons-nous trouver le fabricant pour le remplacer par une mémoire plus grande ? ne peut pas. Sauf Huawei ! [2] Mais la page Web intégrée peut être mise à niveau pour être plus grande et plus récente. L'essence de LSIP est un produit complet qui intègre des documents, des logiciels et des projets Internet. Les documents ont des tâches de révision, les logiciels ont des tâches de mise à niveau et Internet a des tâches de mise à jour. Différents domaines ont des opinions différentes sur la maintenance ultérieure du produit. Les lecteurs attendront bien sûr avec impatience de voir le contenu le plus récent et le plus complet sur LSIP, qui est l’objectif de mise à jour du LSIP.
En résumé, le coût des matières premières primaires dans les deux cas est très faible. Le coût des circuits intégrés réside dans la conception et la fabrication, tandis que le coût des pages Web intégrées réside dans la conception et la mise à jour. Si vous souhaitez rejoindre l'équipe de créateurs de LSIP, vous devez préparer la capacité de concevoir et de mettre à jour.
Logiciel de conception
La conception LSIP peut être divisée en trois étapes : la première étape : l'information ; après extraction et purification, elle entre dans la deuxième étape : les données sont associées et organisées pour former une base de données ; enfin, le code HTML est sorti via la base de données ; troisième étape : page web .
Le concept LSIP vient d'être proposé. Actuellement, il n'existe pas de logiciel de conception spécialisé dans l'industrie informatique, mais il existe des logiciels prêts à l'emploi pour les trois étapes de conception. Grâce à la combinaison de fonctions logicielles et de certains travaux de programmation low-code, la conception de LSIP peut être semi-automatisée, améliorant considérablement l'efficacité de la conception. Dameng énumère les éléments suivants sur la base de sa propre expérience en matière de conception :
Collecte d'informationsCollecte d'informations
Numérisation de l'information Numérisation de l'information
Pages Web de conversion de données
Dameng espère que LSIP pourra être à la fois adapté à la lecture humaine et pratique à la récupération automatique, conformément à la vision du « Web sémantique » proposée par le W3C. C’est un défi au niveau de la conception.
Une fois la conception du LSIP terminée et entrée dans la phase de maintenance, il effectue principalement un travail de détection de site Web pour garantir la validité du lien.
Dameng espère que des personnes perspicaces rejoindront l'équipe de créateurs du LSIP. Tout le monde est invité à concevoir et produire des « pages Web intégrées à grande échelle » dans les domaines d'intérêt afin de contribuer au développement de haute qualité de la patrie !
J'espère que les utilisateurs d'autres langues réaliseront des projets LSIP pour leurs concitoyens, ce qui pourra aider les gens à comprendre plus facilement le monde dans son ensemble, ce que Twitter et Facebook ne peuvent pas faire.
Les lecteurs sont invités à laisser des messages pour discussion et les utilisateurs de github peuvent soumettre des problèmes.
✴️✳️❇️?⚛️❄️??️
La « page Web intégrée » est un nouveau formulaire Web basé sur le World Wide Web (WWW) : intégrez tous les hyperliens sous le même sujet sur une seule page Web, pour implémenter l'ensemble complet des URL pour ce sujet.
Lorsque le nombre de liens hypertextes dépasse mille, on parle de « page Web intégrée à grande échelle » (LSIP), nommée par DiamonWoo sur github.com , 202207.
Si vous avez une forte volonté et un cœur pur, rejoignez-nous !
CC 3.0 BY-NC-ND 可转载-需署名-非演绎
大规模集成网页(LSIP)© 2022-2023 大萌
https://diamonwoo.github.io/LSIP
Version 0.5.2 202406
LSIP est un projet dérivé du site cliché