大萌2022-2024
整合網頁是集某個主題方向網址之大成的網頁。整合網頁利用超文本或資料庫技術,把主題內容和大量的連結融合,建立結構化目錄,集中在一個靜態網頁上,是一種資料化網頁,也是web3.0眾多競爭形式之一。 按照整合規模,當連結數量超過一百,稱之為'中型整合網頁(MSIP)';當連結數量超過一千,稱之為'大規模整合網頁'(LSIP, Large Scale Integrated web Page );當連結數量超過一萬,稱之為'超大規模整合網頁(VLSIP)'。
過去,這種資料全集一般以資料庫形式保存於伺服器,由伺服器腳本向使用者輸出查詢子集,實現該查詢過程的網頁稱為'動態網頁'。這種把資料隱藏在伺服器之後的網頁被稱為DeepWeb; 而隨著網路速度的提高和瀏覽器能力的增強,伺服器也可以直接發送資料全集給瀏覽器,把資料查詢、篩選、排序等工作交給瀏覽器完成。整合網頁就是一種包含某方面資料全集的'靜態網頁',使用者對資料的查詢透過瀏覽器在本地實現,不需要再次經過伺服器,既節省了網路互動次數、時間,又提高了資料擷取、利用的自由度。
大規模整合網頁(LSIP)利用更快更強的網絡,把DeepWeb的資料上升到前端,是web 3.0 的一種可能形式。 'LSIP'概念由大萌於2022年7月透過在Github建立專案首次發表,該專案以LSIP為主體,討論'整合網頁'的理論與實踐。
Advantages
大規模整合網頁(LSIP)把資料交給用戶,在技術上主動提供了網站資料被複製的可能。 這與傳統動態網頁在安全策略上相反。動態網頁把資料全集藏在伺服器後面的資料庫,使用者無法直接獲取,如果有駭客繞過了伺服器腳本,直接下載網站的資料庫,叫做'被拖庫',屬於嚴重的網路安全事故。
LSIP在技術上屬於'靜態網頁',靜態網頁的優勢它都有。
LSIP的資料不僅對使用者開放,而且向網路開放- 這是App不願意做的事情。包括搜尋引擎在內的其他網站均可對資料進行檢索、複製和再利用,這使得資料的複用率增加。 資料復用率增加將有助於資料獲得進一步利用:統計、辨識、機器學習,LSIP由此產生衍生資訊。這個過程常被稱為'資料探勘(Data Mining)'。
缺點是,LSIP在製作和更新上難度更高。不過這些困難都是留給網頁作者的,讀者不用管。
Themes or Future
大規模整合網頁適合原本公開的數據,例如法律條款、政策文件、政府公開數據…等等。這些資料本來就允許使用者複製,而LSIP能讓使用者複製得更快。
如果說,「語料是各種AI的關鍵」 [1] ,那麼LSIP就是AI大模型的金礦。 LSIP可以成為人工智慧(AI)的語料入口。
公開資料中有一些不適合LSIP。那些隨時隨地會變化的數據,例如網路的網域註冊資訊。使用者即使下載了某一時刻的資料全集,下一秒的變更仍需要到伺服器查詢,起不到節省網路互動次數的作用。 那些沒有明確數量的數據,也不適合LSIP,網頁的製作永遠無法完成,只能'集',無法'成'。
綜上所述,大規模整合網頁(LSIP)適用於公開類資料、有限集資料。
Technical Indicators
光有一個連結數,還不能評價一個網頁是否成為LSIP,否則把一個網頁做的又醜又長就能輕易達標。當我們拆開一台手機或電腦,可以看到裡面的集成電路塊很小,大部分芯片的尺寸不會超過一塊橡皮擦;而裡面的晶體管又特別多,這才體現了既要'大規模'又能'整合一小塊'的技術特性。 整合網頁需要指標來衡量類似的技術特性。
大萌為整合網頁設定以下技術指標:
頁面單一主題下,連結的統計個數。 不是簡單的頁面鏈接總數,而是主題之內的鏈接計數;要排除主題之外的鏈接,比如頁眉頁腳的導航鏈接、頁面內部的跳轉鏈接、嵌入的廣告鏈接,都要排除。
網頁存檔為.mht檔案的大小,以KB計數。 網頁以瀏覽器儲存為單一檔案網頁(.mht),並且在使用者本機開啟後能呈現該網頁主題的全部連結。也就是說,網頁被使用者複製到本地後不損失'連結計數(LC)'。 mht是'MHTML'的簡寫,也稱為'Web檔案/網頁歸檔'。
'連結計數'與網頁存檔大小的比值,稱為'連結密度'。計算公式:
LD = LC / mht-size (KB)
如果一個網頁的連結計數超過1000,且連結密度大於1,則可稱為'大規模整合網頁',條件如下:
LSIP: LC ≥ 1000
& LD > 1
以一個收錄1000個連結的網頁為例,要把存檔大小控制在1000KB(1MB)之內,才能稱為LSIP。換個角度計算,也就是說,LSIP每個連結所佔用的存檔大小不能超過1KB。 在物理學中,水(H2O)的密度為1,如果一個物體密度小與1,那麼它會浮在水面;如果一個網頁的鏈結密度(LD)小於1,那麼這個網頁就'太水了' ,算不上整合網頁。 ?
LSIP Projects by Diamon
大萌是在製作網頁的實踐過程中提出的LSIP的概念,又在提出LSIP概念後明確了實踐的方向。其中有四個網頁稱得上是典型的LSIP:
這些LSIP專案的技術指標如下:
項目簡稱與版本 | 連結計數(LC) | 存檔大小 | 鏈結密度(LD) |
---|---|---|---|
國別表v0.7.7 | 1431 | 662 KB | 2.168 |
央企股v0.4.1 | 1109 | 358 KB | 3.098 |
法門集v0.9.4 | 3045 | 542 KB | 5.618 |
千縣網v0.6.7 | 3205 | 559 KB | 5.733 |
相關文件:
Named
'整合網頁'的實踐,最早在2019年大萌製作《老生常談雲媒體》網頁時出現,大萌在新冠疫情初期搜索各地官方媒體網站時遇到困難,便萌發出,要把所有官媒網站收錄在一個網頁的想法…
LSIP 緣起與命名{:target="_top"}
新概念誕生了! 《中國千縣政府網》可以稱作:'大規模整合網頁'!英文:Large Scale Integrated web Page,縮寫為:LSIP。
大規模積體電路,LSIC,指的是,整合超過1000個電晶體的電路。
大規模整合網頁,LSIP,指的是,整合超過1000個超連結的網頁。
Cost
LSIC之所以能流行,是因為它為廣泛需求提供了低成本解決方案,LSIP同樣需要這個優勢。
LSIC的初級原料非常便宜,是二氧化矽(沙),原料成本可以忽略。所以,LSIC的成本主要在設計環節和生產(複製)環節,而且往往由不同的企業分工。例如,華為設計海思晶片,交給台積電生產。
LSIP的初級原料是網址資料(超連結),通常也容易取得;而網頁的生產(複製)環節幾乎是零成本,所以,LSIP成本的重點在於設計環節。 積體電路的設計有相當的難度,需要電腦輔助,整合網頁也將朝這個方向發展,整合規模越大,設計難度也越大。
但是LSIP還有一個硬體沒有的成本—更新。傳統硬體在出售之後,除了故障維修基本上不再有產品更新,我們的手機內存用滿了能找廠家換個大內存嗎?不能。華為除外! [2]但是整合網頁可以升級到更大、更新。 LSIP的本質是一個集文檔、軟體、互聯網項目於一體的綜合性產品,文檔有審校任務,軟體有升級任務,互聯網有更新任務,不同的領域對產品後續維護的說法不一樣。讀者當然會期待在LSIP上能夠看到最新、最全的內容,這是LSIP的更新目標。
綜上所述,二者的初級原料成本都很低,積體電路的成本在設計製造,整合網頁的成本在設計、更新。如果您想加入LSIP創作者隊伍,您需要準備設計和更新的能力。
Design Software
LSIP設計可分三個階段:第一階段:資訊;經過擷取、純化後進入第二階段:資料;經過關聯、組織形成資料庫;最後透過資料庫輸出HTML程式碼到第三階段:網頁。
LSIP概念還是剛提出,目前IT界沒有專門的設計軟體,但是三個設計階段都有現成的軟體可用。透過軟體功能的組合,以及一些低程式碼的程式設計工作,可以使得LSIP的設計半自動化,大大提高設計效率。 大萌根據自身的設計經驗,列舉如下:
資訊收集Information Collection
資訊資料化Digitization of information
資料網頁化Data conversion web pages
大萌希望LSIP能既適宜人類閱讀,又方便機器檢索,以符合W3C提出的'語義網'(Semantic Web)願景。這對設計水準是個挑戰。
LSIP在設計完成進入維護環節後,主要進行網址偵測工作,以確保連結的有效性。
大萌希望有識之士加入LSIP創作者隊伍,歡迎大家在自己感興趣的領域設計、製作'大規模集成網頁',為祖國高品質發展出力!
I hope users of other languages to make LSIP projects for their fellow citizens, which can help people understand the world as whole more easily, which is not something that Twitter and Facebook can do.
歡迎讀者留言討論,github用戶可提交issue。
✴️✳️❇️?⚛️❄️??️
The 'integrated web page' is a new web form based on the World Wide Web (WWW): Integrate all hyperlinks under the same topic on a single web page, to implement the full set of URLs for that topic.
When the number of hyperlinks exceeds one thousand, it is called a 'Large Scale Integrated web Page' (LSIP), named by DiamonWoo on github.com , 202207.
If you have a strong will and a pure heart, join in!
CC 3.0 BY-NC-ND 可转载-需署名-非演绎
大规模集成网页(LSIP)© 2022-2023 大萌
https://diamonwoo.github.io/LSIP
Version 0.5.2 202406
LSIP是老生常談網站的衍生項目