由於工作所需,最近花時間研究了html轉換為pdf的功能。 html轉換為pdf的關鍵技術是如何處理網頁中復雜的css樣式,通過在網上收集資料,發現目前html 轉換為pdf的解決方案主要分為三類:
客戶端模式:前後台調用客戶端程序,利用客戶端程序的功能完成pdf文件轉換。本次測試工具有:wkhtmltopdf和PhantomJS。 java jar包解析類模式:java代碼解析css樣式,翻譯html文件為pdf文件。本次測試類有:IText,Flying Sauser,PD4ML。 js 前端解析模式:js前端解析html文件為pdf文件,本次測試案例有:html2canvas。本次針對網上介紹的方案,結合實際項目的需求,做一一測試,在性能和功能方面做如下分析。
1.測試頁面介紹通過查看各個轉換案例在網上的介紹,簡單的html樣式,一般的表格樣式在做pdf文件轉換時,以上的方案均支持。但考慮到實際業務的需要,本次測試特意用到了bootstrap (v 3.3.6)的css樣式,同時頁面也應用了css3的新特性。基於這樣的新特性編寫一個靜態的html頁面,html頁面在瀏覽器中的展示效果如下:
2.wkhtmltopdf測試wkhtmltopdf是一個使用webkit網頁渲染引擎開發的用來將html轉成pdf的工具,可以跟多種腳本語言進行集成來轉換文檔。官網地址http://wkhtmltopdf.org/
技術特點:Wkhtmltopdf可以直接把瀏覽器中瀏覽的網頁轉換成一個pdf,他是一個把html頁面轉換成pdf的軟件(需要安裝在服務器上)。使用時可通過java代碼調用cmd指令完成網頁轉換為pdf的功能。
功能測試:直接在cmd裡輸入測試指令,可查看處理進度。
第一個參數:wkhtmltopdf.exe所在的路徑
第二個參數:需要轉換為pdf的html頁面
第三個參數:pdf文件路徑及文件名
頁面導出效果如下:
測試說明:
通過測試發現,wkhtmltopdf對bootstap的CSS樣式整體支持較好。對css3的新特性如圓形圖片樣式支持行不好。部分頁面樣式會失效。對於圖表展示,eachart圖表導出程序會報錯,不支持。不過echart有圖表轉換為圖片的接口,可通過獲取圖片地址的方式導出到pdf中。
3.PhantomJS測試PhantomJS是一個基於webkit內核的無頭瀏覽器,即沒有UI界面,即它是一個瀏覽器,只是其內的點擊、翻頁等人為相關操作需要程序設計實現。它提供javaScript API接口,即通過編寫JS程序可以直接與webkit內核交互,在此之上可以結合java語言等,通過java調用js等相關操作,從而解決了以前c/c++才能比較好的基於webkit開發優質採集器的限制。它同時提供windows、linux、mac等不同os的安裝使用包,也就是說可以在不同平台上二次開發採集項目或是自動項目測試等工作。官網地址http://phantomjs.org/
PhantomJS可做網頁分析,功能很多,本次僅調用網頁的截圖功能。在cmd中的測試如下:
測試頁面導出效果如下:
測試說明:
通過測試發現,PhantomJS對bootstap的樣式支持較好。對css3的新特性如圓形圖片樣式支持行不好。部分頁面樣式會失效。對於echart圖表展示,也可直接導出。效果如下:
3.IText和Flying SauserIText實現html2pdf,速度快,糾錯能力差,支持中文(要求HTML使用unicode編碼),但中支持一種中文字體,開源。 Flying Sauser實現html2pdf,糾錯能力差,支持多種中文字體(部分樣式不能識別),開源。
技術特點:基於java編程將html的css樣式做解析處理,目前僅對較簡單的頁面和样式支持。對於css3的樣式和關聯複雜的css樣式兼容性極差。當頁面內容較長時,處理時間慢。參考地址:https://code.google.com/archive/p/flying-saucer/
測試結果:本實驗的測試頁面無法出來,普通的測試頁面效果如下:
測試說明:
通過測試發現,IText和Flying Sauser這兩個開源項目對css3的兼容性基本不行,通過查閱資料,發現這種技術比較陳舊,這個開源項目現在也沒有更新和維護了。對於簡單表格,統計數據的導出,更新的技術有bootstrap table,easyui datagrid表格導出。網上介紹的這種方案不建議使用。
4.PD4ML測試PD4ML是純Java的類庫,使用HTML、CSS作為頁面佈局和內容定義格式來生成PDF文檔的強大工具,可以簡化最終用戶生成PDF的工作。參考網站:http://www.pd4ml.com
該軟件的優點是:
支持的HTML標籤、CSS屬性較全,轉換失真比較小,可以使用HTML+CSS實現精確的佈局控制。對網頁文件標籤、CSS語法錯誤的容錯性比較好。對不用額外的控制,就支持圖片的轉化輸出。
該軟件的缺點是:
不開源,最新的demo版本,下載測試以後,發現不支持中文轉換。必須購買商業版本才可以。 (這裡很坑,測試亂碼問題通不過,後面發現是本來就不支持)。破解後的一些舊版本可以解決亂碼問題,但是支持的css樣式沒有新版本的全。
測試結果:
測試說明:
新版本的中文亂碼,但是支持部分css樣式。老版本的破譯後,界面的樣式兼容性差,對bootsrtap的支持性低,就基本的可以出一個數據,展示圖片沒有問題。考慮到是收費軟件,並且性能也不夠完善,對於普通頁面可採用模板導出或其他的工具導出,不建議使用。
5.html2canvas測試html2canvas是一個相當不錯的JavaScript類庫,它使用了html5和css3的一些新功能特性,實現了在客戶端對網頁進行截圖的功能。 html2canvas通過獲取頁面的DOM和元素的樣式信息,並將其渲染成canvas圖片,從而實現給頁面截圖的功能。它不需要來自服務器任何渲染,整張圖片都是在客戶端瀏覽器創建。當瀏覽器不支持Canvas時,將採用Flashcanvas或ExplorerCanvas技術代替實現。以下瀏覽器能夠很好的支持該腳本:Firefox 3.5+, Google Chrome, Opera新的版本, IE9以上的瀏覽器。因為每個瀏覽器渲染頁面的方式都不盡相同,所以生成的圖片也不太一樣。雖然它目前還是處理開發階段,但還是很值得期待的。這個插件依賴於jQuery插件,建議使用最新版的。
不支持跨域圖片不能在瀏覽器插件中使用部分瀏覽器上不支持SVG圖片不支持Flash不支持ifream(可修改js原始代碼,支持ifream)
本次使用html2canvas做測試時,發現很多項目頁面可正常截圖,包括echart圖表。僅對少量css3的新特性不支持。在截圖效果上面較好。但是在測試應用時,發現了一個致命的問題,當頁面模塊調用html2canvas截圖後,發現原來頁面的部分css突然失效。跟踪分析後,發現是html2canvas的js函數處理它不能識別的css樣式。特別是對隱藏和顯示的模塊,支持不友好。
頁面截圖效果如下:
但是原有頁面的css失效,頁面出現異常,隱藏的部分樣式,顯示的樣式展示混亂。
測試說明:
通過測試發現,html2canvas對bootstap的樣式支持較好。對css3的新特性如圓形圖片樣式支持行不好。它的主要優點是輕前端,對於改變原有頁面的樣式問題,可先導出圖片後,重新刷新一次頁面。
6.總結通過對以上案例的測試,網上介紹的常用html轉換為pdf的方法,大多數就是簡單的html轉換可用,但是在實際應用中,還是存在諸多問題,難以應用。通過對這些方法的實現原理分析,可得出以下結論:
html網頁完整轉換為pdf,所有的方案均有不足。若只是部分錶單頁面,html樣式盡量不採用css3的屬性,可用客戶端模式和html2canvas處理。 html前端樣式發展快,css3新特性效果好,css定義了新的規則,語法。 IText和Flying Sauser這樣的java轉換類根本兼容不了這些變化,因為無法及時寫出轉換的函數,並且這些開源項目是較老的技術,後期的開源團隊已經停止維護和更新了。 PD4ML本質也是java處理css的樣式轉換,他是商業軟件,在兼容css3方面有團隊支持,相對IText和Flying Sauser在性能和功能方面都更強大。但對少部分css樣式也支持不好。並且中文亂碼問題解決也不便。針對客戶端瀏覽器內核模式,PhantomJS和wkhtmltopdf比較而言,PhantomJS更強大,截圖僅僅只是其中的一個小功能,通過它還可以做網頁分析,建議使用PhantomJS。 html2canvas的截圖模式靈活,是輕量級的前端截圖工具。目前來說,部分功能不全,但整體效果還不錯,針對部分截圖影響原頁面的問題,可先截圖保存成功後,在刷新一次頁面,達到截圖導出到pdf的效果。
以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作能帶來一定的幫助~如果有疑問大家可以留言交流,謝謝大家對VeVb武林網的支持!