Downcodes小編獲悉,阿里巴巴達摩院與中國人民大學聯合開源了名為mPLUG-DocOwl1.5的文檔處理模式。該模型無需OCR識別即可理解文件內容,並在多個基準測試中表現出色,其核心在於「統一結構學習」方法,提升了多模態大型語言模型(MLLM)對富文本圖像的結構理解能力。該模型在GitHub上已公開發布程式碼、模型和資料集,為相關領域研究提供了寶貴的資源。
阿里巴巴達摩院與中國人民大學近日聯合開源了一款名為mPLUG-DocOwl1.5的文檔處理模型,該模型主打無需OCR 識別即可理解文檔內容,並在多個視覺文檔理解基準測試中取得了領先的性能。
結構資訊對於理解富文本圖像(例如文件、表格和圖表)的語意至關重要。 現有的多模態大型語言模型(MLLM) 雖然具備文字辨識能力,但缺乏對富文本文件影像的通用結構理解能力。為了解決這個問題,mPLUG-DocOwl1.5強調結構資訊在視覺文件理解中的重要性,並提出了「統一結構學習」 來提升MLLM 的效能。
此模型的「統一結構學習」涵蓋了5個領域:文件、網頁、表格、圖表和自然圖像,包括結構感知解析任務和多粒度文字定位任務。 為了更好地編碼結構訊息,研究人員設計了一個簡單有效的視覺到文字模組H-Reducer,它不僅可以保留佈局訊息,還可以透過卷積合併水平相鄰的圖像塊來減少視覺特徵的長度,使大型語言模型能夠更有效地理解高解析度影像。
此外,為了支援結構學習,研究團隊基於公開可用的資料集建構了一個包含400萬個樣本的綜合訓練集DocStruct4M,其中包含結構感知文字序列和多粒度文字邊界框對。 為了進一步激發MLLM 在文件領域的推理能力,他們也建構了一個包含2.5萬個高品質樣本的推理微調資料集DocReason25K。
mPLUG-DocOwl1.5採用兩階段訓練框架,首先進行統一結構學習,然後在多個下游任務中進行多任務微調。透過這種訓練方式,mPLUG-DocOwl1.5在10個視覺文檔理解基準測試中均取得了最先進的性能,在5個基準測試中將7B LLM 的SOTA 性能提升了10個百分點以上。
目前,mPLUG-DocOwl1.5的程式碼、模型和資料集已在GitHub 上公開發布。
專案網址:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5
論文網址:https://arxiv.org/pdf/2403.12895
mPLUG-DocOwl1.5的開源,為視覺文件理解領域的研究和應用帶來了新的可能性,其高效的性能和便捷的訪問方式,值得廣大開發者關注和使用。期待未來該模型能夠在更多實際場景中發揮作用。