先進的文化機械
介紹
我們研究的最終目標是建立一個具有高級智慧的系統,即具有閱讀、思考和創造的能力,先進到有一天甚至可以超越人類的智慧。我們將此系統命名為Advanced Literate Machinery (ALM) 。
首先,我們目前專注於訓練機器讀取影像和文件。未來幾年,我們將探索賦予機器思考和創造的智力能力,趕上並超越GPT-4和GPT-4V的可能性。
此專案由阿里巴巴集團統一實驗室讀光OCR團隊(讀光-讀光的意思是「讀光」)維護。
存取我們的讀光-讀光入口網站和DocMaster,體驗OCR和文件理解的線上演示。
最近更新
2024.12 發布
- CC-OCR ( CC-OCR:用於評估大型多模態模型的全面且具有挑戰性的 OCR 基準。論文):CC-OCR 基準專門用於評估大型多模態模型以 OCR 為中心的功能。 CC-OCR擁有豐富的場景、任務和挑戰,包括多場景文字閱讀、多語言文字閱讀、文件解析和關鍵資訊提取四個以OCR為中心的軌道。它包括 39 個子集,7,058 張完整註釋圖像,其中 41% 來自真實應用程序,首次發布。
2024.9 發布
Platypus ( Platypus:一種用於閱讀各種形式文本的通用專家模型, ECCV 2024。論文):Platypus 引入了一種從圖像中讀取文本的新穎方法,解決了專家模型和通才模型的局限性。 Platypus 利用單一統一架構有效辨識各種形式的文本,維持高精準度和高效率。我們還引入了一個新的資料集 Worms ,它結合併部分重新標記了先前的資料集,以支援模型的開發和評估。
SceneVTG ( Visual Text Generation in the Wild, ECCV 2024.論文):我們提出了一種視覺文本生成器(稱為SceneVTG),它可以在野外生成高品質的文字圖像。遵循兩階段範式,SceneVTG 利用多模態大語言模型來推薦跨多個尺度和層級的合理文字區域和內容,條件擴散模型將其用作生成文字影像的條件。為了訓練 SceneVTG,我們還提供了一個帶有詳細 OCR 註釋的新資料集 SceneVTG-Erase 。
WebRPG ( WebRPG:視覺呈現的自動 Web 渲染參數生成, ECCV 2024。論文):我們介紹了 WebRPG,這是一項新穎的任務,專注於基於 HTML 程式碼自動生成網頁的視覺呈現。在沒有基準的情況下,我們透過自動化管道建立了一個新的資料集。我們提出的模型是基於VAE 架構和自訂 HTML嵌入,可有效管理大量 Web 元素和渲染參數。包括客製化定量評估在內的綜合實驗證明了 WebRPG 模型在產生 Web 演示方面的有效性。
ProcTag ( ProcTag: Process Tagging for Assessing the Efficacy of Document instructions Data, arXiv 2024. paper):文件教學資料的有效評估方法對於建立高效的教學資料至關重要,這反過來又有助於法學碩士和法學碩士的培訓用於文件理解的 MLLM。我們提出了ProcTag,一種以資料為導向的方法,標記指令的執行過程而不是文字本身,從而能夠更有效地評估和選擇性採樣文件指令。
2024.4 發布
- OmniParser ( OmniParser:文字辨識、關鍵資訊擷取和表格識別的統一框架, CVPR 2024。論文):我們提出了一種跨不同場景解析視覺情境文本的通用模型,稱為OmniParser,它可以同時處理三種典型的視覺-情境文字解析任務:文字辨識、關鍵資訊擷取與表格辨識。在 OmniParser 中,所有任務共享統一的編碼器-解碼器架構、統一的目標:點條件文字產生以及統一的輸入和輸出表示:提示和結構化序列。
2024.3 發布
- GEM ( Gestalt Enhanced Markup Language Model for Web Understanding via Render Tree, EMNLP 2023.論文):網頁是人類獲取和感知資訊的重要載體。受格式塔心理學理論的啟發,我們提出了一種創新的格式塔增強標記語言模型(簡稱GEM),用於託管來自網頁渲染樹的異質視覺信息,從而在網絡問答和網絡信息提取等任務上表現出色。
2023.9 發布
- DocXChain ( DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond, arXiv 2023.report):為了提昇文件的數位化和結構化水平,我們開發並發布了一個名為DocXChain 的開源工具鏈,用於精確、詳細地解析文件文檔解析。目前提供了文字偵測、文字辨識、表格結構辨識、版面分析等基礎能力。此外,還建立了典型的管道,即一般文字讀取、表格解析和文件結構化,以支援與文件相關的更複雜的應用程式。大多數演算法模型來自 ModelScope。現在支援公式識別(使用 RapidLatexOCR 的模型)和整個 PDF 轉換(PDF 到 JSON 格式)。
- LISTER ( LISTER:Neighbor Decoding for Length-Insensitive Scene Text Recognition, ICCV 2023。論文):我們提出了一種稱為長度不敏感場景文本識別器(LISTER)的方法,它彌補了對各種文本長度的魯棒性的限制。具體來說,提出了一種鄰居解碼器,無論文字長度如何,都可以在新穎的鄰居矩陣的幫助下獲得準確的字元注意力圖。此外,設計了特徵增強模組來以低計算成本對長程依賴性進行建模,該模組能夠與鄰居解碼器進行迭代以逐步增強特徵圖。
- VGT (用於文件佈局分析的 Vision Grid Transformer, ICCV 2023。論文):為了充分利用多模態資訊並利用預訓練技術來學習更好的文件佈局分析(DLA)表示,我們提出了VGT,一種雙流Vision Grid Transformer,其中 Grid Transformer (GiT) 被提出並預先訓練用於 2D token 級和段級語義理解。此外,還策劃並發布了一個用於評估文件佈局分析演算法的新基準,稱為 D^4LA。
- VLPT-STD (用於增強場景文本檢測器的視覺語言預訓練, CVPR 2022。論文):我們採用視覺語言聯合學習來進行場景文本檢測,這項任務本質上涉及兩種模態之間的跨模態互動:視覺和語言。預先訓練的模型能夠產生具有更豐富語義的更多資訊表示,這可以輕鬆地使下游文字偵測任務中的現有場景文字偵測器(例如 EAST 和 DB)受益。
2023.6 發布
- LiteWeightOCR ( Building A Mobile Text Recognizer via Truncated SVD-based Knowledge Distillation-Guided NAS, BMVC 2023. paper):為了讓 OCR 模型可部署在行動裝置上同時保持高精度,我們提出了一種整合了截斷奇異值的輕量級文字辨識器基於分解 (TSVD) 的知識蒸餾 (KD) 到神經架構搜尋 (NAS) 流程。
2023.4 發布
- GeoLayoutLM ( GeoLayoutLM:視覺資訊擷取的幾何預訓練, CVPR 2023。論文):我們提出了一個用於視覺資訊擷取(VIE)的多模態框架,名為 GeoLayoutLM。與先前的文檔預訓練方法通常以隱式方式學習幾何表示不同,GeoLayoutLM明確地對文檔中實體的幾何關係進行建模。
2023.2 發布
- LORE-TSR ( LORE:用於表結構識別的邏輯位置回歸網絡, AAAI 2022。論文):我們將表結構識別(TSR)建模為邏輯位置回歸問題,並提出了一種稱為LORE 的新演算法,代表邏輯位置回歸網絡,它首次將邏輯位置回歸與表格單元格的空間位置回歸結合起來。
2022.9 發布
- MGP-STR (場景文本識別的多粒度預測, ECCV 2022。論文):基於 ViT 和定制的自適應尋址和聚合模組,我們通過引入子詞表示來促進多粒度預測,探索一種合併語言知識的隱式方法以及場景文字辨識中的融合。
- LevOCR ( Levenshtein OCR, ECCV 2022.論文):受Levenshtein Transformer的啟發,我們將場景文本識別問題轉化為迭代序列細化過程,它允許並行解碼、動態長度變化和良好的可解釋性。