表格、圖表統統拿下!阿里達摩院開源DocOwl 1.5 無需OCR,有效率地「讀懂」文件!
阿里巴巴達摩院與中國人民大學聯合開源了mPLUG-DocOwl1.5文檔處理模型,該模型無需OCR即可理解文檔內容,並在多個基準測試中取得領先性能。 Downcodes小編解讀:此模型透過「統一結構學習」提升了多模態大型語言模型的效能,涵蓋文件、網頁、表格、圖表和自然圖像五個領域。 研究人員設計了H-Reducer模組,有效編碼結構訊息,並建構了包含400萬樣本的DocStruct4M訓練集和2.5萬樣本的DocReason25K微調資料集。 mPLUG-DocOwl1.5在10個基準測試中取得SOTA效
2024-12-10