無需 OCR 的文檔理解
[2024.9.28] 我們在HuggingFace ? 上發布了 DocOwl2 的訓練資料、推理代碼和評估代碼。和模型範圍。
[2024.9.20] 我們的論文DocOwl 1.5和TinyChart被EMNLP 2024接收。
[2024.9.06] 我們發布了 mPLUG-DocOwl 2 的 arxiv 論文,這是一個關於 OCR-free 多頁文檔理解的 SOTA 8B Multimodal LLM,每個文檔圖像僅用 324 個 token 進行編碼!
[2024.7.16] 我們的論文PaperOwl被ACM MM 2024接收。
[2024.5.08] 我們發布了DeepSpeed支援的DocOwl1.5的訓練程式碼。現在您可以基於 DocOwl1.5 微調更強大的模型!
[2024.4.26] 我們發布了 TinyChart 的 arxiv 論文,TinyChart 是一個具有 Program-of-Throught 能力的用於圖表理解的 SOTA 3B Multimodal LLM(ChartQA:83.6 > Gemin-Ultra 80.8 > GPT4V 78.5)。 TinyChart 的演示可在 HuggingFace 上找到。程式碼、模型和數據均在TinyChart中發布。
[2024.4.3] 我們在 ModelScope 和 HuggingFace 上建立了 DocOwl1.5 的演示,並由 DocOwl1.5-Omni 支援。 DocOwl1.5中也發布了啟動本機demo的原始碼。
[2024.3.28] 發布mPLUG-DocOwl的訓練資料(DocStruct4M、DocDownstream-1.0、DocReason25K)、程式碼與模型(DocOwl1.5-stage1、DocOwl1.5、DocOwl1.5-Chat5- OwlOwl HuggingF .均為1.5?和模型範圍。
[2024.3.20] 我們發布了 mPLUG-DocOwl 1.5 的 arxiv 論文,這是一篇關於 OCR-free 文件理解的 SOTA 8B Multimodal LLM(DocVQA 82.2、InfoVQA 50.7、ChartQA 70.2、TextV 68.28.6)。
[2024.01.13] 我們的科學圖表分析資料集 M-Paper 已在HuggingFace上可用?和ModelScope ,包含 447k 高解析度圖表影像和對應的段落分析。
[2023.10.13]mPLUG-DocOwl/UReader的訓練資料、模型已開源。
[2023.10.10] 我們的論文UReader被EMNLP 2023接收。
[2023.07.10] mPLUG-DocOwl 在 ModelScope 上的示範已上線。
[2023.07.07] mPLUG-DocOwl 技術報告及評估集發布。
mPLUG-DocOwl2 (Arxiv 2024) - mPLUG-DocOwl2:用於無 OCR 多頁文件理解的高解析度壓縮
mPLUG-DocOwl1.5 (EMNLP 2024) - mPLUG-DocOwl 1.5:用於免 OCR 文件理解的統一結構學習
TinyChart (EMNLP 2024) - TinyChart:透過視覺化標記合併和思路學習進行高效圖表理解
mPLUG-PaperOwl (ACM MM 2024) - mPLUG-PaperOwl:使用多模態大語言模型進行科學圖表分析
UReader (EMNLP 2023) - UReader:具有多模態大語言模型的通用免 OCR 視覺情境語言理解
mPLUG-DocOwl (Arxiv 2023) - mPLUG-DocOwl:用於文件理解的模組化多模態大語言模型
注意:HuggingFace 的示範不如 ModelScope 穩定,因為 HuggingFace ZeroGPU Spaces 中的 GPU 是動態分配的。
擁抱空間
模型範圍空間
擁抱空間
mPLUG。
mPLUG-2。
mPLUG-Owl