无需 OCR 的文档理解
[2024.9.28] 我们在HuggingFace ? 上发布了 DocOwl2 的训练数据、推理代码和评估代码。和模型范围。
[2024.9.20] 我们的论文DocOwl 1.5和TinyChart被EMNLP 2024接收。
[2024.9.06] 我们发布了 mPLUG-DocOwl 2 的 arxiv 论文,这是一个关于 OCR-free 多页文档理解的 SOTA 8B Multimodal LLM,每个文档图像仅用 324 个 token 进行编码!
[2024.7.16] 我们的论文PaperOwl被ACM MM 2024接收。
[2024.5.08] 我们发布了DeepSpeed支持的DocOwl1.5的训练代码。您现在可以基于 DocOwl1.5 微调更强大的模型!
[2024.4.26] 我们发布了 TinyChart 的 arxiv 论文,TinyChart 是一个具有 Program-of-Throught 能力的用于图表理解的 SOTA 3B Multimodal LLM(ChartQA:83.6 > Gemin-Ultra 80.8 > GPT4V 78.5)。 TinyChart 的演示可在 HuggingFace 上找到。代码、模型和数据均在TinyChart中发布。
[2024.4.3] 我们在 ModelScope 和 HuggingFace 上构建了 DocOwl1.5 的演示,并由 DocOwl1.5-Omni 支持。 DocOwl1.5中还发布了启动本地demo的源代码。
[2024.3.28] 发布mPLUG-DocOwl的训练数据(DocStruct4M、DocDownstream-1.0、DocReason25K)、代码和模型(DocOwl1.5-stage1、DocOwl1.5、DocOwl1.5-Chat、DocOwl1.5-Omni) HuggingFace上均为 1.5?和模型范围。
[2024.3.20] 我们发布了 mPLUG-DocOwl 1.5 的 arxiv 论文,这是一个关于 OCR-free 文档理解的 SOTA 8B Multimodal LLM(DocVQA 82.2、InfoVQA 50.7、ChartQA 70.2、TextVQA 68.6)。
[2024.01.13] 我们的科学图表分析数据集 M-Paper 已在HuggingFace上可用?和ModelScope ,包含 447k 高分辨率图表图像和相应的段落分析。
[2023.10.13]mPLUG-DocOwl/UReader的训练数据、模型已开源。
[2023.10.10] 我们的论文UReader被EMNLP 2023接收。
[2023.07.10] mPLUG-DocOwl 在 ModelScope 上的演示已上线。
[2023.07.07] mPLUG-DocOwl 技术报告及评估集发布。
mPLUG-DocOwl2 (Arxiv 2024) - mPLUG-DocOwl2:用于无 OCR 多页文档理解的高分辨率压缩
mPLUG-DocOwl1.5 (EMNLP 2024) - mPLUG-DocOwl 1.5:用于免 OCR 文档理解的统一结构学习
TinyChart (EMNLP 2024) - TinyChart:通过可视化标记合并和思路学习进行高效图表理解
mPLUG-PaperOwl (ACM MM 2024) - mPLUG-PaperOwl:使用多模态大语言模型进行科学图表分析
UReader (EMNLP 2023) - UReader:具有多模态大语言模型的通用免 OCR 视觉情境语言理解
mPLUG-DocOwl (Arxiv 2023) - mPLUG-DocOwl:用于文档理解的模块化多模态大语言模型
注意:HuggingFace 的演示不如 ModelScope 稳定,因为 HuggingFace ZeroGPU Spaces 中的 GPU 是动态分配的。
拥抱空间
模型范围空间
拥抱空间
mPLUG。
mPLUG-2。
mPLUG-Owl