先进的文化机械
介绍
我们研究的最终目标是建立一个具有高级智能的系统,即具有阅读、思考和创造的能力,先进到有一天甚至可以超越人类的智能。我们将这种系统命名为Advanced Literate Machinery (ALM) 。
首先,我们目前专注于训练机器读取图像和文档。未来几年,我们将探索赋予机器思考和创造的智力能力,赶上并超越GPT-4和GPT-4V的可能性。
该项目由阿里巴巴集团统一实验室读光OCR团队(读光-读光的意思是“读光”)维护。
访问我们的读光-读光门户和DocMaster,体验OCR和文档理解的在线演示。
最近更新
2024.12 发布
- CC-OCR ( CC-OCR:用于评估大型多模态模型的全面且具有挑战性的 OCR 基准。论文):CC-OCR 基准专门用于评估大型多模态模型以 OCR 为中心的功能。 CC-OCR拥有丰富的场景、任务和挑战,包括多场景文本阅读、多语言文本阅读、文档解析和关键信息提取四个以OCR为中心的轨道。它包括 39 个子集,7,058 张完整注释图像,其中 41% 来自真实应用程序,首次发布。
2024.9 发布
Platypus ( Platypus:一种用于阅读各种形式文本的通用专家模型, ECCV 2024。论文):Platypus 引入了一种从图像中读取文本的新颖方法,解决了专家模型和通才模型的局限性。 Platypus 利用单一统一架构有效识别各种形式的文本,保持高精度和高效率。我们还引入了一个新的数据集 Worms ,它结合并部分重新标记了以前的数据集,以支持模型的开发和评估。
SceneVTG ( Visual Text Generation in the Wild, ECCV 2024.论文):我们提出了一种视觉文本生成器(称为SceneVTG),它可以在野外生成高质量的文本图像。遵循两阶段范式,SceneVTG 利用多模态大语言模型来推荐跨多个尺度和级别的合理文本区域和内容,条件扩散模型将其用作生成文本图像的条件。为了训练 SceneVTG,我们还提供了一个带有详细 OCR 注释的新数据集 SceneVTG-Erase 。
WebRPG ( WebRPG:视觉呈现的自动 Web 渲染参数生成, ECCV 2024。论文):我们介绍了 WebRPG,这是一项新颖的任务,专注于基于 HTML 代码自动生成网页的视觉呈现。在没有基准的情况下,我们通过自动化管道创建了一个新的数据集。我们提出的模型基于VAE 架构和自定义 HTML嵌入,可有效管理大量 Web 元素和渲染参数。包括定制定量评估在内的综合实验证明了 WebRPG 模型在生成 Web 演示方面的有效性。
ProcTag ( ProcTag: Process Tagging for Assessing the Efficacy of Document instructions Data, arXiv 2024. paper):文档教学数据的有效评估方法对于构建高效的教学数据至关重要,这反过来又有助于法学硕士和法学硕士的培训用于文档理解的 MLLM。我们提出了ProcTag,一种面向数据的方法,标记指令的执行过程而不是文本本身,从而能够更有效地评估和选择性采样文档指令。
2024.4 发布
- OmniParser ( OmniParser:文本识别、关键信息提取和表格识别的统一框架, CVPR 2024。论文):我们提出了一种跨不同场景解析视觉情境文本的通用模型,称为 OmniParser,它可以同时处理三种典型的视觉-情境文本解析任务:文本识别、关键信息提取和表格识别。在 OmniParser 中,所有任务共享统一的编码器-解码器架构、统一的目标:点条件文本生成以及统一的输入和输出表示:提示和结构化序列。
2024.3 发布
- GEM ( Gestalt Enhanced Markup Language Model for Web Understanding via Render Tree, EMNLP 2023.论文):网页是人类获取和感知信息的重要载体。受格式塔心理学理论的启发,我们提出了一种创新的格式塔增强标记语言模型(简称GEM),用于托管来自网页渲染树的异构视觉信息,从而在网络问答和网络信息提取等任务上表现出色。
2023.9 发布
- DocXChain ( DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond, arXiv 2023.report):为了提升文档的数字化和结构化水平,我们开发并发布了一个名为 DocXChain 的开源工具链,用于精确、详细地解析文档文档解析。目前提供了文本检测、文本识别、表格结构识别、布局分析等基础能力。此外,还构建了典型的管道,即一般文本读取、表格解析和文档结构化,以支持与文档相关的更复杂的应用程序。大多数算法模型来自 ModelScope。现在支持公式识别(使用 RapidLatexOCR 的模型)和整个 PDF 转换(PDF 到 JSON 格式)。
- LISTER ( LISTER:Neighbor Decoding for Length-Insensitive Scene Text Recognition, ICCV 2023。论文):我们提出了一种称为长度不敏感场景文本识别器(LISTER)的方法,它弥补了对各种文本长度的鲁棒性的限制。具体来说,提出了一种邻居解码器,无论文本长度如何,都可以在新颖的邻居矩阵的帮助下获得准确的字符注意力图。此外,设计了特征增强模块来以低计算成本对长程依赖性进行建模,该模块能够与邻居解码器进行迭代以逐步增强特征图。
- VGT (用于文档布局分析的 Vision Grid Transformer, ICCV 2023。论文):为了充分利用多模态信息并利用预训练技术来学习更好的文档布局分析(DLA)表示,我们提出了 VGT,一种双流 Vision Grid Transformer,其中 Grid Transformer (GiT) 被提出并预训练用于 2D token 级和段级语义理解。此外,还策划并发布了一个用于评估文档布局分析算法的新基准,称为 D^4LA。
- VLPT-STD (用于增强场景文本检测器的视觉语言预训练, CVPR 2022。论文):我们采用视觉语言联合学习来进行场景文本检测,这项任务本质上涉及两种模态之间的跨模态交互:视觉和语言。预训练的模型能够产生具有更丰富语义的更多信息表示,这可以很容易地使下游文本检测任务中的现有场景文本检测器(例如 EAST 和 DB)受益。
2023.6 发布
- LiteWeightOCR ( Building A Mobile Text Recognizer via Truncated SVD-based Knowledge Distillation-Guided NAS, BMVC 2023. paper):为了使 OCR 模型可部署在移动设备上同时保持高精度,我们提出了一种集成了截断奇异值的轻量级文本识别器基于分解 (TSVD) 的知识蒸馏 (KD) 到神经架构搜索 (NAS) 过程中。
2023.4 发布
- GeoLayoutLM ( GeoLayoutLM:视觉信息提取的几何预训练, CVPR 2023。论文):我们提出了一个用于视觉信息提取(VIE)的多模态框架,名为 GeoLayoutLM。与之前的文档预训练方法通常以隐式方式学习几何表示不同,GeoLayoutLM显式地对文档中实体的几何关系进行建模。
2023.2 发布
- LORE-TSR ( LORE:用于表结构识别的逻辑位置回归网络, AAAI 2022。论文):我们将表结构识别(TSR)建模为逻辑位置回归问题,并提出了一种称为 LORE 的新算法,代表逻辑位置回归网络,它首次将逻辑位置回归与表格单元格的空间位置回归结合起来。
2022.9 发布
- MGP-STR (场景文本识别的多粒度预测, ECCV 2022。论文):基于 ViT 和定制的自适应寻址和聚合模块,我们通过引入子词表示来促进多粒度预测,探索一种合并语言知识的隐式方法以及场景文本识别中的融合。
- LevOCR ( Levenshtein OCR, ECCV 2022.论文):受Levenshtein Transformer的启发,我们将场景文本识别问题转化为迭代序列细化过程,它允许并行解码、动态长度变化和良好的可解释性。