高度な読み書き可能な機械
導入
私たちの研究の最終目標は、将来的には人間の知能をも超える高度な知能、つまり読む力、考える力、創造する力を備えたシステムを構築することです。この種のシステムをAdvanced Literate Machinery (ALM)と名付けます。
まず、私たちは現在、画像やドキュメントから読み取るように機械に教えることに重点を置いています。今後数年間で、私たちは、GPT-4 や GPT-4V に追いつき、追い越す、考えたり創造したりする知的能力をマシンに与える可能性を探っていきます。
このプロジェクトは、アリババ グループの同義研究室の读光 OCR チーム(读光-Du Guang は「光を読む」の意味) によって維持されています。
读光-Du Guang ポータルと DocMaster にアクセスして、OCR と文書理解のオンライン デモを体験してください。
最近の更新
2024.12 リリース
- CC-OCR ( CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy . 論文): CC-OCR ベンチマークは、大規模マルチモーダル モデルの OCR 中心の機能を評価するために特別に設計されています。 CC-OCR には、多様なシナリオ、タスク、課題があり、OCR を中心とした 4 つのトラック (マルチシーン テキスト読み取り、多言語テキスト読み取り、文書解析、重要情報抽出) で構成されています。これには、7,058 個の完全な注釈付きイメージを含む 39 のサブセットが含まれており、そのうちの 41% は実際のアプリケーションから取得されており、初めてリリースされます。
2024.9 リリース
Platypus ( Platypus: A Generalized Specialist Model for Reading Text in Different Forms, ECCV 2024. 論文): Platypus は、画像からテキストを読み取るための新しいアプローチを導入し、スペシャリスト モデルとジェネラリスト モデルの両方の制限に対処します。 Platypus は単一の統合アーキテクチャを活用して、さまざまな形式のテキストを効果的に認識し、高い精度と効率を維持します。また、モデルの開発と評価をサポートするために、以前のデータセットを結合して部分的に再ラベル付けする新しいデータセット Wormsも紹介します。
SceneVTG ( Visual Text Generation in the Wild、 ECCV 2024. 論文): 我々は、高品質のテキスト画像を野生で生成できるビジュアル テキスト ジェネレーター (SceneVTG と呼ばれる) を提案します。 2 段階のパラダイムに従って、SceneVTG はマルチモーダル大規模言語モデルを活用して、複数のスケールとレベルにわたって合理的なテキスト領域とコンテンツを推奨します。これらは、条件付き拡散モデルによってテキスト イメージを生成する条件として使用されます。 SceneVTG をトレーニングするために、詳細な OCR アノテーションを備えた新しいデータセット SceneVTG-Eraseも提供しています。
WebRPG ( WebRPG: ビジュアル プレゼンテーションのための自動 Web レンダリング パラメーター生成、 ECCV 2024. 論文): HTML コードに基づいた Web ページのビジュアル プレゼンテーションの生成の自動化に焦点を当てた新しいタスクである WebRPG を紹介します。ベンチマークがない場合は、自動化されたパイプラインを介して新しいデータセットを作成しました。私たちが提案するモデルは、 VAE アーキテクチャとカスタム HTML 埋め込みに基づいて構築されており、多数の Web 要素とレンダリング パラメータを効率的に管理します。カスタマイズされた定量的評価を含む包括的な実験により、Web プレゼンテーションの生成における WebRPG モデルの有効性が実証されています。
ProcTag ( ProcTag: Process Tagging for Assessing the Efficacy of Document struction Data、 arXiv 2024. 論文): 文書指示データの効果的な評価方法は、効率の高い指示データを構築する上で重要です。これにより、LLM と文書を理解するための MLLM。私たちは、テキスト自体ではなく命令の実行プロセスにタグを付けるデータ指向の手法である ProcTag を提案します。これにより、文書命令のより効果的な評価と選択的なサンプリングが可能になります。
2024.4 リリース
- OmniParser ( OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition, CVPR 2024. 論文): 私たちは、OmniParser と呼ばれる、さまざまなシナリオにわたって視覚的に位置するテキストを解析するためのユニバーサル モデルを提案します。状況に応じたテキスト解析タスク: テキストスポッティング、重要な情報の抽出、およびテーブル認識。 OmniParser では、すべてのタスクが、統一されたエンコーダ/デコーダ アーキテクチャ、統一された目的であるポイント条件付きテキスト生成、および統一された入出力表現であるプロンプトおよび構造化シーケンスを共有します。
2024.3 リリース
- GEM ( GEM: Gestalt Enhanced Markup Language Model for Web Understanding via Render Tree、 EMNLP 2023. 論文): Web ページは、人間が情報を取得して認識するための重要な媒体として機能します。ゲシュタルト心理理論にインスピレーションを受け、 Web ページのレンダー ツリーからの異種視覚情報をホストするための革新的なゲシュタルト拡張マークアップ言語モデル (略して GEM) を提案します。これにより、Web 質問応答や Web 情報抽出などのタスクで優れたパフォーマンスが実現します。
2023.9 リリース
- DocXChain ( DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond、 arXiv 2023. レポート):ドキュメントのデジタル化と構造化のレベルを促進するために、正確かつ詳細な情報を提供するために、DocXChain と呼ばれるオープンソース ツールチェーンを開発およびリリースしています。文書の解析。現在、テキスト検出、テキスト認識、表構造認識、レイアウト分析などの基本機能が提供されています。また、一般的なパイプライン (一般的なテキストの読み取り、テーブルの解析、ドキュメントの構造化など) は、ドキュメントに関連するより複雑なアプリケーションをサポートするために構築されています。アルゴリズム モデルのほとんどは ModelScope からのものです。数式認識 (RapidLatexOCR のモデルを使用) と PDF 全体の変換 (PDF から JSON 形式) がサポートされるようになりました。
- LISTER ( LISTER: Neighbor Decoding for Length-Insensitive Scene Text Recognition、 ICCV 2023. 論文):さまざまなテキスト長に対する堅牢性に関する制限を修正する、Length-Insensitive Scene TEXt Recognizer (LISTER) と呼ばれる方法を提案します。具体的には、テキストの長さに関係なく、新しい隣接行列の助けを借りて正確な文字注意マップを取得する隣接デコーダが提案されています。さらに、特徴拡張モジュールは、低い計算コストで長距離の依存関係をモデル化するために考案されており、隣接デコーダと反復を実行して特徴マップを段階的に強化することができます。
- VGT ( Vision Grid Transformer for Document Layout Analysis、 ICCV 2023. 論文):マルチモーダル情報を最大限に活用し、事前トレーニング技術を活用してドキュメント レイアウト分析 (DLA) のより適切な表現を学習するために、2 ストリーム ビジョンである VGT を紹介します。 Grid Transformer。Grid Transformer (GiT) が提案され、2D トークン レベルおよびセグメント レベルのセマンティック理解のために事前トレーニングされています。さらに、D^4LA と呼ばれるドキュメント レイアウト分析アルゴリズムを評価するための新しいベンチマークが厳選され、リリースされました。
- VLPT-STD (シーン テキスト検出器を強化するための視覚言語事前トレーニング、 CVPR 2022。論文):シーン テキスト検出に視覚言語共同学習を適応させます。これは、視覚と視覚という 2 つのモダリティ間のクロスモーダル相互作用を本質的に伴うタスクです。言語。事前トレーニングされたモデルは、より豊富なセマンティクスを備えたより有益な表現を生成できるため、下流のテキスト検出タスクにおける既存のシーン テキスト検出器 (EAST や DB など) にすぐに役立つ可能性があります。
2023.6 リリース
- LiteWeightOCR ( Building A Mobile Text Recognizer via Truncated SVD-based Knowledge Distillation-Guided NAS、 BMVC 2023. 論文):高精度を維持しながらモバイル デバイスに OCR モデルを展開できるようにするために、Truncated Singular Value を統合した軽量テキスト認識装置を提案します。分解 (TSVD) ベースの知識蒸留 (KD) をニューラル アーキテクチャ検索 (NAS) プロセスに変換します。
2023.4 リリース
- GeoLayoutLM ( GeoLayoutLM: 視覚情報抽出のための幾何学的事前トレーニング、 CVPR 2023. 論文): 視覚情報抽出 (VIE) 用に、GeoLayoutLM という名前のマルチモーダル フレームワークを提案します。通常、暗黙的な方法で幾何学的表現を学習するドキュメント事前トレーニングの以前の方法とは対照的に、GeoLayoutLM はドキュメント内のエンティティの幾何学的関係を明示的にモデル化します。
2023.2 リリース
- LORE-TSR ( LORE: Logical Location Regression Network for Table Structure Recognition、 AAAI 2022. 論文): テーブル構造認識 (TSR) を論理位置回帰問題としてモデル化し、論理位置回帰ネットワークの略である LORE と呼ばれる新しいアルゴリズムを提案します。これは、論理位置回帰と表セルの空間位置回帰を初めて組み合わせたものです。
2022.9 リリース
- MGP-STR (シーンテキスト認識のための多粒度予測、 ECCV 2022.論文): ViT とカスタマイズされた適応型アドレッシングおよび集約モジュールに基づいて、多粒度予測を容易にするサブワード表現を導入することで言語知識を組み込む暗黙的な方法を探索します。シーンテキスト認識における融合。
- LevOCR ( Levenshtein OCR、 ECCV 2022. 論文): Levenshtein Transformer に触発され、シーン テキスト認識の問題を反復シーケンス改良プロセスとして投影し、これにより並列デコード、動的な長さの変更、優れた解釈性が可能になります。