Machines alphabétisées avancées
Introduction
Le but ultime de nos recherches est de construire un système doté d'une intelligence de haut niveau, c'est-à-dire possédant des capacités de lecture, de réflexion et de création , si avancées qu'il pourrait même un jour surpasser l'intelligence humaine. Nous appelons ce type de systèmes Advanced Literate Machinery (ALM) .
Pour commencer, nous nous concentrons actuellement sur l’apprentissage par les machines de la lecture d’images et de documents. Dans les années à venir, nous explorerons les possibilités de doter les machines de capacités intellectuelles de réflexion et de création , rattrapant et dépassant GPT-4 et GPT-4V.
Ce projet est maintenu par l' équipe 读光 OCR (读光-Du Guang signifie « Reading The Light ») du laboratoire Tongyi du groupe Alibaba.
Visitez notre portail 读光-Du Guang et DocMaster pour découvrir des démos en ligne pour l'OCR et la compréhension des documents.
Mises à jour récentes
Version 2024.12
- CC-OCR ( CC-OCR : A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy . paper) : Le benchmark CC-OCR est spécifiquement conçu pour évaluer les capacités centrées sur l'OCR des grands modèles multimodaux. CC-OCR possède une gamme diversifiée de scénarios, de tâches et de défis, qui comprend quatre pistes centrées sur l'OCR : lecture de texte multi-scènes, lecture de texte multilingue, analyse de documents et extraction d'informations clés. Il comprend 39 sous-ensembles avec 7 058 images entièrement annotées, dont 41 % proviennent d'applications réelles, et sont publiées pour la première fois.
Version 2024.9
Platypus ( Ornithorynque : Un modèle spécialisé généralisé pour la lecture de texte sous diverses formes, ECCV 2024. article) : Platypus introduit une nouvelle approche de la lecture de texte à partir d'images, abordant les limites des modèles spécialisés et généralistes. Platypus s'appuie sur une architecture unifiée unique pour reconnaître efficacement le texte sous diverses formes , tout en conservant une précision et une efficacité élevées. Nous introduisons également un nouvel ensemble de données Worms qui combine et ré-étiquete partiellement les ensembles de données précédents pour prendre en charge le développement et l'évaluation du modèle.
SceneVTG ( Visual Text Generation in the Wild, ECCV 2024. paper) : Nous proposons un générateur de texte visuel (appelé SceneVTG), qui peut produire des images de texte de haute qualité dans la nature . Suivant un paradigme en deux étapes , SceneVTG exploite un modèle de langage multimodal pour recommander des régions de texte et des contenus raisonnables sur plusieurs échelles et niveaux, qui sont utilisés par un modèle de diffusion conditionnelle comme conditions pour générer des images de texte. Pour entraîner SceneVTG, nous apportons également un nouvel ensemble de données SceneVTG-Erase avec des annotations OCR détaillées.
WebRPG ( WebRPG : Génération automatique de paramètres de rendu Web pour la présentation visuelle, ECCV 2024. article) : Nous présentons WebRPG, une nouvelle tâche qui se concentre sur l'automatisation de la génération de présentations visuelles pour les pages Web basées sur du code HTML. En l'absence de benchmark, nous avons créé un nouvel ensemble de données via un pipeline automatisé . Nos modèles proposés, construits sur l'architecture VAE et des intégrations HTML personnalisées , gèrent efficacement de nombreux éléments Web et paramètres de rendu. Des expériences complètes, y compris des évaluations quantitatives personnalisées, démontrent l'efficacité du modèle WebRPG dans la génération de présentations Web.
ProcTag ( ProcTag : Process Tagging for Assessing the Efficacy of Document Instruction Data, arXiv 2024. paper) : Une méthode d'évaluation efficace des données d'instructions de documents est cruciale pour construire des données d'instructions avec une grande efficacité, ce qui, à son tour, facilite la formation des LLM et MLLM pour la compréhension des documents. Nous proposons ProcTag, une méthode orientée données qui marque le processus d'exécution des instructions plutôt que le texte lui-même, permettant une évaluation plus efficace et un échantillonnage sélectif des instructions du document.
Version 2024.4
- OmniParser ( OmniParser : A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition, CVPR 2024. paper) : Nous proposons un modèle universel pour analyser du texte visuellement situé dans divers scénarios, appelé OmniParser, qui peut gérer simultanément trois types de visualisation visuelle. tâches d'analyse de texte situées : repérage de texte, extraction d'informations clés et reconnaissance de tables. Dans OmniParser, toutes les tâches partagent l' architecture unifiée d'encodeur-décodeur , l'objectif unifié : la génération de texte conditionné par des points et la représentation unifiée des entrées et des sorties : des séquences d'invite et structurées .
Version 2024.3
- GEM ( GEM : Gestalt Enhanced Markup Language Model for Web Understanding via Render Tree, EMNLP 2023. paper) : Les pages Web servent de supports cruciaux permettant aux humains d'acquérir et de percevoir des informations. Inspirés par la théorie psychologique de la Gestalt, nous proposons un modèle innovant de langage de balisage amélioré Gestalt (GEM en abrégé) pour héberger des informations visuelles hétérogènes à partir d'arbres de rendu de pages Web , conduisant à d'excellentes performances sur des tâches telles que la réponse aux questions Web et l'extraction d'informations Web.
Version 2023.9
- DocXChain ( DocXChain: A Puissant Open-Source Toolchain for Document Parsing and Beyond, arXiv 2023. report) : Pour promouvoir le niveau de numérisation et de structuration des documents , nous développons et publions une chaîne d'outils open source, appelée DocXChain, pour des tâches précises et détaillées. analyse de documents. Actuellement, des fonctionnalités de base, notamment la détection de texte, la reconnaissance de texte, la reconnaissance de la structure des tableaux et l'analyse de la mise en page, sont fournies. En outre, les pipelines typiques, c'est-à-dire la lecture générale de texte, l'analyse de tableaux et la structuration de documents, sont conçus pour prendre en charge des applications plus complexes liées aux documents. La plupart des modèles algorithmiques proviennent de ModelScope. La reconnaissance de formules (à l'aide de modèles de RapidLatexOCR) et la conversion PDF entière (format PDF au format JSON) sont désormais prises en charge.
- LISTER ( LISTER : Neighbor Decoding for length-insensitive Scene Text Recognition, ICCV 2023. paper) : Nous proposons une méthode appelée length-insensitive scene TExt Recognizer (LISTER), qui remédie à la limitation concernant la robustesse à différentes longueurs de texte . Plus précisément, un décodeur de voisin est proposé pour obtenir des cartes d'attention de caractère précises à l'aide d'une nouvelle matrice de voisin, quelle que soit la longueur du texte. En outre, un module d'amélioration des fonctionnalités est conçu pour modéliser la dépendance à longue portée avec un faible coût de calcul, capable d'effectuer des itérations avec le décodeur voisin pour améliorer progressivement la carte des fonctionnalités.
- VGT ( Vision Grid Transformer for Document Layout Analysis, ICCV 2023. paper) : Pour exploiter pleinement les informations multimodales et exploiter les techniques de pré-formation pour apprendre une meilleure représentation pour l'analyse de la mise en page des documents (DLA), nous présentons VGT, une vision à deux flux. Grid Transformer, dans lequel Grid Transformer (GiT) est proposé et pré-entraîné pour la compréhension sémantique au niveau des jetons 2D et des segments. En outre, une nouvelle référence pour évaluer les algorithmes d’analyse de la mise en page des documents, appelée D^4LA, est organisée et publiée.
- VLPT-STD ( Vision-Language Pre-Training for Boosting Scene Text Detectors, CVPR 2022. paper) : Nous adaptons l'apprentissage conjoint vision-langage pour la détection de texte de scène , une tâche qui implique intrinsèquement une interaction intermodale entre les deux modalités : vision et langue. Le modèle pré-entraîné est capable de produire des représentations plus informatives avec une sémantique plus riche, ce qui pourrait facilement profiter aux détecteurs de texte de scène existants (tels que EAST et DB) dans la tâche de détection de texte en aval.
Version 2023.6
- LiteWeightOCR ( Building A Mobile Text Recognizer via Truncated SVD-based Knowledge Distillation-Guided NAS, BMVC 2023. paper) : Pour rendre les modèles OCR déployables sur les appareils mobiles tout en conservant une grande précision , nous proposons un outil de reconnaissance de texte léger qui intègre la valeur singulière tronquée. Distillation des connaissances (KD) basée sur la décomposition (TSVD) dans le processus de recherche d'architecture neuronale (NAS).
Version 2023.4
- GeoLayoutLM ( GeoLayoutLM : Geographic Pre-training for Visual Information Extraction, CVPR 2023. paper) : Nous proposons un framework multimodal, nommé GeoLayoutLM, pour l'extraction d'informations visuelles (VIE). Contrairement aux méthodes précédentes de pré-formation sur les documents, qui apprennent généralement la représentation géométrique de manière implicite, GeoLayoutLM modélise explicitement les relations géométriques des entités dans les documents .
Version 2023.2
- LORE-TSR ( LORE : Logical Location Regression Network for Table Structure Recognition, AAAI 2022. article) : Nous modélisons la reconnaissance de structure de table (TSR) comme un problème de régression de localisation logique et proposons un nouvel algorithme appelé LORE, pour LOgical location REgression network, qui combine pour la première fois la régression de localisation logique avec la régression de localisation spatiale des cellules d'un tableau.
Version 2022.9
- MGP-STR ( Multi-Granularity Prediction for Scene Text Recognition, ECCV 2022. paper) : basé sur ViT et un module d'adressage et d'agrégation adaptatif sur mesure, nous explorons une manière implicite d'incorporer les connaissances linguistiques en introduisant des représentations de sous-mots pour faciliter la prédiction multi-granularité. et la fusion dans la reconnaissance de texte de scène.
- LevOCR ( Levenshtein OCR, ECCV 2022. paper) : Inspirés par Levenshtein Transformer, nous avons présenté le problème de la reconnaissance de texte de scène comme un processus itératif de raffinement de séquence, qui permet un décodage parallèle, un changement de longueur dynamique et une bonne interprétabilité .