Fortgeschrittene Alphabetisierungsmaschinen
Einführung
Das ultimative Ziel unserer Forschung ist der Aufbau eines Systems mit hoher Intelligenz, das heißt mit der Fähigkeit zu lesen, zu denken und zu erschaffen , das so weit fortgeschritten ist, dass es eines Tages sogar die menschliche Intelligenz übertreffen könnte. Wir nennen diese Art von Systemen Advanced Literate Machinery (ALM) .
Zunächst konzentrieren wir uns derzeit darauf, Maschinen das Lesen von Bildern und Dokumenten beizubringen. In den kommenden Jahren werden wir die Möglichkeiten erkunden, Maschinen mit den intellektuellen Fähigkeiten des Denkens und Schaffens auszustatten und dabei mit GPT-4 und GPT-4V gleichzuziehen und diese zu übertreffen.
Dieses Projekt wird vom读光 OCR-Team (读光-Du Guang bedeutet „ Das Licht lesen “) im Tongyi Lab der Alibaba Group betreut.
Besuchen Sie unser 读光-Du Guang-Portal und DocMaster, um Online-Demos für OCR und Document Understanding zu erleben.
Aktuelle Updates
2024.12 Veröffentlichung
- CC-OCR ( CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy . Papier): Der CC-OCR-Benchmark wurde speziell für die Bewertung der OCR-zentrierten Fähigkeiten großer multimodaler Modelle entwickelt. CC-OCR verfügt über ein vielfältiges Spektrum an Szenarien, Aufgaben und Herausforderungen, das vier OCR-zentrierte Tracks umfasst: Lesen von Texten in mehreren Szenen, Lesen von mehrsprachigen Texten, Parsen von Dokumenten und Extraktion wichtiger Informationen. Es umfasst 39 Teilmengen mit 7.058 vollständig kommentierten Bildern, von denen 41 % aus realen Anwendungen stammen, und wird erstmals veröffentlicht.
2024.9-Veröffentlichung
Platypus ( Platypus: A Generalized Specialist Model for Reading Text in Different Forms, ECCV 2024. Artikel): Platypus stellt einen neuartigen Ansatz zum Lesen von Texten aus Bildern vor und geht dabei auf die Einschränkungen sowohl spezialisierter als auch generalistischer Modelle ein. Platypus nutzt eine einzige einheitliche Architektur , um Text in verschiedenen Formen effektiv zu erkennen und dabei eine hohe Genauigkeit und Effizienz aufrechtzuerhalten. Wir führen außerdem einen neuen Datensatz Worms ein, der frühere Datensätze kombiniert und teilweise neu beschriftet, um die Entwicklung und Bewertung des Modells zu unterstützen.
SceneVTG ( Visual Text Generation in the Wild, ECCV 2024. Papier): Wir schlagen einen visuellen Textgenerator (genannt SceneVTG) vor, der hochwertige Textbilder in freier Wildbahn erzeugen kann. SceneVTG folgt einem zweistufigen Paradigma und nutzt ein multimodales Large Language Model, um sinnvolle Textregionen und -inhalte über mehrere Maßstäbe und Ebenen hinweg zu empfehlen, die von einem bedingten Diffusionsmodell als Bedingungen für die Generierung von Textbildern verwendet werden. Um SceneVTG zu trainieren, tragen wir außerdem einen neuen Datensatz SceneVTG-Erase mit detaillierten OCR-Anmerkungen bei.
WebRPG ( WebRPG: Automatic Web Rendering Parameters Generation for Visual Presentation, ECCV 2024. Papier): Wir stellen WebRPG vor, eine neuartige Aufgabe, die sich auf die Automatisierung der Generierung visueller Präsentationen für Webseiten basierend auf HTML-Code konzentriert. In Ermangelung eines Benchmarks haben wir über eine automatisierte Pipeline einen neuen Datensatz erstellt. Unsere vorgeschlagenen Modelle basieren auf der VAE-Architektur und benutzerdefinierten HTML-Einbettungen und verwalten effizient zahlreiche Webelemente und Rendering-Parameter. Umfangreiche Experimente, einschließlich maßgeschneiderter quantitativer Auswertungen, belegen die Wirksamkeit des WebRPG-Modells bei der Erstellung von Webpräsentationen.
ProcTag ( ProcTag: Process Tagging for Assessing the Efficacy of Document Instruction Data, arXiv 2024. Artikel): Eine effektive Bewertungsmethode für Dokumentanweisungsdaten ist entscheidend für die Erstellung von Befehlsdaten mit hoher Wirksamkeit, was wiederum das Training von LLMs und erleichtert MLLMs für das Dokumentenverständnis. Wir schlagen ProcTag vor, eine datenorientierte Methode, die den Ausführungsprozess von Anweisungen und nicht den Text selbst markiert und so eine effektivere Bewertung und selektive Stichprobenauswahl von Dokumentanweisungen ermöglicht.
2024.4-Veröffentlichung
- OmniParser ( OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition, CVPR 2024. Artikel): Wir schlagen ein universelles Modell zum Parsen von visuell lokalisiertem Text in verschiedenen Szenarien vor, genannt OmniParser, das gleichzeitig drei typische visuell-situierte Texte verarbeiten kann. Lokalisierte Textanalyseaufgaben: Texterkennung, Schlüsselinformationsextraktion und Tabellenerkennung. In OmniParser teilen sich alle Aufgaben die einheitliche Encoder-Decoder-Architektur , das einheitliche Ziel: punktbedingte Textgenerierung und die einheitliche Eingabe- und Ausgabedarstellung: Eingabeaufforderung und strukturierte Sequenzen .
2024.3-Veröffentlichung
- GEM ( GEM: Gestalt Enhanced Markup Language Model for Web Understanding via Render Tree, EMNLP 2023. Artikel): Webseiten dienen als entscheidende Träger für Menschen, um Informationen zu erfassen und wahrzunehmen. Inspiriert von der gestaltpsychologischen Theorie schlagen wir ein innovatives Gestalt Enhanced Markup Language Model (kurz GEM) zum Hosten heterogener visueller Informationen aus Renderbäumen von Webseiten vor, was zu hervorragenden Leistungen bei Aufgaben wie der Beantwortung von Webfragen und der Extraktion von Webinformationen führt.
2023.9-Veröffentlichung
- DocXChain ( DocXChain: Eine leistungsstarke Open-Source-Toolchain für das Parsen von Dokumenten und darüber hinaus, arXiv 2023. Bericht): Um den Grad der Digitalisierung und Strukturierung von Dokumenten zu fördern , entwickeln und veröffentlichen wir eine Open-Source-Toolchain namens DocXChain für präzise und detaillierte Parsen von Dokumenten. Derzeit werden grundlegende Funktionen bereitgestellt, darunter Texterkennung, Texterkennung, Tabellenstrukturerkennung und Layoutanalyse. Außerdem sind typische Pipelines, z. B. das allgemeine Lesen von Texten, das Parsen von Tabellen und die Strukturierung von Dokumenten, so aufgebaut, dass sie kompliziertere Anwendungen im Zusammenhang mit Dokumenten unterstützen. Die meisten algorithmischen Modelle stammen von ModelScope. Formelerkennung (unter Verwendung von Modellen von RapidLatexOCR) und vollständige PDF-Konvertierung (PDF-in-JSON-Format) werden jetzt unterstützt.
- LISTER ( LISTER: Neighbor Decoding for Length-Insensitive Scene Text Recognition, ICCV 2023. Artikel): Wir schlagen eine Methode namens Length-Insensitive Scene TExt Recognizer (LISTER) vor, die die Einschränkung hinsichtlich der Robustheit gegenüber verschiedenen Textlängen behebt. Insbesondere wird ein Neighbor Decoder vorgeschlagen, um mithilfe einer neuartigen Nachbarmatrix unabhängig von der Textlänge genaue Zeichenaufmerksamkeitskarten zu erhalten. Darüber hinaus wurde ein Feature-Enhancement-Modul entwickelt, um die Abhängigkeit über große Entfernungen mit geringem Rechenaufwand zu modellieren, das in der Lage ist, Iterationen mit dem Nachbardecoder durchzuführen, um die Feature-Map schrittweise zu verbessern.
- VGT ( Vision Grid Transformer for Document Layout Analysis, ICCV 2023. Papier): Um multimodale Informationen vollständig zu nutzen und vorab trainierte Techniken zu nutzen, um eine bessere Darstellung für die Dokumentlayoutanalyse (DLA) zu erlernen , präsentieren wir VGT, eine Vision mit zwei Streams Grid Transformer, in dem Grid Transformer (GiT) für das semantische Verständnis auf 2D-Token- und Segmentebene vorgeschlagen und vorab trainiert wird. Darüber hinaus wird ein neuer Benchmark zur Bewertung von Algorithmen zur Dokumentlayoutanalyse namens D^4LA kuratiert und veröffentlicht.
- VLPT-STD ( Vision-Language Pre-Training for Boosting Scene Text Detectors, CVPR 2022. Papier): Wir passen das gemeinsame Lernen von Vision-Sprache für die Szenentexterkennung an, eine Aufgabe, die von Natur aus eine modalübergreifende Interaktion zwischen den beiden Modalitäten beinhaltet: Vision und Sprache. Das vorab trainierte Modell ist in der Lage, informativere Darstellungen mit reichhaltigerer Semantik zu erzeugen, was vorhandenen Szenentextdetektoren (wie EAST und DB) bei der nachgelagerten Texterkennungsaufgabe ohne weiteres zugute kommen könnte.
2023.6-Veröffentlichung
- LiteWeightOCR ( Building A Mobile Text Recognizer via Truncated SVD-based Knowledge Distillation-Guided NAS, BMVC 2023. Papier): Um OCR-Modelle auf mobilen Geräten einsetzbar zu machen und gleichzeitig eine hohe Genauigkeit beizubehalten , schlagen wir einen leichten Texterkenner vor, der Truncated Singular Value integriert Zerlegung (TSVD)-basierte Wissensdestillation (KD) in den Neural Architecture Search (NAS)-Prozess.
2023.4-Veröffentlichung
- GeoLayoutLM ( GeoLayoutLM: Geometrisches Vortraining für die visuelle Informationsextraktion, CVPR 2023. Papier): Wir schlagen ein multimodales Framework mit dem Namen GeoLayoutLM für die visuelle Informationsextraktion (VIE) vor. Im Gegensatz zu früheren Methoden zum Vortraining von Dokumenten, die die geometrische Darstellung normalerweise implizit erlernen, modelliert GeoLayoutLM explizit die geometrischen Beziehungen von Entitäten in Dokumenten .
2023.2-Veröffentlichung
- LORE-TSR ( LORE: Logical Location Regression Network for Table Structure Recognition, AAAI 2022. Artikel): Wir modellieren Table Structure Recognition (TSR) als logisches Standortregressionsproblem und schlagen einen neuen Algorithmus namens LORE vor, der für LOgical Location REgression Network steht. die zum ersten Mal die logische Standortregression mit der räumlichen Standortregression von Tabellenzellen kombiniert .
2022.9-Veröffentlichung
- MGP-STR ( Multi-Granularity Prediction for Scene Text Recognition, ECCV 2022. Artikel): Basierend auf ViT und einem maßgeschneiderten Modul für adaptive Adressierung und Aggregation untersuchen wir einen impliziten Weg zur Einbeziehung von Sprachwissen durch die Einführung von Teilwortdarstellungen, um die Multigranularitätsvorhersage zu erleichtern und Fusion in der Szenentexterkennung.
- LevOCR ( Levenshtein OCR, ECCV 2022. Artikel): Inspiriert durch Levenshtein Transformer stellen wir das Problem der Szenentexterkennung als einen iterativen Sequenzverfeinerungsprozess dar, der eine parallele Dekodierung, dynamische Längenänderung und gute Interpretierbarkeit ermöglicht.