Maquinário Alfabetizado Avançado
Introdução
O objetivo final da nossa pesquisa é construir um sistema que possua inteligência de alto nível, ou seja, que possua habilidades de ler, pensar e criar , tão avançado que possa até superar a inteligência humana um dia no futuro. Chamamos esse tipo de sistema de Advanced Literate Machinery (ALM) .
Para começar, atualmente nos concentramos em ensinar máquinas a ler imagens e documentos. Nos próximos anos, exploraremos as possibilidades de dotar as máquinas com capacidades intelectuais de pensar e criar , alcançando e superando o GPT-4 e o GPT-4V.
Este projeto é mantido pela Equipe de OCR读光(读光-Du Guang significa “ Lendo a Luz ”) no Tongyi Lab, Grupo Alibaba.
Visite nosso Portal 读光-Du Guang e DocMaster para experimentar demonstrações on-line de OCR e compreensão de documentos.
Atualizações recentes
Versão 2024.12
- CC-OCR ( CC-OCR: Um benchmark de OCR abrangente e desafiador para avaliar grandes modelos multimodais em alfabetização . artigo): O benchmark CC-OCR é projetado especificamente para avaliar as capacidades centradas em OCR de grandes modelos multimodais. CC-OCR possui uma gama diversificada de cenários, tarefas e desafios, que compreende quatro faixas centradas em OCR: leitura de texto em várias cenas, leitura de texto multilíngue, análise de documentos e extração de informações importantes. Inclui 39 subconjuntos com 7.058 imagens completas anotadas, das quais 41% são provenientes de aplicações reais, sendo lançadas pela primeira vez.
Versão 2024.9
Platypus ( Platypus: A Generalized Specialist Model for Reading Text in Various Forms, ECCV 2024. paper): Platypus apresenta uma nova abordagem para leitura de texto a partir de imagens, abordando as limitações dos modelos especializados e generalistas. O Platypus aproveita uma arquitetura unificada para reconhecer texto de forma eficaz em vários formatos , mantendo alta precisão e eficiência. Também introduzimos um novo conjunto de dados Worms que combina e renomeia parcialmente conjuntos de dados anteriores para apoiar o desenvolvimento e avaliação do modelo.
SceneVTG ( Visual Text Generation in the Wild, ECCV 2024. paper): Propomos um gerador de texto visual (denominado SceneVTG), que pode produzir imagens de texto de alta qualidade em estado selvagem . Seguindo um paradigma de dois estágios , o SceneVTG aproveita um modelo multimodal de linguagem grande para recomendar regiões e conteúdos de texto razoáveis em múltiplas escalas e níveis, que são usados por um modelo de difusão condicional como condições para gerar imagens de texto. Para treinar o SceneVTG, também contribuímos com um novo conjunto de dados SceneVTG-Erase com anotações OCR detalhadas.
WebRPG ( WebRPG: Automatic Web Rendering Parameters Generation for Visual Presentation, ECCV 2024. paper): Apresentamos o WebRPG, uma nova tarefa que se concentra em automatizar a geração de apresentações visuais para páginas da web baseadas em código HTML. Na ausência de um benchmark, criamos um novo conjunto de dados por meio de um pipeline automatizado . Nossos modelos propostos, construídos na arquitetura VAE e embeddings HTML personalizados , gerenciam com eficiência vários elementos da web e parâmetros de renderização. Experimentos abrangentes, incluindo avaliações quantitativas personalizadas, demonstram a eficácia do modelo WebRPG na geração de apresentações na web.
ProcTag ( ProcTag: Process Tagging for Assessing the Efficacy of Document Instruction Data, arXiv 2024. paper): Um método de avaliação eficaz para dados de instrução de documento é crucial na construção de dados de instrução com alta eficácia, o que, por sua vez, facilita o treinamento de LLMs e MLLMs para compreensão de documentos. Propomos o ProcTag, um método orientado a dados que marca o processo de execução de instruções em vez do texto em si, permitindo uma avaliação mais eficaz e uma amostragem seletiva de instruções de documentos.
Versão 2024.4
- OmniParser ( OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition, CVPR 2024. paper): Propomos um modelo universal para analisar texto visualmente situado em diversos cenários, chamado OmniParser, que pode lidar simultaneamente com três imagens visualmente típicas. tarefas de análise de texto situada: localização de texto, extração de informações importantes e reconhecimento de tabela. No OmniParser, todas as tarefas compartilham a arquitetura unificada do codificador-decodificador , o objetivo unificado: geração de texto condicionado por ponto e a representação unificada de entrada e saída: sequências de prompt e estruturadas .
Versão 2024.3
- GEM ( GEM: Gestalt Enhanced Markup Language Model for Web Understanding via Render Tree, EMNLP 2023. paper): As páginas da Web servem como portadores cruciais para os humanos adquirirem e perceberem informações. Inspirados na teoria psicológica da Gestalt, propomos um inovador Gestalt Enhanced Markup Language Model (GEM, abreviadamente) para hospedar informações visuais heterogêneas de árvores de renderização de páginas da web , levando a excelentes desempenhos em tarefas como resposta a perguntas da web e extração de informações da web.
Lançamento 2023.9
- DocXChain ( DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond, arXiv 2023. report): Para promover o nível de digitalização e estruturação de documentos , desenvolvemos e lançamos um conjunto de ferramentas de código aberto, chamado DocXChain, para dados precisos e detalhados. análise de documentos. Atualmente, são fornecidos recursos básicos, incluindo detecção de texto, reconhecimento de texto, reconhecimento de estrutura de tabela e análise de layout. Além disso, pipelines típicos, ou seja, leitura geral de texto, análise de tabelas e estruturação de documentos, são construídos para suportar aplicações mais complicadas relacionadas a documentos. A maioria dos modelos algorítmicos são do ModelScope. O reconhecimento de fórmulas (usando modelos do RapidLatexOCR) e a conversão de PDF inteiro (formato PDF para JSON) agora são suportados.
- LISTER ( LISTER: Neighbor Decoding for Length-Insensitive Scene Text Recognition, ICCV 2023. paper): Propomos um método chamado Length-Insensitive Scene TExt Recognizer (LISTER), que corrige a limitação quanto à robustez para vários comprimentos de texto . Especificamente, um decodificador vizinho é proposto para obter mapas precisos de atenção de caracteres com a ajuda de uma nova matriz vizinha, independentemente do comprimento do texto. Além disso, um módulo de aprimoramento de recursos é desenvolvido para modelar a dependência de longo alcance com baixo custo computacional, que é capaz de realizar iterações com o decodificador vizinho para aprimorar progressivamente o mapa de recursos.
- VGT ( Vision Grid Transformer for Document Layout Analysis, ICCV 2023. paper): Para aproveitar totalmente as informações multimodais e explorar técnicas de pré-treinamento para aprender uma melhor representação para análise de layout de documento (DLA), apresentamos VGT, um Vision Grid de dois fluxos Grid Transformer, no qual o Grid Transformer (GiT) é proposto e pré-treinado para compreensão semântica em nível de token 2D e em nível de segmento. Além disso, um novo benchmark para avaliar algoritmos de análise de layout de documentos, chamado D^4LA, é curado e lançado.
- VLPT-STD ( Vision-Language Pre-Training for Boosting Scene Text Detectors, CVPR 2022. paper): Adaptamos o aprendizado conjunto de linguagem de visão para detecção de texto de cena , uma tarefa que envolve intrinsecamente a interação intermodal entre as duas modalidades: visão e linguagem. O modelo pré-treinado é capaz de produzir representações mais informativas com semântica mais rica, o que poderia beneficiar prontamente os detectores de texto de cena existentes (como EAST e DB) na tarefa de detecção de texto downstream.
Versão 2023.6
- LiteWeightOCR ( Building A Mobile Text Recognizer via Truncated SVD-based Knowledge Distillation-Guided NAS, BMVC 2023. paper): Para tornar os modelos de OCR implantáveis em dispositivos móveis, mantendo alta precisão , propomos um reconhecedor de texto leve que integra valor singular truncado Destilação de conhecimento (KD) baseada em decomposição (TSVD) no processo de pesquisa de arquitetura neural (NAS).
Lançamento 2023.4
- GeoLayoutLM ( GeoLayoutLM: Geometric Pre-training for Visual Information Extraction, CVPR 2023. paper): Propomos uma estrutura multimodal, denominada GeoLayoutLM, para Extração de Informação Visual (VIE). Em contraste com os métodos anteriores de pré-treinamento de documentos, que geralmente aprendem a representação geométrica de forma implícita, o GeoLayoutLM modela explicitamente as relações geométricas de entidades em documentos .
Versão 2023.2
- LORE-TSR ( LORE: Logical Location Regression Network for Table Structure Recognition, AAAI 2022. paper): Modelamos o Table Structure Recognition (TSR) como um problema de regressão de localização lógica e propomos um novo algoritmo chamado LORE, que significa rede de REgressão de localização lógica, que pela primeira vez combina regressão de localização lógica com regressão de localização espacial de células de tabela.
Versão 2022.9
- MGP-STR ( Multi-Granularity Prediction for Scene Text Recognition, ECCV 2022. paper): Com base no ViT e em um módulo adaptado de endereçamento e agregação adaptativo, exploramos uma maneira implícita de incorporar conhecimento linguístico, introduzindo representações de subpalavras para facilitar a previsão de multigranularidade e fusão no reconhecimento de texto de cena.
- LevOCR ( Levenshtein OCR, ECCV 2022. paper): Inspirado no Levenshtein Transformer, lançamos o problema de reconhecimento de texto de cena como um processo iterativo de refinamento de sequência, que permite decodificação paralela, mudança dinâmica de comprimento e boa interpretabilidade .