Maquinaria alfabetizada avanzada
Introducción
El objetivo final de nuestra investigación es construir un sistema que tenga una inteligencia de alto nivel, es decir, que posea la capacidad de leer, pensar y crear , tan avanzado que incluso podría superar la inteligencia humana algún día en el futuro. A este tipo de sistemas los denominamos Maquinaria Alfabetizada Avanzada (ALM) .
Para empezar, actualmente nos centramos en enseñar a las máquinas a leer imágenes y documentos. En los próximos años, exploraremos las posibilidades de dotar a las máquinas de capacidades intelectuales para pensar y crear , alcanzando y superando a GPT-4 y GPT-4V.
Este proyecto es mantenido por el equipo de OCR 读光(读光-Du Guang significa " Leyendo la luz ") en el Laboratorio Tongyi, Grupo Alibaba.
Visite nuestro portal 读光-Du Guang y DocMaster para experimentar demostraciones en línea de OCR y comprensión de documentos.
Actualizaciones recientes
Lanzamiento 2024.12
- CC-OCR ( CC-OCR: Un punto de referencia de OCR completo y desafiante para evaluar modelos multimodales grandes en alfabetización . Documento): El punto de referencia CC-OCR está diseñado específicamente para evaluar las capacidades centradas en OCR de los modelos multimodales grandes. CC-OCR posee una amplia gama de escenarios, tareas y desafíos, que comprende cuatro pistas centradas en OCR: lectura de texto de múltiples escenas, lectura de texto multilingüe, análisis de documentos y extracción de información clave. Incluye 39 subconjuntos con 7.058 imágenes completas anotadas, de las cuales el 41% provienen de aplicaciones reales, y se publica por primera vez.
Lanzamiento 2024.9
Platypus ( Platypus: un modelo especializado generalizado para leer texto en varias formas, ECCV 2024. artículo): Platypus introduce un enfoque novedoso para la lectura de textos a partir de imágenes, abordando las limitaciones de los modelos tanto especializados como generalistas. Platypus aprovecha una única arquitectura unificada para reconocer texto de forma eficaz en diversas formas , manteniendo una alta precisión y eficiencia. También presentamos un nuevo conjunto de datos, Worms , que combina y reetiqueta parcialmente conjuntos de datos anteriores para respaldar el desarrollo y la evaluación del modelo.
SceneVTG ( Visual Text Generation in the Wild, ECCV 2024. paper): Proponemos un generador de texto visual (denominado SceneVTG), que puede producir imágenes de texto de alta calidad en la naturaleza . Siguiendo un paradigma de dos etapas , SceneVTG aprovecha un modelo de lenguaje grande multimodal para recomendar regiones de texto y contenidos razonables en múltiples escalas y niveles, que son utilizados por un modelo de difusión condicional como condiciones para generar imágenes de texto. Para entrenar SceneVTG, también contribuimos con un nuevo conjunto de datos SceneVTG-Erase con anotaciones OCR detalladas.
WebRPG ( WebRPG: Generación automática de parámetros de representación web para presentaciones visuales, ECCV 2024. artículo): Presentamos WebRPG, una tarea novedosa que se centra en automatizar la generación de presentaciones visuales para páginas web basadas en código HTML. A falta de un punto de referencia, creamos un nuevo conjunto de datos a través de un proceso automatizado . Nuestros modelos propuestos, basados en arquitectura VAE e incrustaciones HTML personalizadas , gestionan de manera eficiente numerosos elementos web y parámetros de representación. Experimentos completos, incluidas evaluaciones cuantitativas personalizadas, demuestran la eficacia del modelo WebRPG en la generación de presentaciones web.
ProcTag ( ProcTag: Process Tagging for Assessing the Efficacy of Document Instrucción Data, arXiv 2024. paper): Un método de evaluación eficaz para los datos de instrucción de documentos es crucial para construir datos de instrucción con alta eficacia, lo que, a su vez, facilita la capacitación de LLM y MLLM para la comprensión de documentos. Proponemos ProcTag, un método orientado a datos que etiqueta el proceso de ejecución de instrucciones en lugar del texto en sí, lo que permite una evaluación más efectiva y un muestreo selectivo de las instrucciones del documento.
Lanzamiento 2024.4
- OmniParser ( OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition, CVPR 2024. paper): Proponemos un modelo universal para analizar texto situado visualmente en diversos escenarios, llamado OmniParser, que puede manejar simultáneamente tres típicos visualmente: Tareas de análisis de texto situado: localización de texto, extracción de información clave y reconocimiento de tablas. En OmniParser, todas las tareas comparten la arquitectura unificada de codificador-decodificador , el objetivo unificado: generación de texto condicionado por puntos y la representación unificada de entrada y salida: secuencias estructuradas y rápidas .
Lanzamiento 2024.3
- GEM ( GEM: Modelo de lenguaje de marcado mejorado Gestalt para la comprensión web a través de Render Tree, EMNLP 2023. artículo): Las páginas web sirven como portadores cruciales para que los humanos adquieran y perciban información. Inspirándonos en la teoría psicológica de la Gestalt, proponemos un innovador modelo de lenguaje de marcado mejorado Gestalt (GEM para abreviar) para alojar información visual heterogénea de árboles de renderizado de páginas web , lo que conduce a un rendimiento excelente en tareas como la respuesta a preguntas web y la extracción de información web.
Lanzamiento 2023.9
- DocXChain ( DocXChain: una poderosa cadena de herramientas de código abierto para el análisis de documentos y más, informe arXiv 2023): para promover el nivel de digitalización y estructuración de documentos , desarrollamos y lanzamos una cadena de herramientas de código abierto, llamada DocXChain, para obtener información precisa y detallada. análisis de documentos. Actualmente, se proporcionan capacidades básicas, que incluyen detección de texto, reconocimiento de texto, reconocimiento de estructura de tablas y análisis de diseño. Además, los canales típicos, es decir, lectura de texto general, análisis de tablas y estructuración de documentos, están diseñados para admitir aplicaciones más complicadas relacionadas con documentos. La mayoría de los modelos algorítmicos son de ModelScope. Ahora se admite el reconocimiento de fórmulas (utilizando modelos de RapidLatexOCR) y la conversión de PDF completo (formato PDF a JSON).
- LISTER ( LISTER: Decodificación de vecinos para el reconocimiento de texto de escena insensible a la longitud, ICCV 2023. artículo): Proponemos un método llamado Reconocedor de texto de escena insensible a la longitud (LISTER), que soluciona la limitación relativa a la solidez de varias longitudes de texto . Específicamente, se propone un decodificador de vecinos para obtener mapas precisos de atención de caracteres con la ayuda de una matriz de vecinos novedosa, independientemente de la longitud del texto. Además, se diseña un módulo de mejora de características para modelar la dependencia de largo alcance con un bajo costo de cálculo, que es capaz de realizar iteraciones con el decodificador vecino para mejorar el mapa de características progresivamente.
- VGT ( Vision Grid Transformer for Document Layout Analysis, ICCV 2023. artículo): para aprovechar al máximo la información multimodal y explotar las técnicas de capacitación previa para aprender una mejor representación para el análisis del diseño de documentos (DLA), presentamos VGT, una visión de dos flujos. Grid Transformer, en el que se propone y preentrena Grid Transformer (GiT) para la comprensión semántica a nivel de token 2D y a nivel de segmento. Además, se selecciona y publica un nuevo punto de referencia para evaluar algoritmos de análisis de diseño de documentos, llamado D^4LA.
- VLPT-STD ( Pre-Training Vision-Language for Boosting Scene Text Detectors, CVPR 2022. paper): Adaptamos el aprendizaje conjunto visión-lenguaje para la detección de texto en escenas , una tarea que implica intrínsecamente la interacción intermodal entre las dos modalidades: visión y idioma. El modelo previamente entrenado es capaz de producir representaciones más informativas con una semántica más rica, lo que podría beneficiar fácilmente a los detectores de texto de escena existentes (como EAST y DB) en la tarea de detección de texto posterior.
Lanzamiento 2023.6
- LiteWeightOCR ( Creación de un reconocedor de texto móvil mediante NAS guiado por destilación de conocimientos basado en SVD truncado, BMVC 2023. artículo): para que los modelos de OCR se puedan implementar en dispositivos móviles manteniendo una alta precisión , proponemos un reconocedor de texto liviano que integra valor singular truncado Destilación de conocimiento (KD) basada en descomposición (TSVD) en el proceso de búsqueda de arquitectura neuronal (NAS).
Lanzamiento 2023.4
- GeoLayoutLM ( GeoLayoutLM: Entrenamiento previo geométrico para la extracción de información visual, CVPR 2023. artículo): Proponemos un marco multimodal, denominado GeoLayoutLM, para la extracción de información visual (VIE). A diferencia de los métodos anteriores para el entrenamiento previo de documentos, que generalmente aprenden la representación geométrica de manera implícita, GeoLayoutLM modela explícitamente las relaciones geométricas de las entidades en los documentos .
Lanzamiento 2023.2
- LORE-TSR ( LORE: Red de regresión de ubicación lógica para el reconocimiento de estructura de tablas, AAAI 2022. artículo): Modelamos el reconocimiento de estructura de tablas (TSR) como un problema de regresión de ubicación lógica y proponemos un nuevo algoritmo llamado LORE, que significa red de REgresión de ubicación lógica. que por primera vez combina la regresión de ubicación lógica junto con la regresión de ubicación espacial de las celdas de la tabla.
Lanzamiento 2022.9
- MGP-STR ( Predicción de granularidad múltiple para el reconocimiento de texto de escena, artículo ECCV 2022): basado en ViT y un módulo de agregación y direccionamiento adaptativo personalizado, exploramos una forma implícita de incorporar conocimiento lingüístico mediante la introducción de representaciones de subpalabras para facilitar la predicción de granularidad múltiple . y fusión en el reconocimiento de texto de escenas.
- LevOCR ( Levenshtein OCR, ECCV 2022. paper): Inspirándonos en Levenshtein Transformer, planteamos el problema del reconocimiento de texto de escenas como un proceso iterativo de refinamiento de secuencia, que permite la decodificación paralela, el cambio dinámico de longitud y una buena interpretabilidad .