¡El editor de Downcodes lo llevará a conocer un avance importante en el campo de la tecnología OCR! Los investigadores han desarrollado recientemente un modelo de OCR llamado GOT (Teoría General de OCR), conocido como "OCR2.0". Combina inteligentemente las ventajas de los sistemas de OCR tradicionales y los grandes modelos de lenguaje, y ha logrado resultados significativos en el progreso de las capacidades de reconocimiento de texto. . El modelo GOT tiene una arquitectura sofisticada, un potente codificador y decodificador de imágenes y puede procesar múltiples tipos de información visual. Sus perspectivas de aplicación son extremadamente amplias.
Recientemente, los investigadores han desarrollado un nuevo modelo universal de reconocimiento óptico de caracteres (OCR) llamado GOT (Teoría general de OCR). En su artículo, se propuso por primera vez el concepto de "OCR2.0". Este nuevo modelo tiene como objetivo combinar las ventajas de los sistemas OCR tradicionales con el poder de los modelos de lenguaje grandes.
La arquitectura de GOT es bastante avanzada e incluye un codificador de imágenes con aproximadamente 80 millones de parámetros y un decodificador con 5 millones de parámetros. El codificador de imágenes comprime imágenes de 1024x1024 píxeles en tokens y el decodificador es responsable de convertir estos tokens en texto de hasta 8000 caracteres. De esta manera, el modelo OCR2.0 es capaz de manejar más que un simple texto.
La belleza de esta nueva tecnología radica en su capacidad para reconocer y convertir muchos tipos de información visual , incluidos textos de escenas y textos de documentos en inglés y chino, fórmulas matemáticas y químicas, símbolos musicales, figuras geométricas simples y diagramas que contienen componentes . Sin duda, esta funcionalidad ofrece nuevas posibilidades para el procesamiento automatizado en campos como la ciencia, la música y el análisis de datos.
Para optimizar el proceso de capacitación, el equipo de investigación primero entrenó el codificador solo para la tarea de reconocimiento de texto, luego introdujo el Qwen-0.5B de Alibaba como decodificador y ajustó el modelo utilizando diversos datos sintéticos. Generaron datos de entrenamiento de millones de pares de imágenes y texto utilizando herramientas de renderizado como LaTeX, Mathpix-markdown-it, TikZ, Verovio, Matplotlib y Pyecharts.
El diseño modular de GOT permite ampliar de manera flexible nuevas funciones en el futuro sin volver a entrenar todo el modelo. Este diseño mejora en gran medida la eficiencia de actualización del sistema. Además, los investigadores dijeron que GOT funciona bien en varias tareas de OCR, especialmente en el reconocimiento de texto de documentos y escenas, e incluso supera algunos modelos de propósito especial y modelos de lenguaje grande en el reconocimiento de gráficos.
Vale la pena mencionar que el equipo de investigación ha lanzado la demostración y el código gratuitos de GOT en Hugging Face para que otros los utilicen y desarrollen aún más. Sin duda, este nuevo modelo promoverá el desarrollo de la tecnología OCR y abrirá perspectivas de aplicación más amplias.
Entrada de demostración: https://huggingface.co/spaces/stepfun-ai/GOT_official_online_demo
Destacar:
GOT (Teoría General de OCR) es un nuevo modelo de OCR que combina el sistema de OCR tradicional con un modelo de lenguaje grande, llamado OCR2.0.
Este modelo puede reconocer y convertir una variedad de información visual, incluidos texto, fórmulas, símbolos musicales y gráficos, y es aplicable a una amplia gama de campos.
? El diseño modular y la capacitación en datos sintéticos brindan a GOT capacidades de expansión flexibles y un rendimiento excelente en múltiples tareas de OCR.
El lanzamiento de código abierto del modelo GOT sin duda acelerará la innovación de la tecnología OCR y brindará soluciones de reconocimiento de texto más inteligentes y eficientes a todos los ámbitos de la vida. ¡Esperamos que GOT muestre un mayor potencial en futuras aplicaciones!