En la era de la explosión de la información, es crucial procesar eficientemente la información del texto en imágenes. El editor de Downcodes presentará hoy un modelo de OCR revolucionario: GOT (Teoría general de reconocimiento óptico de caracteres), que marca la entrada de la tecnología OCR en la era 2.0. El modelo GOT combina las ventajas del OCR tradicional y los modelos de lenguaje grande, y aporta nuevos avances al campo del reconocimiento de texto con su potente rendimiento y versatilidad. No sólo puede reconocer documentos y textos de escenas en inglés y chino, sino también manejar información compleja como fórmulas matemáticas y químicas, símbolos musicales, gráficos, etc. Se le puede llamar un "reproductor completo" en el campo de OCR.
En la era digital, convertir rápidamente contenido de texto en imágenes en texto editable es un requisito común e importante. Ahora, la llegada de un nuevo modelo de reconocimiento óptico de caracteres (OCR) llamado GOT (Teoría general del reconocimiento óptico de caracteres) marca la entrada de la tecnología OCR en la era 2.0. Este modelo innovador combina las ventajas de los sistemas OCR tradicionales y los modelos de lenguaje a gran escala para crear una herramienta de reconocimiento de texto más eficiente e inteligente.
El modelo GOT adopta una arquitectura innovadora de extremo a extremo. Este diseño no solo ahorra recursos, sino que también amplía enormemente las capacidades de reconocimiento más allá del reconocimiento de texto. El modelo consta de un codificador de imágenes con aproximadamente 80 millones de parámetros y un decodificador con aproximadamente 5 millones de parámetros. El codificador de imágenes es capaz de comprimir imágenes de hasta 1024x1024 píxeles en unidades de datos, mientras que el decodificador convierte estos datos en texto de hasta 8000 caracteres.
El poder de GOT reside en su versatilidad. No sólo puede reconocer y convertir documentos y textos de escenas en inglés y chino, sino también procesar fórmulas matemáticas y químicas, símbolos musicales, figuras geométricas simples y varios gráficos. Esto convierte a GOT en un auténtico todoterreno.
Para entrenar este modelo, el equipo de investigación se centró primero en tareas de reconocimiento de texto, luego utilizó el Qwen-0.5B de Alibaba como decodificador y lo ajustó con una variedad de datos sintéticos. Utilizaron herramientas de renderizado profesionales como LaTeX, Mathpix-markdown-it y Matplotlib para generar millones de pares de imagen y texto para el entrenamiento de modelos.
Otro punto destacado de la tecnología OCR2.0 es su capacidad para extraer texto formateado, títulos e incluso imágenes de varias páginas y convertirlos a un formato digital estructurado. Esto abre nuevas posibilidades para el procesamiento y análisis automatizados en campos como la ciencia, la música y el análisis de datos.
En pruebas de diversas tareas de OCR, GOT ha demostrado un rendimiento excelente, logrando resultados líderes en la industria en reconocimiento de texto de escenas y documentos, e incluso superando a muchos modelos profesionales y modelos de lenguaje grande en reconocimiento de gráficos. Ya sean fórmulas de estructuras químicas complejas o notación musical y visualización de datos, OCR2.0 puede capturarlos con precisión y convertirlos en formatos legibles por máquina.
Para permitir que más usuarios experimenten y utilicen esta tecnología, el equipo de investigación lanzó demostraciones y códigos gratuitos en la plataforma Hugging Face. La llegada de OCR2.0 sin duda ha supuesto una revolución en el campo del procesamiento de información. No sólo mejora la eficiencia, sino que también aumenta la flexibilidad, permitiéndonos procesar información de texto en imágenes con mayor facilidad.
Sin duda, la aparición del modelo GOT ha inyectado nueva vitalidad a la tecnología OCR. Sus características eficientes, precisas y versátiles se utilizarán ampliamente en todos los ámbitos de la vida, brindando más comodidad al trabajo y la vida de las personas. ¡Esperamos seguir mejorando el modelo GOT en el futuro y traernos más sorpresas!