O editor de Downcodes levará você a conhecer um grande avanço no campo da tecnologia OCR! Os pesquisadores desenvolveram recentemente um modelo de OCR chamado GOT (General OCR Theory), conhecido como "OCR2.0". Ele combina habilmente as vantagens dos sistemas OCR tradicionais e dos grandes modelos de linguagem, e alcançou resultados significativos no progresso das capacidades de reconhecimento de texto. . O modelo GOT possui uma arquitetura sofisticada, um poderoso codificador e decodificador de imagens e pode processar vários tipos de informações visuais. Suas perspectivas de aplicação são extremamente amplas.
Recentemente, pesquisadores desenvolveram um novo modelo universal de reconhecimento óptico de caracteres (OCR) chamado GOT (General OCR Theory). No seu artigo, o conceito de "OCR2.0" foi proposto pela primeira vez. Este novo modelo visa combinar as vantagens dos sistemas OCR tradicionais com o poder dos grandes modelos de linguagem.
A arquitetura do GOT é bastante avançada, incluindo um codificador de imagem com aproximadamente 80 milhões de parâmetros e um decodificador com 5 milhões de parâmetros. O codificador de imagem compacta imagens de 1024x1024 pixels em tokens, e o decodificador é responsável por converter esses tokens em texto de até 8.000 caracteres. Desta forma, o modelo OCR2.0 é capaz de lidar com mais do que simples texto.
A beleza desta nova tecnologia reside na sua capacidade de reconhecer e converter muitos tipos de informação visual , incluindo texto de cena e texto de documento em inglês e chinês, fórmulas matemáticas e químicas, símbolos musicais, figuras geométricas simples e diagramas contendo componentes . Tal funcionalidade sem dúvida traz novas possibilidades de processamento automatizado em áreas como ciência, música e análise de dados.
Para otimizar o processo de treinamento, a equipe de pesquisa primeiro treinou o codificador apenas para a tarefa de reconhecimento de texto, depois introduziu o Qwen-0.5B do Alibaba como decodificador e ajustou o modelo usando diversos dados sintéticos. Eles geraram dados de treinamento de milhões de pares de imagens e textos usando ferramentas de renderização como LaTeX, Mathpix-markdown-it, TikZ, Verovio, Matplotlib e Pyecharts.
O design modular do GOT permite que novas funções sejam expandidas de forma flexível no futuro, sem retreinar todo o modelo. Esse design melhora muito a eficiência de atualização do sistema. Além disso, os pesquisadores disseram que o GOT tem um bom desempenho em várias tarefas de OCR, especialmente no reconhecimento de documentos e textos de cenas, e até supera alguns modelos de propósito especial e modelos de linguagem grande no reconhecimento de gráficos.
Vale ressaltar que a equipe de pesquisa lançou a demonstração gratuita e o código do GOT no Hugging Face para que outros possam usar e desenvolver ainda mais. Este novo modelo irá, sem dúvida, promover o desenvolvimento da tecnologia OCR e abrir perspectivas de aplicação mais amplas.
Entrada de demonstração: https://huggingface.co/spaces/stepfun-ai/GOT_official_online_demo
Destaque:
?GOT (Teoria Geral de OCR) é um novo modelo de OCR que combina o sistema de OCR tradicional com um grande modelo de linguagem, chamado OCR2.0.
? Este modelo pode reconhecer e converter uma variedade de informações visuais, incluindo texto, fórmulas, símbolos musicais e tabelas, e é aplicável a uma ampla variedade de campos.
? O design modular e o treinamento de dados sintéticos proporcionam ao GOT capacidades de expansão flexíveis e excelente desempenho em múltiplas tarefas de OCR.
O lançamento de código aberto do modelo GOT irá, sem dúvida, acelerar a inovação da tecnologia OCR e trazer soluções de reconhecimento de texto mais inteligentes e eficientes para todas as esferas da vida. Esperamos que o GOT mostre maior potencial em aplicações futuras!