Com o rápido desenvolvimento da tecnologia de inteligência artificial, a integração dos dados de visão e texto se tornou um desafio importante. Os modelos tradicionais têm muitas limitações ao lidar com documentos visuais estruturados, o que afeta a extração e o entendimento automáticas de conteúdo. O recentemente lançado granito-vision-3.1-2b pela IBM é um modelo de linguagem visual projetado para resolver esse problema.
Com o desenvolvimento contínuo da tecnologia de inteligência artificial, a integração dos dados de visão e texto se tornou um desafio complexo. Os modelos tradicionais geralmente têm dificuldade em analisar com precisão documentos visuais estruturados, como tabelas, gráficos, infográficos e ilustrações. Diante dessa demanda, a IBM lançou recentemente granito-vision-3.1-2b, um pequeno modelo de linguagem visual projetado para entendimento de documentos.
Granite-Vision-3.1-2b é capaz de extrair conteúdo de uma variedade de formatos visuais, incluindo tabelas, gráficos e ilustrações. O modelo é treinado em um conjunto de dados cuidadosamente selecionado, com fontes de dados, incluindo fontes públicas e sintéticas, capazes de lidar com uma variedade de tarefas relacionadas a documentos. Como uma versão aprimorada do grande modelo de linguagem do Granite, integra as duas modalidades de imagem e texto, melhorando assim a capacidade de interpretação do modelo e é adequado para uma variedade de cenários de aplicação práticos.
O modelo consiste em três componentes principais: primeiro, o codificador visual, que processa e codifica eficientemente dados visuais usando o Siglip; Informações visuais com informações sobre texto;
Durante o treinamento, o granito-vision-3.1-2b se baseia no LLAVA e combina as características dos codificadores multicamadas, bem como a resolução de grade mais densa em qualquer coisa. Essas melhorias aprimoram a capacidade do modelo de entender o conteúdo visual detalhado, permitindo que ele execute as tarefas de documentos visuais com mais precisão, como analisar tabelas e gráficos, executar o reconhecimento de caracteres ópticos (OCR) e responder consultas baseadas em documentos.
Os resultados da avaliação mostram que o granito-visão-3.1-2b teve um bom desempenho em vários benchmarks, especialmente no entendimento do documento. No benchmark ChartQA, o modelo obteve 0,86, superando outros modelos com parâmetros na faixa 1B-4B. No benchmark TextVQA, a pontuação é de 0,76, mostrando forte capacidade de analisar e responder informações de texto incorporadas nas imagens. Esses resultados destacam o potencial do modelo para processamento preciso de dados visuais e de texto em aplicativos corporativos.
O granito-visão-3.1-2 da IBM representa um avanço importante no modelo de linguagem visual e fornece uma solução equilibrada de compreensão do documento visual. Seus métodos de arquitetura e treinamento permitem analisar e analisar dados visuais e de texto complexos com eficiência. Graças ao seu suporte nativo para Transformers e VLLM, o modelo pode ser adaptado a uma variedade de casos de uso e pode ser implantado em ambientes em nuvem, como o COLAB T4, fornecendo a pesquisadores e profissionais uma ferramenta prática para aprimorar os recursos de processamento de documentos orientados para IA.
Modelo: https://huggingface.co/ibm-granite/granite-vision-3.1-2b-preview
Pontos -chave:
Granite-Vision-3.1-2b é um pequeno modelo de linguagem visual projetado especialmente para o entendimento do documento da IBM, que pode lidar com a extração de conteúdo em vários formatos visuais.
O modelo consiste em três partes: codificador visual, conector de linguagem visual e modelo de linguagem grande, o que melhora o entendimento de entradas complexas.
Excelente em vários benchmarks, especialmente no campo do entendimento do documento, mostrando um forte potencial de aplicação corporativo.
O granito-vision-3.1-2B da IBM não apenas melhora a capacidade de integrar dados visuais e de texto, mas também fornece às empresas poderosas ferramentas de processamento de documentos, demonstrando o enorme potencial da tecnologia de IA em aplicações práticas.