Modelo de processamento de documentos Alibaba mPLUG-DocOwl1.5: pode analisar vários documentos, como gráficos e páginas da web sem OCR

Autor：Eve Cole Data da Última Atualização：2024-12-03 15:48:01

O editor de Downcodes irá levá-lo para aprender sobre os últimos avanços da equipe de IA do Alibaba! O modelo mPLUG-DocOwl1.5 lançado alcança excelentes capacidades de compreensão de documentos sem a necessidade de tecnologia OCR. Este modelo quebra o gargalo da compreensão tradicional de documentos e aprende a compreender o conteúdo do documento diretamente a partir de imagens. Sua eficiência e precisão são incríveis. Ele não só pode processar documentos comuns, mas também suporta uma variedade de tipos de documentos, como tabelas, gráficos, páginas da web e imagens naturais, mostrando forte adaptabilidade e capacidade de processamento. Vamos dar uma olhada mais de perto nas vantagens e nas direções de desenvolvimento futuro deste modelo de IA de ponta.

Recentemente, a equipe de pesquisa de IA do Alibaba fez um progresso impressionante no campo da compreensão de documentos. Eles lançaram o mPLUG-DocOwl1.5, um modelo de ponta que tem um desempenho excelente em tarefas de compreensão de documentos sem OCR (reconhecimento óptico de caracteres).

No passado, ao lidar com tarefas de compreensão de documentos, muitas vezes dependíamos da tecnologia OCR para extrair texto de imagens, mas isso era frequentemente prejudicado por layouts complexos e ruído visual. mPLUG-DocOwl1.5 usa uma nova estrutura de aprendizagem de estrutura unificada para aprender e compreender documentos diretamente de imagens, evitando esse gargalo de forma inteligente.

Este modelo abrange cinco áreas, incluindo documentos comuns, tabelas, gráficos, páginas web e imagens naturais, analisando o layout e as capacidades organizacionais de documentos em diferentes campos. Ele não apenas reconhece o texto com precisão, mas também usa elementos como espaços e quebras de linha para compreender a estrutura de um documento.

Para tabelas, o modelo pode gerar formatos Markdown estruturados e, ao analisar gráficos, converte-os em tabelas de dados, compreendendo as relações entre legendas, eixos e valores. Além disso, mPLUG-DocOwl1.5 também possui a capacidade de extrair texto de imagens naturais.

Em termos de localização de texto, o mPLUG-DocOwl1.5 é capaz de identificar e localizar palavras, frases, linhas e blocos, garantindo alinhamento preciso entre áreas de texto e imagem. A arquitetura H-Reducer por trás dele combina recursos visuais horizontalmente por meio de operações de convolução, mantendo o layout espacial e reduzindo o comprimento da sequência, melhorando assim a eficiência do processamento.

Para treinar este modelo, a equipe de pesquisa utilizou dois conjuntos de dados cuidadosamente selecionados. DocStruct4M é um conjunto de dados em grande escala focado no aprendizado de estrutura unificada, e DocReason25K testa as capacidades de raciocínio do modelo por meio de perguntas e respostas passo a passo.

Os resultados mostram que o mPLUG-DocOwl1.5 estabeleceu novos recordes em dez testes de benchmark, alcançando uma melhoria de mais de 10 pontos em metade das tarefas em comparação com modelos semelhantes. Além disso, demonstra excelentes habilidades de raciocínio verbal e é capaz de gerar explicações detalhadas passo a passo para suas respostas.

Embora o mPLUG-DocOwl1.5 tenha feito progressos significativos em muitos aspectos, os pesquisadores também perceberam que ainda há espaço para melhorias no modelo, especialmente no tratamento de declarações inconsistentes ou erradas. No futuro, a equipe espera expandir ainda mais a estrutura de aprendizagem de estrutura unificada para cobrir mais tipos e tarefas de documentos e promover o desenvolvimento da IA de documentos.

Artigo: https://arxiv.org/abs/2403.12895

Código: https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

Destaque:

mPLUG-DocOwl1.5 é um modelo de IA com excelente desempenho em tarefas de compreensão de documentos sem OCR.

O modelo pode analisar o layout do documento, abranger vários tipos de documentos e aprender diretamente com as imagens.

mPLUG-DocOwl1.5 estabeleceu novos recordes em dez testes de benchmark, demonstrando capacidades superiores de raciocínio linguístico.

O surgimento do mPLUG-DocOwl1.5 marca um novo marco na tecnologia de compreensão de documentos. Sua eficiência, precisão e forte adaptabilidade oferecem possibilidades ilimitadas para processamento futuro de documentos e extração de informações. O editor do Downcodes acredita que com o avanço contínuo da tecnologia, o mPLUG-DocOwl1.5 desempenhará um papel importante em mais campos e nos trará uma experiência de processamento de informações mais inteligente.