O editor do Downcodes soube que a H2O.ai lançou recentemente dois novos modelos de linguagem visual: H2OVL Mississippi-2B e H2OVL-Mississippi-0.8B, com o objetivo de revolucionar a eficiência da análise de documentos e tarefas de OCR. Ambos os modelos se comparam favoravelmente em desempenho aos produtos das principais empresas de tecnologia, proporcionando às empresas soluções de processamento de documentos mais econômicas. O que é particularmente digno de nota é que o modelo H2OVL Mississippi-0.8B com apenas 800 milhões de parâmetros superou a multidão na tarefa de reconhecimento de texto OCRBench, superando muitos produtos concorrentes com dezenas de vezes mais parâmetros, mostrando o desempenho de modelos pequenos.
Recentemente, a H2O.ai anunciou o lançamento de dois novos modelos de linguagem visual projetados para melhorar a eficiência das tarefas de análise de documentos e reconhecimento óptico de caracteres (OCR). Os dois modelos, H2OVL Mississippi-2B e H2OVL-Mississippi-0.8B, são impressionantemente competitivos em desempenho com modelos de grandes empresas de tecnologia, oferecendo potencialmente uma solução para empresas que lidam com fluxos de trabalho com muitos documentos.
Embora o modelo H2OVL Mississippi-0.8B tenha apenas 800 milhões de parâmetros, ele supera todos os outros modelos na tarefa de reconhecimento de texto OCRBench, incluindo concorrentes com bilhões de parâmetros. O modelo H2OVL Mississippi-2B de 2 bilhões de parâmetros teve um bom desempenho em vários benchmarks de linguagem visual.
Sri Ambati, fundador e CEO da H2O.ai, disse em uma entrevista: “Projetamos o modelo H2OVL Mississippi para ser uma solução de alto desempenho e econômica para fornecer OCR orientado por IA, compreensão visual para vários setores e Document AI. ”
Ele enfatizou que esses modelos podem funcionar de forma eficiente em diversos ambientes e podem ser ajustados de acordo com as necessidades de áreas específicas, ajudando assim as empresas a reduzir custos e melhorar a eficiência.
A H2O.ai lançou esses dois novos modelos gratuitamente na plataforma Hugging Face, permitindo que desenvolvedores e empresas modifiquem e adaptem os modelos de acordo com suas próprias necessidades. Esta mudança não apenas expande a base de usuários do H2O.ai, mas também oferece mais opções para empresas que desejam adotar soluções de IA de documentos.
Ao mesmo tempo, Ambati também observou que as vantagens económicas de modelos pequenos e construídos especificamente não podem ser ignoradas. "Nosso modelo de transformador generativo pré-treinado é baseado na cooperação profunda com os clientes e foi projetado para extrair informações significativas de documentos empresariais." especialmente quando confrontado com digitalizações de baixa qualidade, caligrafia ilegível ou documentos fortemente modificados.
Entrada do modelo:
H2OVL-Mississippi-0.8B: https://huggingface.co/h2oai/h2ovl-mississippi-800m
H2OVL Mississippi-2B: https://huggingface.co/h2oai/h2ovl-mississippi-2b
Destaque:
H2O.ai lança novos modelos de linguagem visual H2OVL Mississippi-2B e H2OVL-Mississippi-0.8B para fornecer soluções eficientes de análise de documentos.
O modelo H2OVL Mississippi-0.8B supera concorrentes maiores em tarefas de reconhecimento de texto, mostrando o potencial de modelos pequenos.
A H2O.ai está comprometida com soluções práticas e de código aberto de IA para ajudar as empresas a extrair informações valiosas durante a transformação digital.
Esses dois novos modelos de H2O.ai foram de código aberto na plataforma Hugging Face e os desenvolvedores e empresas interessadas podem obtê-los e usá-los gratuitamente. Isso sem dúvida acelerará a popularização e aplicação da tecnologia de IA de documentos. O editor do Downcodes espera ver aplicações mais inovadoras baseadas nesses dois modelos.