Google lança a mais recente IA de “leitura de tela”! PaLM 2-S gera dados automaticamente e múltiplas tarefas de compreensão atualizam SOTA

Autor：Eve Cole Data da Última Atualização：2025-02-08 07:32:01

O recém-lançado modelo de linguagem visual ScreenAI do Google fez progressos inovadores em múltiplas tarefas de compreensão, estabelecendo um novo recorde SOTA. Este modelo utiliza o inovador método de geração automática de dados PaLM 2-S, que melhora efetivamente a diversidade e complexidade do conjunto de dados, garantindo ao mesmo tempo alta eficiência. Com sua arquitetura de codificador multimodal, o ScreenAI pode concluir com excelência tarefas de texto+imagem para texto e demonstrar desempenho líder em tarefas como controle de qualidade de tela, infográficos e compreensão de documentos, trazendo novos desenvolvimentos para o campo de possibilidades de modelos de linguagem visual.

O Google lançou recentemente o modelo de linguagem visual ScreenAI, que usa PaLM 2-S para gerar dados automaticamente, quebrando recordes SOTA para múltiplas tarefas de compreensão. O modelo usa uma arquitetura de codificador multimodal para obter a resolução de tarefas de texto + imagem para texto. Os pesquisadores usam métodos automatizados de geração de dados para aumentar a diversidade e a complexidade dos conjuntos de dados, garantindo ao mesmo tempo a eficiência. O modelo alcança desempenho líder em tarefas de controle de qualidade de tela, infográficos e compreensão de documentos.

O surgimento do ScreenAI marca um progresso significativo na tecnologia de modelos de linguagem visual. Seu método eficiente de geração de dados e desempenho líder fornecem uma nova direção para o desenvolvimento futuro da IA. A tecnologia de geração automática de dados também fornece novas ideias e referências para o treinamento de outros modelos de IA. Esperamos que a ScreenAI demonstre seus poderosos recursos em cenários de aplicação mais práticos.