Vary-toy: Modelo de linguagem compacto em grande escala para vocabulário visual de alto nível para identificar facilmente objetos alvo

Autor：Eve Cole Data da Última Atualização：2025-02-01 02:48:02

A MEGVII Technology lança um novo modelo de linguagem de vocabulário visual em grande escala chamado Vary-toy, que é um modelo avançado que pode ser executado em GPUs padrão. Este modelo melhora significativamente as capacidades de percepção de imagem, otimizando a criação de vocabulário visual e alcançou excelentes resultados em vários testes de benchmark, como DocVQA, ChartQA e RefCOCO. O tamanho pequeno do Vary-toy o torna ideal para pesquisadores com recursos limitados, proporcionando-lhes um modelo de linha de base eficiente e fácil de usar.

A MEGVII Technology lança Vary-toy, um modelo de linguagem de grande escala com vocabulário visual avançado adequado para GPUs padrão. Visa melhorar a percepção da imagem otimizando a criação de vocabulário visual. A Vary-toy alcançou resultados notáveis em vários testes de benchmark, incluindo DocVQA, ChartQA, RefCOCO, etc. Seu pequeno tamanho o torna uma referência prática para pesquisadores com recursos limitados. Os pesquisadores planejam divulgar publicamente o código para impulsionar mais pesquisas e adoção.

O lançamento do Vary-toy não apenas demonstra a força técnica avançada da MEGVII Technology no campo da visão computacional, mas também fornece recursos valiosos para a academia e a indústria. O código lançado no futuro promoverá ainda mais o progresso e a aplicação nesta área, pelo que vale a pena aguardar com expectativa.