Vary-toy: компактная крупномасштабная языковая модель для визуального словаря высокого уровня, позволяющая легко идентифицировать целевые объекты.

Автор：Eve Cole Время обновления：2025-02-01 02:48:02

MEGVII Technology запускает новую крупномасштабную языковую модель визуального словаря под названием Vary-toy, которая представляет собой усовершенствованную модель, которая может работать на стандартных графических процессорах. Эта модель значительно улучшает возможности восприятия изображений за счет оптимизации создания визуального словаря и добилась отличных результатов в многочисленных тестах производительности, таких как DocVQA, ChartQA и RefCOCO. Небольшой размер Vary-toy делает его идеальным для исследователей с ограниченными ресурсами, предоставляя им эффективную и простую в использовании базовую модель.

MEGVII Technology выпускает Vary-toy, крупномасштабную языковую модель с расширенным визуальным словарем, подходящую для стандартных графических процессоров. Цель: улучшить восприятие изображений за счет оптимизации создания визуального словаря. Vary-toy добилась замечательных результатов в нескольких тестах производительности, включая DocVQA, ChartQA, RefCOCO и т. д. Его небольшой размер делает его практическим ориентиром для исследователей с ограниченными ресурсами. Исследователи планируют публично опубликовать код, чтобы стимулировать дальнейшие исследования и внедрение.

Выпуск Vary-toy не только демонстрирует передовые технические возможности MEGVII Technology в области компьютерного зрения, но также предоставляет ценные ресурсы научным кругам и промышленности. Код, выпущенный в будущем, будет способствовать дальнейшему прогрессу и применению в этой области, и этого стоит ожидать.