Vary-toy : modèle de langage compact à grande échelle pour un vocabulaire visuel de haut niveau permettant d'identifier facilement les objets cibles

Auteur：Eve Cole Date de mise à jour：2025-02-01 02:48:02

MEGVII Technology lance un nouveau modèle de langage à grande échelle de vocabulaire visuel appelé Vary-toy, qui est un modèle avancé pouvant fonctionner sur des GPU standard. Ce modèle améliore considérablement les capacités de perception des images en optimisant la création de vocabulaire visuel et a obtenu d'excellents résultats dans plusieurs tests de référence tels que DocVQA, ChartQA et RefCOCO. La petite taille du Vary-toy le rend idéal pour les chercheurs aux ressources limitées, en leur fournissant un modèle de base efficace et facile à utiliser.

MEGVII Technology lance Vary-toy, un modèle de langage à grande échelle de vocabulaire visuel avancé adapté aux GPU standards. Vise à améliorer la perception des images en optimisant la création de vocabulaire visuel. Vary-toy a obtenu des résultats remarquables dans plusieurs tests de référence, notamment DocVQA, ChartQA, RefCOCO, etc. Sa petite taille en fait une référence pratique pour les chercheurs aux ressources limitées. Les chercheurs prévoient de publier le code pour stimuler la recherche et l'adoption.

La sortie de Vary-toy démontre non seulement la force technique avancée de MEGVII Technology dans le domaine de la vision par ordinateur, mais fournit également des ressources précieuses au monde universitaire et à l'industrie. Le code publié à l'avenir favorisera davantage les progrès et les applications dans ce domaine, ce qui mérite d'être attendu.