Vary-toy: modelo de lenguaje compacto a gran escala para vocabulario visual de alto nivel para identificar fácilmente objetos objetivo

Autor：Eve Cole Fecha de actualización：2025-02-01 02:48:02

MEGVII Technology lanza un nuevo modelo de lenguaje a gran escala de vocabulario visual llamado Vary-toy, que es un modelo avanzado que puede ejecutarse en GPU estándar. Este modelo mejora significativamente las capacidades de percepción de imágenes al optimizar la creación de vocabulario visual y ha logrado excelentes resultados en múltiples pruebas comparativas como DocVQA, ChartQA y RefCOCO. El pequeño tamaño del Vary-toy lo hace ideal para investigadores con recursos limitados, proporcionándoles un modelo de referencia eficiente y fácil de usar.

MEGVII Technology lanza Vary-toy, un modelo de lenguaje a gran escala de vocabulario visual avanzado adecuado para GPU estándar. Tiene como objetivo mejorar la percepción de imágenes optimizando la creación de vocabulario visual. Vary-toy ha logrado resultados notables en múltiples pruebas comparativas, incluidas DocVQA, ChartQA, RefCOCO, etc. Su pequeño tamaño lo convierte en un punto de referencia práctico para investigadores con recursos limitados. Los investigadores planean publicar el código para impulsar más investigaciones y adopción.

El lanzamiento de Vary-toy no solo demuestra la fortaleza técnica avanzada de MEGVII Technology en el campo de la visión por computadora, sino que también proporciona recursos valiosos para la academia y la industria. El código que se publique en el futuro promoverá aún más el progreso y la aplicación en este campo, que vale la pena esperar.