La Universidad de Ingeniería de Anhui, la Universidad Tecnológica de Nanyang y la Universidad de Lehigh lanzaron conjuntamente un modelo grande multimodal llamativo: TinyGPT-V. La característica notable de este modelo es su sorprendente rentabilidad: su rendimiento es comparable al de modelos con decenas de miles de millones de parámetros, pero solo requiere 24G GPU para completar el entrenamiento, lo que reduce considerablemente el umbral de recursos. Sin duda, este es un beneficio importante para las personas e instituciones que desean realizar investigaciones y aplicaciones de modelos a gran escala con recursos limitados. La arquitectura de TinyGPT-V consiste principalmente en el modelo de lenguaje grande Phi-2, un codificador visual y una capa de proyección lineal. Sus resultados de evaluación de rendimiento de múltiples ángulos también demuestran su gran fortaleza en múltiples tareas de lenguaje visual.
Investigadores de la Universidad de Ingeniería de Anhui, la Universidad Tecnológica de Nanyang y la Universidad de Lehigh han abierto un gran modelo multimodal: TinyGPT-V. Su rendimiento es comparable al de modelos con decenas de miles de millones de parámetros, y el entrenamiento solo requiere una GPU de 24G para completarse. TinyGPT-V se compone principalmente de tres bloques principales: modelo de lenguaje grande Phi-2, codificador visual y capa de proyección lineal. Los investigadores realizaron una evaluación desde múltiples ángulos del desempeño de TinyGPT-V, mostrando su sólido desempeño en múltiples tareas de lenguaje visual.
El código abierto de TinyGPT-V proporciona nuevas ideas y posibilidades para la investigación y aplicación de modelos grandes multimodales, y también marca un progreso significativo en la reducción del umbral para el entrenamiento de modelos grandes. En el futuro, podemos esperar que aparezcan más modelos grandes similares, de alta eficiencia y bajo costo, lo que promoverá aún más la popularización y el desarrollo de la tecnología de inteligencia artificial. Su desempeño eficiente en entornos con recursos limitados ha traído buenas noticias tanto para el mundo académico como para la industria.