Hugging Face lanzó el impresionante modelo de lenguaje visual liviano SMOLVLM, que es de tamaño pequeño y puede ejecutarse en dispositivos pequeños como teléfonos móviles, pero su rendimiento excede el modelo IDEFICS80B más grande de 300 veces. Este avance de avance marca el avance de las aplicaciones de IA hacia una era de implementación más amplia y de menor costo, ahorrando a las empresas muchos costos informáticos y mejorando la eficiencia del procesamiento. La aparición de SMOLVLM ofrece una oportunidad sin precedentes para que las pequeñas empresas y las nuevas empresas desarrollen rápidamente aplicaciones complejas de visión por computadora a un costo menor.
Hugging Face ha lanzado un notable modelo de IA: Smolvlm. Este modelo de lenguaje visual es lo suficientemente pequeño como para funcionar en dispositivos pequeños como teléfonos móviles y supera a los predecesores que requieren apoyo de grandes centros de datos.
El requisito de memoria de GPU del modelo SMOLVLM-256M es inferior a 1 GB, pero su rendimiento excede su modelo predecesor IDEFICS80B, que es 300 veces mayor que su tamaño, marcando un avance significativo en el despliegue práctico de IA.
Según Andrés Malafiotti, un ingeniero de investigación de aprendizaje automático de Hugging Face, el modelo SMOLVLM también está aportando significativas reducciones de costos informáticos a las empresas mientras se está introduciendo en el mercado. "El IDEFICS80B que lanzamos anteriormente fue el primer modelo de lenguaje de video de código abierto en agosto de 2023, mientras que el lanzamiento de SMOLVLM logró una reducción de 300 veces en el tamaño y la mejora del rendimiento".
El lanzamiento del modelo SMOLVLM coincide con un momento crítico cuando las empresas enfrentan altos costos informáticos en la implementación de sistemas de IA. El nuevo modelo incluye dos escalas de parámetros, 256m y 500m, lo que permite que las imágenes y el contenido visual se procesen a velocidades previamente impensables. La versión mínima puede procesar hasta 16 instancias por segundo y requiere solo 15 GB de memoria, por lo que es especialmente adecuada para las empresas que necesitan procesar grandes cantidades de datos visuales. Para las empresas medianas que procesan 1 millón de imágenes por mes, esto significa un considerable ahorro anual de costos computacionales.
Además, IBM también ha alcanzado una asociación con Hugging Face para integrar el modelo de 256M en su catalogro de software de procesamiento de documentos. Aunque IBM tiene abundantes recursos informáticos, el uso de modelos más pequeños lo hace eficiente en procesar millones de archivos a un costo menor.
El equipo de abrazadera de abrazadera redujo con éxito el tamaño del modelo sin perder el rendimiento a través de innovaciones tecnológicas en procesamiento visual y componentes del lenguaje. Reemplazaron el codificador visual de parámetros de 400 m original con una versión de parámetros de 93 m e implementaron una tecnología de compresión de token más agresiva. Estas innovaciones permiten a las pequeñas empresas y nuevas empresas lanzar productos complejos de visión por computadora en un corto período de tiempo, y los costos de infraestructura se reducen significativamente.
El conjunto de datos de capacitación de SMOLVLM contiene 170 millones de ejemplos de capacitación, casi la mitad de los cuales se utilizan para el procesamiento de documentos y la anotación de imágenes. Estos desarrollos no solo reducen los costos, sino que también aportan nuevas posibilidades de aplicación a las empresas, aumentando sus capacidades en la búsqueda visual a un nivel sin precedentes.
Este avance al abrazar los desafíos de la cara a las percepciones tradicionales de la relación entre el tamaño del modelo y la capacidad. SMOLVLM demuestra que las arquitecturas pequeñas y eficientes también pueden lograr un excelente rendimiento.
Modelo: https://huggingface.co/blog/smolervlm
Agujas:
El modelo SMOLVLM lanzado por abrazar la cara puede ejecutarse en teléfonos móviles y tiene un rendimiento de más de 300 veces más grande que el modelo IDEFICS80B.
El modelo SMOLVLM ayuda a las empresas a reducir significativamente los costos informáticos, con velocidades de procesamiento de 16 instancias por segundo.
Las innovaciones tecnológicas de este modelo permiten a las pequeñas empresas y nuevas empresas lanzar productos complejos de visión por computadora en poco tiempo.
La aparición de SMOLVLM indica que las aplicaciones de IA serán más populares, y las pequeñas empresas y los desarrolladores individuales pueden utilizar fácilmente la poderosa tecnología de IA para promover la innovación y el desarrollo de la inteligencia artificial en más campos. Sus características livianas y de alto rendimiento, sin duda, cambiarán nuestra comprensión de los modelos de inteligencia artificial y señalarán una nueva ruta para la dirección de desarrollo futura de la tecnología de IA.