El equipo de Hugging Face lanzó dos modelos de IA livianos: SMOLVLM-256M y SMOLVLM-500M, con parámetros de 256 millones y 500 millones respectivamente. Estos dos modelos son especialmente adecuados para dispositivos con menos de 1 GB de memoria, proporcionando a los desarrolladores soluciones de procesamiento de datos de bajo costo y alta eficiencia. Su rendimiento eficiente supera a muchos modelos a mayor escala en varios puntos de referencia, especialmente al tratar con los gráficos de ciencias de la escuela primaria, lo que demuestra su enorme potencial en educación e investigación.
Recientemente, el equipo de Hugging Face, una plataforma de desarrollo de inteligencia artificial, lanzó dos nuevos modelos de IA, SMOLVLM-256M y SMOLVLM-500M. Afirman con confianza que los dos modelos son, con mucho, los modelos de IA más pequeños capaces de procesar imágenes, videos cortos y datos de texto simultáneamente, especialmente adecuados para dispositivos con menos de 1 GB de memoria, como computadoras portátiles. Esta innovación permite a los desarrolladores lograr una mayor eficiencia a un costo más bajo al procesar grandes cantidades de datos.
Los parámetros de estos dos modelos son 256 millones y 500 millones, respectivamente, lo que significa que su capacidad para resolver problemas también ha mejorado en consecuencia. Las tareas que puede realizar la serie SMOLVLM incluyen describir imágenes o videoclips, y responder preguntas sobre documentos PDF y su contenido, como el texto y los gráficos de escaneo. Esto les hace tener una amplia gama de perspectivas de aplicaciones en muchos campos, como la educación y la investigación.
Durante el entrenamiento del modelo, el equipo de abrazaderas de abrazadera aprovechó 50 conjuntos de datos de imagen y texto de alta calidad llamados "El caldero", así como escaneos de archivos y conjuntos de datos de emparejamiento detallados llamados DocMatix. Ambos conjuntos de datos fueron desarrollados por el equipo M4 de Hugging Face y se centraron en el desarrollo de tecnología de IA multimodal. Vale la pena señalar que el SMOLVLM-256M y SMOLVLM-500M superan a muchos modelos más grandes en varias pruebas de referencia, como IDEFICS80B, y especialmente en las pruebas AI2D, funcionan de manera sobresaliente en la capacidad de analizar los gráficos científicos para los estudiantes de la escuela primaria.
Sin embargo, aunque asequible y versátiles, los modelos pequeños pueden no funcionar tan bien como modelos grandes en tareas de inferencia compleja. Un estudio de Google Deepmind, el Microsoft Research Institute y el Mila Institute en Quebec mostraron que muchos pequeños modelos se desempeñaron decepcionantemente en estas tareas complejas. Los investigadores especulan que esto puede deberse a la tendencia de los modelos pequeños a identificar las características de la superficie de los datos, y parecen no ser escrúpulos al aplicar este conocimiento en nuevas situaciones.
La familia de modelos SMOLVLM SMOLVLM de Face no solo son pequeñas herramientas de inteligencia artificial, sino que también demuestran capacidades impresionantes cuando se trata de varias tareas. Esta es, sin duda, una buena opción para los desarrolladores que desean lograr un procesamiento de datos eficiente a bajo costo.
La aparición de la serie de modelos SMOLVLM ha traído nuevas posibilidades para las aplicaciones de IA livianas. Aunque todavía hay margen de mejora en tareas complejas, su umbral bajo y su alta eficiencia lo convierten en una opción que muchos desarrolladores merecen atención. En el futuro, esperamos ver la aplicación y una mayor optimización de los modelos de la serie SMOLVLM en más campos.