¡El editor de Downcodes te trae la última información tecnológica! La startup de Seattle Moondream ha lanzado moondream2, un increíble modelo de lenguaje visual compacto que está causando sensación en la industria con su pequeño tamaño y potente rendimiento. Este modelo de código abierto tuvo un buen desempeño en varias pruebas de referencia, incluso superando a competidores con parámetros más grandes en algunos aspectos, brindando nuevas posibilidades para el reconocimiento de imágenes local en teléfonos inteligentes. Echemos un vistazo más de cerca a lo que hace que moondream2 sea único y la innovación tecnológica detrás de él.
Recientemente, Moondream, una startup de Seattle, lanzó un modelo de lenguaje visual compacto llamado moondream2. A pesar de su pequeño tamaño, el modelo obtuvo buenos resultados en varias pruebas comparativas y atrajo mucha atención. Como modelo de código abierto, moondream2 promete habilitar capacidades de reconocimiento de imágenes locales en teléfonos inteligentes.
Moondream2 se lanzó oficialmente en marzo. El modelo puede procesar entradas de texto e imágenes y tiene la capacidad de responder preguntas, extracción de texto (OCR), recuento de objetos y clasificación de elementos. Desde su lanzamiento, el equipo de Moondream ha seguido actualizando el modelo, mejorando continuamente su rendimiento básico. La publicación de julio muestra mejoras significativas en OCR y comprensión de documentos, particularmente en el análisis de datos económicos históricos. Las puntuaciones del modelo en DocVQA, TextVQA y GQA superan el 60%, lo que demuestra su gran capacidad cuando se ejecuta localmente.
Una característica notable de moondream2 es su tamaño compacto: solo hay 1,6 mil millones de parámetros, lo que le permite ejecutarse no solo en servidores en la nube, sino también en computadoras locales e incluso en algunos dispositivos de menor rendimiento, como teléfonos inteligentes o computadoras de placa única.
A pesar de su pequeño tamaño, su rendimiento es comparable al de algunos modelos de la competencia con miles de millones de parámetros, e incluso supera a estos modelos más grandes en algunos puntos de referencia.
En una comparación de modelos de lenguaje visual de dispositivos móviles, los investigadores señalaron que aunque moondream2 tiene solo 170 millones de parámetros, su rendimiento es equivalente al de un modelo de 700 millones de parámetros y su rendimiento es sólo ligeramente inferior al conjunto de datos SQA. Esto muestra que, aunque los modelos pequeños funcionan bien, todavía enfrentan desafíos para comprender contextos específicos.
Vikhyat Korrapati, el desarrollador del modelo, dijo que moondream2 se basa en otros modelos como SigLIP, Phi-1.5 de Microsoft y conjuntos de datos de entrenamiento LLaVA. El modelo de código abierto ya está disponible para su descarga gratuita en GitHub, y se muestra una versión de demostración en Hugging Face. En la plataforma de codificación, moondream2 también ha atraído una amplia atención por parte de la comunidad de desarrolladores, recibiendo más de 5000 reseñas de estrellas.
El éxito atrajo inversores: Moondream recaudó 4,5 millones de dólares en una ronda inicial liderada por Felicis Ventures, el fondo M12GitHub de Microsoft y Ascend. El director ejecutivo de la empresa, Jay Allen, ha trabajado en Amazon Web Services (AWS) durante muchos años y lidera la creciente startup.
El lanzamiento de moondream2 marca el nacimiento de una serie de modelos de código abierto optimizados profesionalmente que requieren menos recursos y al mismo tiempo ofrecen un rendimiento similar al de modelos más grandes y antiguos. Aunque existen algunos modelos locales pequeños en el mercado, como el asistente inteligente de Apple y el Gemini Nano de Google, estos dos fabricantes aún subcontratan tareas más complejas a la nube.
abrazando cara: https://huggingface.co/vikhyatk/moondream2
github: https://github.com/vikhyat/moondream
La aparición de moondream2 presagia el vigoroso desarrollo de modelos de IA livianos, que brindan nuevas posibilidades para aplicaciones de IA localizadas. Su naturaleza de código abierto también promueve la participación activa de la comunidad de desarrolladores e inyecta nueva vitalidad al desarrollo de la tecnología de IA. ¡Esperamos más innovaciones similares en el futuro!