¡El editor de Downcodes te trae la gran novedad de MiniCPM-V2.6! Este modelo de inteligencia artificial multimodal final con solo parámetros 8B ha logrado resultados SOTA de modelos por debajo de 20B en los tres campos de comprensión de imagen única, imagen múltiple y video. ¡Se puede llamar un milagro de modelos pequeños! No solo tiene un rendimiento sólido, sino que también logra una eficiencia operativa extremadamente alta y facilidad de uso en dispositivos finales, brindando nuevas posibilidades a las aplicaciones de IA finales, incluso comparables a GPT-4V. Echemos un vistazo más profundo a las poderosas funciones y características de MiniCPM-V2.6.
El modelo de inteligencia artificial multimodal final de MiniCPM-V2.6 tiene solo 8B de parámetros, pero ha logrado tres resultados SOTA (State of the Art, el mejor nivel actual) de comprensión de una sola imagen, múltiples imágenes y video por debajo de 20B. -Las capacidades modales de la IA final se han mejorado significativamente y están completamente alineadas con los niveles GPT-4V.
El siguiente es un resumen de las características:
Características del modelo: MiniCPM-V2.6 logra una trascendencia integral de las capacidades centrales, como la comprensión de una sola imagen, múltiples imágenes y video en el lado del cliente, y brinda comprensión de video en tiempo real, comprensión conjunta de múltiples imágenes y otras funciones al lado del cliente. por primera vez, acercándolo a escenarios complejos del mundo real.
Eficiencia y rendimiento: este modelo es pequeño y grande, con una densidad de píxeles extremadamente alta (densidad de token), que es dos veces mayor que la densidad de píxeles de codificación de token único de GPT-4o, y logra una eficiencia operativa extremadamente alta en dispositivos finales.
Amabilidad del lado del cliente: el modelo requiere solo 6 GB de memoria después de la cuantificación y la velocidad de inferencia del lado del cliente llega a 18 tokens por segundo, que es un 33% más rápido que el modelo de la generación anterior y admite múltiples idiomas. y marcos de inferencia.
Expansión de funciones: MiniCPM-V2.6 utiliza capacidades de OCR para migrar las capacidades de análisis de imágenes de alta definición de escenas de una sola imagen a escenas de múltiples imágenes y video, reduciendo la cantidad de tokens visuales y ahorrando recursos.
Capacidad de razonamiento: Demuestra una excelente capacidad en la comprensión de múltiples imágenes y tareas de razonamiento complejas, como las instrucciones paso a paso para ajustar el asiento de una bicicleta y la identificación de los surcos detrás de los memes.
ICL de gráficos múltiples: el modelo admite el aprendizaje contextual de pocas tomas, puede adaptarse rápidamente a tareas en campos específicos y mejora la estabilidad de la salida.
Arquitectura visual de alta definición: a través de una arquitectura visual unificada, las capacidades de OCR del modelo continúan, lo que permite una expansión fluida de imágenes individuales a múltiples imágenes y videos.
Tasa de alucinaciones ultrabaja: MiniCPM-V2.6 funciona bien en la evaluación de alucinaciones, lo que demuestra su credibilidad.
El lanzamiento del modelo MiniCPM-V2.6 es de gran importancia para el desarrollo de la IA final. No solo mejora las capacidades de procesamiento multimodal, sino que también demuestra la posibilidad de realizar IA de alto rendimiento en dispositivos finales. recursos limitados.
Dirección de código abierto MiniCPM-V2.6:
GitHub:
https://github.com/OpenBMB/MiniCPM-V
AbrazandoCara:
https://huggingface.co/openbmb/MiniCPM-V-2_6
dirección del tutorial de implementación de llama.cpp, ollama, vllm:
https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
Dirección de código abierto de la serie MiniCPM:
https://github.com/OpenBMB/MiniCPM
Sin duda, la aparición de MiniCPM-V2.6 ha inyectado un impulso al desarrollo de la tecnología de IA del lado del cliente. Su rendimiento eficiente y potente y su conveniente método de código abierto proporcionarán recursos valiosos para más desarrolladores e investigadores y promoverán una mayor innovación y popularización de las aplicaciones de IA del lado del dispositivo. ¡Esperamos que la serie MiniCPM traiga más sorpresas en el futuro!