Después de que Meta lanzó Llama 3.1, Mistral AI lanzó su modelo insignia Mistral Large 2, con un volumen de parámetros de 123 mil millones, una ventana de contexto de la asombrosa cifra de 128k y un rendimiento comparable al de Llama 3.1. El modelo admite múltiples lenguajes y lenguajes de programación, está diseñado para inferencia de un solo nodo, es eficiente y económico. Este artículo analizará en profundidad los diversos indicadores de rendimiento, los métodos de uso y el excelente rendimiento de Mistral Large 2 en el procesamiento multilingüe, la comprensión del código y el seguimiento de instrucciones, y analizará su potencial en aplicaciones comerciales y campos de investigación.
Tras el anuncio de Meta ayer sobre el lanzamiento del modelo de código abierto más potente, Llama3.1, Mistral AI lanzó grandiosamente su modelo insignia Mistral Large2 esta mañana. Este nuevo producto tiene 123 mil millones de parámetros y una gran ventana de contexto de 128k. comparable a Llama3.1.
Detalles del modelo Mistral Large2
Mistral Large2 tiene una ventana de contexto de 128k y admite docenas de idiomas, incluidos francés, alemán, español, italiano, portugués, árabe, hindi, ruso, chino, japonés y coreano, así como Python, Java, C, C++, más de 80 lenguajes de codificación, incluidos JavaScript y Bash.
Mistral Large2 está diseñado para inferencia de un solo nodo, dirigido a aplicaciones de contexto largo: su tamaño de 123 mil millones de parámetros le permite ejecutarse con un alto rendimiento en un solo nodo. Mistral Large2 se publica bajo la licencia de investigación Mistral y está destinado a investigación y uso no comercial; si existe una necesidad comercial, los usuarios deben comunicarse para obtener una licencia comercial.
Rendimiento general:
En términos de desempeño, Mistral Large2 ha establecido un nuevo punto de referencia en indicadores de evaluación, logrando especialmente una precisión del 84,0% en la prueba de referencia MMLU, lo que demuestra un fuerte equilibrio entre desempeño y costo del servicio.
Código y razonamiento
Gracias a la experiencia de capacitación de Codestral22B y Codestral Mamba, Mistral Large2 tiene un buen desempeño en el procesamiento de código, incluso comparable a modelos superiores como GPT-4o, Claude3Opus y Llama3405B.
Cumplimiento y alineación de instrucciones
Mistral Large 2 también ha logrado avances significativos en el seguimiento de comandos y las capacidades de diálogo, especialmente al manejar diálogos complejos de varios turnos con mayor flexibilidad. En algunos puntos de referencia, generar respuestas más largas tiende a mejorar las puntuaciones. Sin embargo, en muchas aplicaciones comerciales, la simplicidad es crucial: una generación de modelos más corta ayuda a interacciones más rápidas y hace que la inferencia sea más rentable.
diversidad lingüística
El nuevo Mistral Large2 está entrenado con grandes cantidades de datos multilingües, específicamente en inglés, francés, alemán, español, italiano, portugués, holandés, ruso, chino, japonés, coreano, árabe e hindi. Excelente rendimiento. A continuación se muestran los resultados de rendimiento de Mistral Large2 en el punto de referencia MMLU multilingüe, en comparación con los modelos anteriores Mistral Large, Llama3.1 y Command R+ de Cohere.
Uso de herramientas y llamadas a funciones.
Mistral Large2 viene equipado con habilidades mejoradas de llamada y recuperación de funciones y está capacitado para ejecutar de manera experta llamadas de funciones paralelas y secuenciales, lo que le permite servir como una potencia para aplicaciones comerciales complejas.
Cómo utilizar:
Actualmente, los usuarios pueden utilizar Mistral Large2 con el nombre mistral-large-2407
a la Plateforme (https://console.mistral.ai/) y probado en le Chat. Está disponible en la versión 24.07 (el sistema de control de versiones YY.MM que aplicamos a todos los modelos) y bajo el nombre API mistral-large-2407
. Los pesos para el modelo de instrucción están disponibles y también están alojados en HuggingFace (https://huggingface.co/mistralai/Mistral-Large-Instruct-2407).
Los productos de La Plateforme incluyen dos modelos universales, Mistral Nemo y Mistral Large, y dos modelos profesionales, Codestral y Embed. A medida que eliminamos gradualmente los modelos más antiguos en La Plateforme, todos los modelos de Apache (Mistral7B, Mixtral8x7B y 8x22B, Codestral Mamba, Mathstral) aún se pueden implementar y ajustar utilizando el SDK mistral-inference y mistral-finetune.
A partir de hoy, el producto ampliará las capacidades de ajuste a la Plateforme: estas capacidades ahora están disponibles para Mistral Large, Mistral Nemo y Codestral.
Mistral AI también se ha asociado con varios proveedores líderes de servicios en la nube para que Mistral Large2 esté disponible a nivel mundial, en particular en Vertex AI en Google Cloud Platform.
** Reflejos: **
Mistral Large2 tiene 128k ventanas de contexto y admite hasta diez idiomas y más de 80 lenguajes de programación.
Logrando una precisión del 84.0% en la prueba comparativa MMLU, con excelente rendimiento y costo.
?Los usuarios pueden acceder a nuevos modelos a través de La Plateforme y se utilizan ampliamente en plataformas de servicios en la nube.
Con todo, Mistral Large 2 ha demostrado una fuerte competitividad en el campo de los modelos de lenguajes grandes con su potente rendimiento, amplio soporte lingüístico y uso conveniente, brindando nuevas posibilidades para la investigación y aplicaciones comerciales. Su naturaleza de código abierto también promueve aún más el desarrollo innovador en el campo de la IA.