Recientemente, Mistral, un modelo nacional a gran escala lanzado por la Universidad de Tsinghua, ha despertado respuestas entusiastas en GitHub. Su tamaño 2B tiene un rendimiento que supera a muchos modelos "a gran escala", lo cual es sorprendente. Esto no solo se refleja en su potente rendimiento, sino también en su ventaja de costo extremadamente bajo: el costo de inferencia de 1.700.000 tokens se puede obtener con solo 1 yuan, que es mucho menor que el de productos similares. Además, Mistral también tiene capacidades multimodales, lo que muestra un gran potencial de aplicación. Este incidente demuestra una vez más que en el campo de la IA, el excelente diseño del modelo y el control de costos son igualmente cruciales, y no se trata simplemente de que "el volumen es el rey".
El artículo se centra en:
Recientemente, el Departamento de la Universidad de Tsinghua lanzó un Mistral de producción nacional. Este modelo grande, que tiene solo un tamaño de 2B, recibió inesperadamente una cálida bienvenida en GitHub y obtuvo más de 300 estrellas en un día. En términos de rendimiento, este producto es bastante competitivo. Hay un gran contraste entre rendimiento y tamaño. Ha superado a muchos modelos grandes de "gran volumen" en muchos logros. El aspecto del costo es aún más sorprendente. Solo cuesta 1 yuan obtener 1.700.000 tokens al costo de inferencia. En comparación con productos similares, el costo es mucho menor. Además de las características anteriores, el producto también tiene capacidades multimodales y muestra excelentes resultados.
El éxito de Mistral demuestra el gran avance en rendimiento y costo de los modelos grandes nacionales y también proporciona nuevas ideas para la dirección del desarrollo de modelos grandes en el futuro. Creo que en el futuro veremos aparecer más sorpresas similares, promoviendo el progreso continuo de la tecnología de IA.