Récemment, Mistral, un modèle national à grande échelle publié par l'Université Tsinghua, a suscité des réponses enthousiastes sur GitHub. Sa taille 2B a des performances qui surpassent de nombreux modèles « à grande échelle », ce qui est étonnant. Cela se reflète non seulement dans ses performances puissantes, mais également dans son avantage en termes de coût extrêmement faible : le coût d'inférence de 1 700 000 jetons peut être obtenu avec seulement 1 yuan, ce qui est bien inférieur à celui de produits similaires. De plus, Mistral dispose également de capacités multimodales, démontrant un fort potentiel d’application. Cet incident prouve une fois de plus que dans le domaine de l'IA, une excellente conception des modèles et un contrôle des coûts sont tout aussi cruciaux, et qu'il ne s'agit pas simplement de « le volume est roi ».
L’article se concentre sur :
Récemment, le département de l'Université Tsinghua a publié un Mistral produit dans le pays. Ce grand modèle, qui ne mesure que 2B, a reçu de manière inattendue un accueil chaleureux sur GitHub et a gagné plus de 300 étoiles en une journée. En termes de performances, ce produit est assez compétitif. Il existe un grand contraste entre les performances et la taille. Il a surpassé de nombreux grands modèles « à grand volume » dans de nombreuses réalisations. L'aspect coût est encore plus étonnant : il ne coûte que 1 yuan pour obtenir 1 700 000 jetons au coût d'inférence. Par rapport à des produits similaires, le coût est bien inférieur. En plus des fonctionnalités ci-dessus, le produit possède également des capacités multimodales et présente d'excellents résultats.
Le succès de Mistral démontre la percée en termes de performances et de coûts des grands modèles nationaux, et fournit également de nouvelles idées pour l'orientation du développement des grands modèles à l'avenir. Je crois qu'à l'avenir, nous verrons apparaître davantage de surprises similaires, favorisant le progrès continu de la technologie de l'IA.