Recentemente, Mistral, um modelo doméstico de grande escala lançado pela Universidade Tsinghua, despertou respostas entusiasmadas no GitHub. Seu tamanho 2B tem desempenho que supera muitos modelos de "grande escala", o que é incrível. Isso não se reflete apenas em seu desempenho poderoso, mas também em sua vantagem de custo extremamente baixo: o custo de inferência de 1.700.000 tokens pode ser obtido com apenas 1 yuan, que é muito inferior ao de produtos similares. Além disso, o Mistral também possui capacidades multimodais, mostrando forte potencial de aplicação. Este incidente prova mais uma vez que no campo da IA, um excelente design de modelo e controle de custos são igualmente cruciais, e não é simplesmente “o volume é rei”.
O artigo se concentra em:
Recentemente, o Departamento da Universidade de Tsinghua lançou um Mistral produzido internamente. Este grande modelo, que tem apenas 2B de tamanho, recebeu inesperadamente uma recepção calorosa no GitHub e ganhou mais de 300 estrelas em um dia. Em termos de desempenho, este produto é bastante competitivo. Há um grande contraste entre desempenho e tamanho. Ele superou muitos modelos convencionais de "grande volume" em muitas conquistas. O aspecto do custo é ainda mais surpreendente. Custa apenas 1 yuan para obter 1.700.000 tokens com o custo de inferência. Em comparação com produtos similares, o custo é muito menor. Além das características acima, o produto também possui capacidades multimodais e apresenta excelentes resultados.
O sucesso do Mistral demonstra o avanço no desempenho e no custo dos grandes modelos nacionais e também fornece novas ideias para a direção do desenvolvimento de grandes modelos no futuro. Acredito que no futuro veremos surgir mais surpresas semelhantes, promovendo o progresso contínuo da tecnologia de IA.