A equipe do Alibaba Tongyi Qianwen lançou o incrível modelo matemático Qwen2-Math. Seu desempenho superou o GPT-4 em vários testes de benchmark e até superou a versão de parâmetro 72B do modelo de código aberto NuminaMath na versão de parâmetro 7B. Este modelo pode não apenas lidar com problemas matemáticos inseridos por texto, mas também reconhecer fórmulas em imagens e capturas de tela, tornando-o uma poderosa ferramenta auxiliar para o aprendizado de matemática. Diferentes versões (72B, 7B e 1,5B) oferecem opções para diferentes necessidades, apresentando forte desempenho e adaptabilidade.
A equipe Tongyi Qianwen do Alibaba deu outra grande notícia. Eles acabaram de lançar a demonstração Qwen2Math. Este modelo matemático é simplesmente um monstrinho, até mesmo o GPT-4 está pisoteado.
Este modelo pode não apenas lidar com problemas matemáticos de entrada de texto, mas também compreender fórmulas em imagens e capturas de tela. Imagine que você tira uma foto de um cálculo e ela pode lhe dar a resposta. É simplesmente uma ferramenta para resolver problemas na aula de matemática (claro, não defendemos trapaça).
Qwen2-Math é lançado em três versões: 72B, 7B e 1.5B. Entre eles, a versão 72B é simplesmente um gênio matemático. Na verdade, marcou 7 pontos a mais que o GPT-4 no conjunto de dados MATH, um aumento de 9,6%. É como se você marcasse 145 pontos na prova de matemática do vestibular, mas o melhor aluno ao seu lado marcasse apenas 132 pontos.
O que é ainda mais surpreendente é que a versão 7B usa menos de um décimo dos parâmetros, superando o modelo matemático de código aberto NuminaMath 72B. Você sabe, NuminaMath é o modelo que ganhou o prêmio no primeiro AIMO do mundo, e o prêmio foi entregue pessoalmente por Terence Tao, a figura mais importante do mundo da matemática.
Lin Junyang, especialista sênior em algoritmos do Alibaba, anunciou com entusiasmo que transformou o modelo Qwen2 em um mestre matemático. Como eles fizeram isso? Eles usaram um suplemento matemático especial para o cérebro - um corpus específico para a matemática cuidadosamente projetado. Este suplemento cerebral contém um grande número de textos on-line de matemática de alta qualidade, livros, códigos, questões de exames e até mesmo questões de matemática compiladas pelo modelo Qwen2.
O resultado? Nos conjuntos de testes de matemática clássicos, como GSM8K e MATH, Qwen2-Math-72B deixou para trás o 405B Llama-3.1. Esses conjuntos de testes não são brincadeira. Eles contêm vários problemas matemáticos, como álgebra, geometria, probabilidade e teoria dos números.
Além disso, o Qwen2-Math também desafiou o conjunto de dados chinês CMATH e as questões do vestibular. No conjunto de dados chinês, até mesmo a versão 1.5B pode vencer o 70B Llama3.1. Além disso, independentemente da versão, em comparação com o modelo básico Qwen2 da mesma escala, o desempenho foi significativamente melhorado.
Parece que Tongyi Qianwen realmente perguntou a um gênio da matemática desta vez. Podemos perguntar quando resolvermos problemas de matemática no futuro. Mas lembre-se, esta é apenas uma ferramenta, não se deixe enganar por sua inteligência. Olhos confusos, você ainda precisa praticar? suas habilidades matemáticas!
Endereço da experiência online: https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo
O surgimento do Qwen2-Math marca um progresso significativo em modelos de linguagem em larga escala no campo da matemática. Embora seja uma ferramenta poderosa, é mais importante desenvolver suas próprias habilidades matemáticas e nunca confiar na ferramenta e ignorar o processo de aprendizagem. Esperamos que o Qwen2-Math possa desempenhar um papel em mais campos no futuro, trazendo mais conveniência ao aprendizado e à pesquisa científica.