No final do ano, Beijing Zhipu Huazhang Technology Co., Ltd. lançou a primeira versão do GLM-Zero, o primeiro modelo de inferência treinado com base na tecnologia de aprendizagem por reforço estendido - GLM-Zero-Preview. Este modelo demonstrou excelentes capacidades em lógica matemática, escrita de código e raciocínio de problemas complexos, e alcançou resultados comparáveis a modelos OpenAI semelhantes em múltiplas avaliações confiáveis. O GLM-Zero-Preview não apenas melhora as capacidades de tarefas especializadas, mas também mantém um excelente desempenho em tarefas gerais, estabelecendo uma nova referência para a melhoria das capacidades de raciocínio da inteligência artificial.
No final do ano, para Beijing Zhipu Huazhang Technology Co., Ltd., a empresa lançou seu primeiro modelo de inferência treinado com base na tecnologia de aprendizagem por reforço estendida - a primeira versão do GLM-Zero, GLM-Zero-Preview. Este modelo se concentra em melhorar as capacidades de raciocínio da inteligência artificial, especialmente em lógica matemática, escrita de códigos e processamento de problemas complexos que exigem raciocínio profundo. Comparado com o modelo básico, o GLM-Zero-Preview melhorou significativamente suas capacidades de tarefas especializadas, mantendo as capacidades gerais de tarefas. Seu desempenho nas avaliações AIME2024, MATH500 e LiveCodeBench é equivalente ao OpenAI o1-preview.
Os usuários agora podem experimentar o GLM-Zero-Preview gratuitamente no agente "Zero Inference Model" da plataforma Zhipu Qingyan. A plataforma suporta uploads de texto e imagem, e o modelo produzirá o processo de raciocínio completo. Ao mesmo tempo, os desenvolvedores também podem chamar esse modelo por meio da API da plataforma aberta Zhipu.
Embora ainda haja uma certa lacuna entre o GLM-Zero-Preview e o modelo o3 da OpenAI, a Zhipu Huazhang Technology Co., Ltd. planeja continuar a otimizar a tecnologia de aprendizagem por reforço iterativo e lançará em breve a versão oficial do GLM-Zero para expandir a capacidade de pensamento profundo, desde a lógica matemática até áreas tecnológicas mais gerais.
Em termos de desempenho do modelo, o GLM-Zero-Preview demonstra a importância da aprendizagem por reforço no aprimoramento das capacidades de raciocínio profundo do modelo. À medida que a quantidade de treinamento aumenta, o desempenho do modelo em aspectos como o raciocínio profundo tem melhorado continuamente. A lei de escala do modelo na fase de inferência também foi verificada. Ou seja, à medida que o número de tokens que o modelo pode pensar aumenta e mais cálculos são necessários, a qualidade dos resultados fornecidos pelo modelo também melhora constantemente. O GLM-Zero-Preview pode realizar a tomada de decisão autônoma, a decomposição de problemas e tentar várias maneiras de resolver problemas durante o processo de raciocínio, que é semelhante ao pensamento humano e ao processo de tomada de decisão.
Em casos de teste reais, o GLM-Zero-Preview demonstrou a capacidade de identificar lacunas lógicas e simular múltiplas suposições em termos de raciocínio lógico. Em termos de matemática, o modelo tem fortes capacidades indutivas e dedutivas, pode lidar rapidamente com operações matemáticas complexas e atingiu o nível de um excelente aluno de pós-graduação no teste I de Matemática do Exame de Pós-Graduação de 2025. Em termos de programação, o GLM-Zero-Preview é proficiente no uso de múltiplas linguagens de programação e ajuda os desenvolvedores a escrever código rapidamente.
Palavras claras do espectro da sabedoria:
https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh
Plataforma aberta Zhipu:
https://bigmodel.cn/dev/api/normal-model/glm-zero-preview
O lançamento do GLM-Zero-Preview marca que Zhipu Huazhang fez progressos significativos no campo do raciocínio de inteligência artificial. Sua estratégia gratuita e aberta também facilita a experiência e feedback do desenvolvedor e do usuário, fornecendo dados valiosos para otimização iterativa de modelos futuros. Esperamos ansiosamente o lançamento da versão oficial do GLM-Zero para promover ainda mais o avanço da tecnologia de inteligência artificial.