A Novasky, uma equipe de pesquisa do Sky Computing Laboratory da Universidade da Califórnia, Berkeley, lançou recentemente um modelo de inferência chamado Sky-T1-32B-Preview, que teve um desempenho excelentemente em vários benchmarks-chave, mesmo comparável à versão inicial do O1 do OpenAi . O que é ainda mais impressionante é que o custo de treinamento desse modelo é extremamente baixo, mostrando uma nova tendência no desenvolvimento de inteligência artificial eficiente e econômico.
Sky-T1-32b-PREVIED é o primeiro modelo de raciocínio verdadeiramente aberto. A equipe do Novasky não apenas expõe o próprio modelo, mas também fornece o conjunto de dados de treinamento e o código de treinamento necessário para que o modelo possa ser completamente copiado. De acordo com o blog da equipe, "os custos de treinamento da Sky-T1-32B-Preview são inferiores a US $ 450, o que prova que os recursos avançados de raciocínio podem ser alcançados a um baixo custo". ser feito no passado. Essa redução significativa no custo é atribuída principalmente ao uso de dados de treinamento sintético. Por exemplo, o modelo Palmyra X004 lançado recentemente pela escritora da empresa de inteligência artificial depende quase inteiramente de dados sintéticos para treinamento, com um custo de desenvolvimento de apenas US $ 700.000.
Os modelos de inferência são diferentes dos modelos de inteligência artificial comuns. No entanto, os modelos de inferência geralmente demoram mais para encontrar soluções, variando de segundos a minutos. No entanto, sua confiabilidade em áreas como física, ciência e matemática o torna ideal para esses campos.
A equipe da NoveSky revelou que eles usaram o modelo de inferência de previsão QWQ-32b da Alibaba para gerar os dados de treinamento inicial do Sky-T1 e, em seguida, classificou os dados e reconstruiu os dados em um formato de GPT-4O-4O do OpenAI. Demora cerca de 19 horas para treinar Sky-T1 com 32 bilhões de parâmetros usando 8 racks de GPU NVIDIA H100, e o número de parâmetros reflete diretamente a capacidade de solução de problemas do modelo.
Nos testes de desempenho, o Sky-T1 superou a versão inicial da O1 no Math500 (um conjunto de desafios matemáticos no nível do concurso) e também venceu a versão de visualização do O1 em um conjunto de quebra-cabeças de codificação do LivecodeBench. No entanto, o Sky-T1 não é tão bom quanto a versão de visualização O1 no GPQA-Diamond, que contém questões de física, biologia e química que os graduados em doutorado devem dominar. Além disso, a versão O1Ga do OpenAI é mais poderosa que a versão de visualização e o OpenAI espera lançar um modelo de inferência de melhor desempenho O3 nas próximas semanas.
No entanto, a equipe da NoveSky disse que o Sky-T1 é apenas o ponto de partida para que eles desenvolvam um modelo de código aberto com recursos avançados de raciocínio. “Olhando para o futuro, vamos nos concentrar no desenvolvimento de modelos mais eficientes, na manutenção do forte desempenho da inferência e explorando tecnologias avançadas para melhorar ainda mais a eficiência e a precisão dos modelos ao testar”, escreveu a equipe no post, “Fique sintonizado nos ajustes dos EUA feitos nesses Planos emocionantes.