Recentemente, a equipe do Sky Computing Lab da Universidade da Califórnia, Berkeley lançou o Sky-T1-32B-Preview, um modelo de inteligência artificial de inferência de código aberto que marca o desenvolvimento da inferência ai mais fácil e mais barata. O modelo teve um bom desempenho em vários benchmarks -chave, mesmo comparável às versões anteriores das versões OpenAI do O1.
Os custos de treinamento do Sky-T1 são impressionantes, por apenas US $ 450, o que significa que a replicação de recursos de raciocínio de alto nível se tornou mais acessível e eficiente. Embora a taxa de US $ 450 possa não parecer baixa, é uma queda enorme em comparação com o custo de treinamento que custa centenas de milhões de dólares há alguns anos. Com a ajuda de dados de treinamento sintético, ou seja, dados de treinamento gerados por outros modelos, o custo é significativamente reduzido. A IA Company Writer lançou recentemente o Palmyra X004, que depende quase inteiramente de dados sintéticos, e o custo de desenvolvimento é de apenas US $ 700.000.
Ao contrário da maioria dos AIS, os modelos de inferência são capazes de se auto-verificar efetivamente, o que os torna mais confiáveis ao lidar com alguns problemas comuns. Os modelos de inferência geralmente levam mais tempo ao derivar soluções, que podem levar segundos a minutos, mas em áreas como física, ciência e matemática, as vantagens de confiabilidade são significativas.
A equipe do NoveSky usou outro modelo de inferência-o QWQ-32B-View da Alibaba para gerar os dados de treinamento inicial do Sky-T1 e "planejaram" os dados mais formato operacional. Demora apenas cerca de 19 horas para treinar Sky-T1 com 3,2 bilhões de parâmetros, usando um conjunto de 8 nvidia h100gpus. O número de parâmetros está aproximadamente relacionado à capacidade de solução de problemas do modelo.
De acordo com a equipe do Novasky, o Sky-T1 superou a versão inicial da O1 em uma coleção Math500 de desafios matemáticos no nível do concurso. Além disso, o Sky-T1 encontrou mais dificuldades no LivecodeBench do que a versão de visualização do O1. No entanto, o Sky-T1 teve um desempenho pior do que a prévia do O1 nos testes GPQA-Diamond quando se trata de questões envolvendo física, biologia e química.
Deve -se notar que a versão Ga O1 do OpenAI é mais poderosa que a versão de visualização, e o OpenAI deverá lançar um modelo de inferência ainda melhor nas próximas semanas. No entanto, a equipe do Novasky disse que o Sky-T1 é apenas o começo de sua jornada para desenvolver um modelo de código aberto com recursos avançados de raciocínio.
"Olhando para o futuro, nos concentraremos no desenvolvimento de modelos mais eficientes para manter um forte desempenho de inferência e explorar tecnologias avançadas que melhoram ainda mais a eficiência e a precisão do modelo", escreveu a equipe em um blog. "Fique atento ao nosso progresso nesses projetos emocionantes".