O modelo o3AI recém-lançado da OpenAI atraiu a atenção da indústria por seu desempenho poderoso e altos custos operacionais. O modelo alcançou resultados impressionantes no benchmark ARC-AGI, mas custou mais de US$ 1.000 por missão, muito mais que seu antecessor. Isto realça a contradição entre a melhoria do desempenho e o controlo de custos dos modelos de inteligência artificial, e também desencadeia uma discussão sobre retornos decrescentes na abordagem de “escalonamento”. Este artigo fornecerá uma análise aprofundada do desempenho, custo e desenvolvimento futuro do modelo o3AI.
O modelo o3AI lançado recentemente pela OpenAI é considerado seu produto de inteligência artificial mais poderoso, mas seus custos operacionais são surpreendentes, com uma única tarefa custando mais de US$ 1.000.
Segundo o TechCrunch, o novo modelo utiliza uma técnica chamada “cálculo de tempo de teste” ao lidar com problemas complexos, o que significa que passa mais tempo pensando e explorando múltiplas possibilidades antes de chegar a uma resposta. Portanto, os engenheiros da OpenAI esperam que o3 possa produzir melhores respostas sob solicitações complexas.
De acordo com François Chollet, fundador do benchmark ARC-AGI, o o3 alcançou uma pontuação de 87,5% em seu poderoso “modo de alta computação”, que é quase três vezes a pontuação do modelo o1 da geração anterior de 32%. Isso mostra que a melhoria de desempenho do o3 é significativa. No entanto, esse elaborado processo de cálculo acarreta enormes despesas gerais. Para atingir essa pontuação alta, o custo de computação do O3 excedeu US$ 1.000 por tarefa, usando 170 vezes mais poder de computação do que a versão de baixo consumo de energia do O3 e significativamente maior que seu antecessor, que custava menos de US$ 4 por tarefa.
Esta situação fez com que a indústria prestasse atenção à contradição entre o desempenho do modelo o3 e os seus custos operacionais. Por um lado, a melhoria significativa na pontuação do o3 parece provar que os modelos de inteligência artificial ainda podem progredir através do "escalamento", ou seja, adicionando poder de processamento e dados de treinamento. Mas, por outro lado, crescem as críticas sobre os retornos decrescentes da expansão. Embora a melhoria da o3 se deva principalmente à melhoria do seu método de "raciocínio" e não à simples expansão, os seus elevados custos operacionais sem dúvida preocupam as pessoas.
Mesmo a versão de baixo cálculo do o3, que obteve 76% no benchmark, custa cerca de US$ 20 por tarefa, tornando-o uma opção relativamente barata em comparação com seu antecessor, várias vezes mais cara do que ainda. Além disso, considerando que o ChatGPT Plus cobra apenas US$ 25 por mês, a OpenAI enfrenta uma enorme pressão de custos ao melhorar o nível de inteligência utilizado pelos usuários.
Em uma postagem no blog sobre os resultados do benchmark, Chollet observou que, embora o o3 esteja se aproximando dos níveis de desempenho humano, “o custo ainda é alto e ainda não é econômico”. Ele disse que o custo de mão de obra para resolver tarefas ARC-AGI é de cerca de US$ 5 por tarefa, enquanto o consumo de energia é de apenas alguns centavos. No entanto, ele está otimista de que "a relação custo-benefício provavelmente melhorará significativamente nos próximos meses e anos". Atualmente, o o3 não foi lançado ao público e sua "mini versão" deverá ser lançada em janeiro do próximo ano.
Destaques:
Uma única consulta do modelo o3AI custa mais de US$ 1.000, demonstrando seu alto custo de execução.
No benchmark ARC-AGI, o o3 obteve 87,5%, quase três vezes superior ao modelo o1 da geração anterior.
No momento, o3 não foi lançado ao público, e a “mini versão” deverá ser lançada em janeiro do próximo ano.
Em suma, o modelo o3AI demonstra o forte potencial de desenvolvimento da tecnologia de inteligência artificial, mas também expõe os desafios trazidos pelos elevados custos. No futuro, como equilibrar a melhoria do desempenho e o controle de custos se tornará uma questão fundamental no campo da inteligência artificial, e a "mini versão" do modelo o3AI também é altamente esperada. Se ela pode reduzir custos e, ao mesmo tempo, manter um excelente desempenho, merece ser avaliada. atenção continuada.