O modelo mais recente da OpenAI, o3, alcançou resultados impressionantes no benchmark ARC-AGI, pontuando até 75,7% em condições de computação padrão e 87,5% na versão de alta computação. Este resultado excede em muito todos os modelos anteriores e atraiu ampla atenção no campo da investigação em IA. O benchmark ARC-AGI foi projetado para avaliar a capacidade dos sistemas de IA de se adaptarem a novas tarefas e demonstrarem inteligência fluida. É extremamente difícil e é considerado um dos padrões mais desafiadores na avaliação de IA. O desempenho inovador do o3 sem dúvida traz novas direções e possibilidades para o desenvolvimento da IA, mas não significa que a AGI tenha sido quebrada.
O último modelo o3 lançado pela OpenAI alcançou resultados surpreendentes no benchmark ARC-AGI, pontuando até 75,7% em condições de computação padrão, e a versão de alta computação atingiu 87,5%. Essa conquista surpreendeu a comunidade de pesquisa em IA, mas ainda não prova que a generalidade da inteligência artificial (AGI) foi quebrada.
O benchmark ARC-AGI é baseado no Abstract Reasoning Corpus, um teste projetado para avaliar a capacidade de um sistema de IA de se adaptar a novas tarefas e demonstrar inteligência fluida. ARC consiste em uma série de quebra-cabeças visuais que requerem a compreensão de conceitos básicos como objetos, limites e relações espaciais. Os humanos podem facilmente resolver estes puzzles, mas os actuais sistemas de IA enfrentam grandes desafios a este respeito. O ARC é considerado um dos critérios mais desafiadores na avaliação de IA.
o3 tem um desempenho significativamente melhor que os modelos anteriores. A pontuação mais alta da visualização o1 e do modelo o1 no ARC-AGI é de 32%. Antes disso, o pesquisador Jeremy Berman usou um método híbrido para combinar Claude3.5Sonnet com um algoritmo genético, alcançando uma pontuação de 53%, e o surgimento do o3 foi considerado um salto nas capacidades de IA.
François Chollet, o fundador da ARC, elogiou o o3 pela sua mudança qualitativa nas capacidades de IA e acredita que atingiu um nível sem precedentes na sua capacidade de adaptação a novas tarefas.
Embora o3 tenha um bom desempenho, seu custo computacional também é bastante alto. Na configuração de computação baixa, resolver cada quebra-cabeça custa entre US$ 17 e US$ 20, consumindo 33 milhões de tokens, enquanto na configuração de computação alta, o custo computacional aumenta para 172 vezes, usando bilhões de tokens; Contudo, à medida que o custo da inferência diminui gradualmente, estas despesas gerais podem tornar-se mais razoáveis.
Atualmente não há detalhes sobre como a o3 alcançou esse avanço. Alguns cientistas especulam que o3 pode usar um método de síntese de programa que combina pensamento em cadeia e mecanismos de busca. Outros cientistas acreditam que o3 pode simplesmente resultar de uma maior extensão da aprendizagem por reforço.
Embora o3 tenha feito progressos significativos no ARC-AGI, Chollet enfatizou que o ARC-AGI não é um teste de AGI e o o3 ainda não atingiu os padrões do AGI. Ainda tem um desempenho fraco em algumas tarefas simples, mostrando diferenças fundamentais em relação à inteligência humana. Além disso, o3 ainda depende de verificação externa durante o processo de raciocínio, o que está longe da capacidade de aprendizagem independente da AGI.
A equipe Chollet está desenvolvendo novos benchmarks desafiadores para testar as capacidades da o3 e espera reduzir sua pontuação para menos de 30%. Ele ressalta que a verdadeira AGI significará que será quase impossível criar tarefas que sejam simples para os humanos, mas difíceis para a IA.
Destaques:
o3 alcançou uma pontuação elevada de 75,7% no teste de benchmark ARC-AGI, superando os modelos anteriores.
O custo para resolver cada quebra-cabeça no o3 chega a 17 a 20 dólares americanos, o que é uma grande quantidade de cálculo.
Embora o3 tenha um bom desempenho, os especialistas enfatizam que ainda não atingiu os padrões AGI.
Em suma, o excelente desempenho do modelo o3 no teste ARC-AGI demonstra o progresso significativo da inteligência artificial nas capacidades de raciocínio abstrato, mas este é apenas um pequeno passo no caminho para a verdadeira AGI. Pesquisas futuras ainda precisam continuar a explorar para resolver o alto custo computacional e os principais problemas da AGI.