OpenAI lançou uma nova geração de modelo de inferência o3 e sua versão simplificada o3-mini, que são os sucessores da série o1 e são projetados para melhorar a precisão de responder perguntas por meio de um pensamento mais profundo. o3 obteve progressos revolucionários no benchmark ARC-AGI, demonstrando capacidades de resolução de problemas de nível quase humano. o3-mini concentra-se na velocidade e na relação custo-benefício e é especialmente adequado para tarefas de programação. Embora os modelos da série o3 não sejam lançados diretamente ao público, a OpenAI os abriu para pesquisadores de segurança para visualização.
O modelo o3 tem um bom desempenho em vários benchmarks. Por exemplo, a precisão no benchmark SWE-bench Verified é mais de 20% maior que o1, e a precisão na matemática da competição e no GPQA Diamond também é significativamente melhorada. A OpenAI também introduziu um novo método de avaliação de segurança denominado “alinhamento deliberativo” para garantir a segurança do modelo e a conformidade com as especificações de segurança. Atualmente, a OpenAI está passando por testes de segurança externos e abriu aplicativos de acesso antecipado.
Em termos de programação e resolução de problemas matemáticos, o modelo o3 demonstrou capacidades notáveis. No benchmark SWE-bench Verified, a precisão do o3 é de aproximadamente 71,7%, o que é mais de 20% maior que o modelo o1. No Código da Concorrência, o3 recebeu nota Elo de 2.727, enquanto o1 recebeu apenas 1.891. Além disso, a precisão do o3 em matemática de competição atingiu 96,7%, e sua precisão no GPQA Diamond atingiu 87,7%, o que é quase 10% maior que o1.
A OpenAI também introduziu um novo método de avaliação de segurança - alinhamento deliberativo, que é um novo paradigma que ensina diretamente as especificações de segurança do modelo e pode treinar o modelo para lembrar explicitamente as especificações e executar o raciocínio com precisão antes de responder. Essa abordagem é usada para alinhar os modelos da série O da OpenAI e obter conformidade altamente precisa com as políticas de segurança da OpenAI.
Atualmente, a OpenAI está promovendo testes de segurança externos e abriu inscrições de acesso antecipado no site. Os candidatos precisam preencher um formulário online e fornecer informações relevantes. Os pesquisadores selecionados terão acesso ao o3 e ao o3-mini para explorar suas capacidades e contribuir para avaliações de segurança.
O lançamento dos modelos da série OpenAI o3 marca uma melhoria significativa nas capacidades de raciocínio de inteligência artificial, e seu excelente desempenho em vários campos anuncia uma nova direção para o desenvolvimento futuro da tecnologia de IA. No futuro, continuaremos a prestar atenção ao progresso e à aplicação dos modelos da série o3.