Os novos modelos de IA o1-preview e o1-mini da OpenAI alcançam as melhores pontuações nas classificações de chatbot

Autor：Eve Cole Data da Última Atualização：2024-12-02 11:32:01

O editor de Downcodes relata: O sistema chatbot recém-lançado da OpenAI liderou a lista em avaliações recentes. Ele tem um bom desempenho em termos de desempenho geral, segurança e capacidades técnicas, especialmente em tarefas STEM. Contudo, vale ressaltar que o número de avaliadores participantes desta avaliação foi relativamente baixo, o que pode ter certo impacto nos resultados finais e precisa ser interpretado com cautela.

O novo sistema da OpenAI obteve excelentes resultados nas avaliações recentes, ocupando o primeiro lugar no ranking de chatbots. No entanto, devido ao baixo número de classificações, isto pode distorcer os resultados da avaliação.

De acordo com a visão geral do comunicado, os novos sistemas tiveram um bom desempenho em todas as categorias de avaliação, incluindo desempenho geral, segurança e capacidades técnicas. Um dos sistemas, dedicado a tarefas STEM, ficou brevemente em segundo lugar e assumiu a liderança na área de tecnologia, juntamente com a versão GPT-4o lançada no início de setembro.

Chatbot Arena, uma plataforma para comparação de diferentes sistemas, avalia novos sistemas usando mais de 6.000 avaliações da comunidade. Os resultados mostraram que esses novos sistemas tiveram um bom desempenho em tarefas matemáticas, instruções complexas e programação.

No entanto, estes novos sistemas recebem classificações muito mais baixas do que outros sistemas maduros, como o GPT-4o ou o Claude3.5 da Anthropic, cada um com menos de 3.000 avaliações. Um tamanho de amostra tão pequeno pode distorcer a avaliação e limitar a significância dos resultados.

O novo sistema da OpenAI se destaca em matemática e codificação, que foram os principais objetivos de seu design. Ao “pensar” mais tempo antes de responder, estes sistemas pretendem estabelecer novos padrões para o raciocínio da IA. No entanto, estes sistemas não superam outros em todas as áreas. Muitas tarefas não exigem raciocínio lógico complexo e, às vezes, uma resposta rápida de outros sistemas é suficiente.

O gráfico da Lmsys sobre a força do modelo matemático mostra claramente que esses novos sistemas obtiveram pontuação superior a 1360, bem acima do desempenho de outros sistemas.

Apesar do tamanho limitado da amostra, o excelente desempenho do novo sistema da OpenAI ainda merece atenção. Seus avanços nas áreas de matemática e codificação fornecem uma nova direção para o desenvolvimento da tecnologia de raciocínio de IA. No futuro, com a acumulação de mais dados e a melhoria contínua dos modelos, espera-se que o novo sistema da OpenAI demonstre as suas capacidades poderosas em mais campos. O editor do Downcodes continuará atento ao seu desenvolvimento.