O editor do Downcodes aprendeu que as pesquisas mais recentes da OpenAI mostram que mesmo com o rápido avanço da tecnologia de IA, a precisão dos modelos de linguagem mais avançados atuais em responder a questões factuais ainda é preocupante. Este estudo utilizou o benchmark SimpleQA da OpenAI. Os resultados do teste mostraram que a precisão dos melhores modelos da OpenAI foi muito inferior ao esperado, o que desencadeou um reexame das capacidades de aquisição de conhecimento dos modelos de IA.
O estudo usou o teste de benchmark SimpleQA da OpenAI. Este teste contém 4.326 perguntas, cobrindo vários campos, como ciência, política e arte. Cada pergunta tem uma resposta clara e correta.
Após verificação por dois revisores independentes, os resultados mostram que a precisão do melhor modelo o1-preview da OpenAI é de apenas 42,7%, enquanto o GPT-4o é um pouco menor, apenas 38,2%. Quanto ao menor GPT-4o-mini, a precisão é de apenas 8,6%. Em comparação, o modelo Claude da Anthropic teve um desempenho ainda pior, com o soneto Claude-3.5 alcançando uma precisão de apenas 28,9%.
A chave desta investigação reside na concepção do teste, não apenas para testar o desempenho da IA, mas também para consciencializar todos sobre as limitações dos modelos de IA na aquisição de conhecimento. Os investigadores enfatizam que quando os utilizadores utilizam estes modelos, devem tratá-los como ferramentas de processamento de informação e não como fontes de conhecimento completamente dependentes. Para obter respostas mais precisas, é melhor fornecer dados confiáveis à IA, em vez de confiar apenas em seu conhecimento integrado.
É importante notar que os modelos de IA muitas vezes têm estimativas excessivamente otimistas das suas capacidades. Os pesquisadores descobriram que quando foi solicitado a esses modelos que avaliassem a confiança em suas respostas, eles geralmente davam pontuações de precisão inflacionadas. Em testes em que as mesmas perguntas foram respondidas repetidamente, mesmo que os modelos dessem a mesma resposta várias vezes, a sua taxa de sucesso real ainda era inferior à sua precisão autoavaliada. Isto é consistente com as críticas externas de que os modelos de linguagem muitas vezes produzem respostas ridículas, mas parecem confiantes.
Os investigadores acreditam que o atual sistema de IA apresenta lacunas óbvias na precisão factual e necessita urgentemente de melhorias. Eles também levantaram a questão aberta de saber se o desempenho de uma IA na resposta a perguntas factuais curtas prevê o seu desempenho no processamento de respostas mais longas e complexas. Para apoiar o desenvolvimento de modelos de linguagem mais confiáveis, a OpenAI divulgou publicamente os dados de benchmark SimpleQA no Github.
Esta pesquisa alerta para a confiabilidade dos modelos de IA e aponta a direção para melhorias futuras. Precisamos de utilizar as ferramentas de IA com mais cuidado e esperamos maiores avanços na precisão factual dos modelos de IA no futuro. Os dados de benchmark SimpleQA divulgados publicamente pela OpenAI ajudarão a promover o desenvolvimento de todo o campo da IA.