Um novo estudo da Harvard Medical School e da Universidade de Stanford mostra que o sistema de inteligência artificial o1-preview da OpenAI tem um bom desempenho no diagnóstico de casos médicos complexos e pode até superar os médicos humanos. O estudo testou exaustivamente o1-preview e os resultados foram impressionantes, com precisão e capacidade de raciocínio médico superando significativamente os modelos anteriores e superando médicos e residentes médicos experientes. Esta pesquisa fornece um novo rumo para a aplicação da inteligência artificial na área médica, e também desencadeia discussões sobre as questões éticas e práticas da aplicação da inteligência artificial na prática médica.
O sistema de inteligência artificial o1-preview da OpenAI pode ser melhor do que os médicos humanos no diagnóstico de casos médicos complexos, sugere um novo estudo. Equipes de pesquisa da Harvard Medical School e da Universidade de Stanford realizaram testes abrangentes de diagnóstico médico no o1-preview, e os resultados mostraram que o sistema melhorou significativamente em comparação com as versões anteriores.
De acordo com os resultados do estudo, o o1-preview alcançou uma taxa de diagnóstico correto de 78,3% entre todos os casos testados. Numa comparação direta de 70 casos específicos, a taxa de diagnóstico preciso do sistema atingiu 88,6%, superando significativamente os 72,9% do seu antecessor GPT-4. Em termos de raciocínio médico, o desempenho do o1-preview é igualmente impressionante. Utilizando a escala R-IDEA, padrão de avaliação da qualidade do raciocínio médico, o sistema de IA recebeu pontuação perfeita de 78 em 80 casos. Em comparação, médicos experientes alcançaram pontuações perfeitas em apenas 28 casos, e os residentes médicos alcançaram pontuações perfeitas em apenas 16 casos.
Os pesquisadores também reconhecem que a visualização o1 pode ter incluído alguns casos de teste nos dados de treinamento. No entanto, quando testaram o sistema em novos casos, o desempenho caiu apenas ligeiramente. Dr. Adam Rodman, um dos autores do estudo, enfatizou que, embora este seja um estudo de referência, os resultados têm implicações importantes para a prática médica.
O1-preview teve um desempenho particularmente bom ao lidar com casos de gerenciamento complexos especialmente elaborados por 25 especialistas. “Os seres humanos são impotentes diante desses problemas, mas o desempenho da O1 é incrível”, explicou Rodman. Nestes casos complexos, o o1-preview alcançou uma pontuação de 86%, enquanto os médicos que usaram o GPT-4 alcançaram apenas 41% e as ferramentas tradicionais alcançaram apenas 34%.
No entanto, o1-preview tem suas falhas. Em termos de avaliação de probabilidade, o desempenho do sistema não melhorou significativamente. Por exemplo, ao avaliar a probabilidade de pneumonia, a pré-visualização o1 deu uma estimativa de 70%, o que está bem acima do intervalo científico de 25%-42%. Os pesquisadores descobriram que o o1-preview teve um bom desempenho em tarefas que exigiam pensamento crítico, mas ficou aquém de desafios mais abstratos, como estimar probabilidades.
Além disso, o1-preview geralmente fornece respostas detalhadas, o que pode ter aumentado sua classificação. No entanto, o estudo concentrou-se apenas no funcionamento isolado do o1-preview e não avaliou o seu efeito em colaboração com médicos. Alguns críticos apontam que os testes diagnósticos sugeridos pelo o1-preview são frequentemente caros e impraticáveis.
Embora a OpenAI tenha lançado novas versões de o1 e o3 e tenha um bom desempenho em tarefas complexas de inferência, esses modelos mais poderosos ainda não conseguem resolver os problemas de aplicação prática e de custo levantados pelos críticos. Rodman apelou aos investigadores para que necessitem de melhores formas de avaliar os sistemas médicos de IA para capturar a complexidade das decisões médicas da vida real. Ele enfatizou que esta pesquisa não pretende substituir os médicos e que o tratamento médico real ainda requer a participação humana.
Artigo: https://arxiv.org/abs/2412.10849
Destaque:
o1-preview superou os médicos na taxa de diagnóstico, atingindo uma taxa de precisão de 88,6%.
Em termos de raciocínio médico, o1-preview alcançou 78 pontuações perfeitas em 80 casos, superando em muito o desempenho dos médicos.
Apesar de seu excelente desempenho, o alto custo e as recomendações de teste irrealistas do o1-preview em aplicações práticas ainda precisam ser abordadas.
Em suma, este estudo demonstra o grande potencial da inteligência artificial no campo do diagnóstico médico, mas também nos lembra que precisamos ser cautelosos quanto à aplicação da IA na prática médica e prestar atenção às suas limitações e riscos potenciais. pesquisas e melhorias são necessárias no futuro para garantir que a IA possa auxiliar com segurança e eficácia o trabalho médico e servir melhor a saúde humana.