Recentemente, um estudo publicado na revista Cureus mostrou que o modelo GPT-4 da OpenAI foi aprovado no Exame Nacional de Fisioterapia Japonês sem treinamento adicional. Os pesquisadores testaram o GPT-4 usando 1.000 questões que abrangem memória, compreensão, aplicação, análise e avaliação. Os resultados mostraram que ele teve uma taxa de precisão de 73,4% e passou em todas as cinco partes do teste. Esta pesquisa levanta preocupações sobre o potencial do GPT-4 para aplicações médicas, ao mesmo tempo que revela suas limitações em lidar com tipos específicos de problemas, como problemas práticos e aqueles que contêm tabelas de figuras.
Um estudo recente revisado por pares publicado na revista Cureus mostra que o modelo de linguagem GPT-4 da OpenAI foi aprovado no Exame Nacional de Fisioterapia Japonês sem qualquer treinamento adicional.
Os pesquisadores inseriram 1.000 questões no GPT-4, abrangendo áreas como memória, compreensão, aplicação, análise e avaliação. Os resultados mostraram que o GPT-4 respondeu corretamente 73,4% das questões no geral, passando em todas as cinco partes do teste. No entanto, a investigação também revelou as limitações da IA em algumas áreas.
O GPT-4 teve um bom desempenho em problemas gerais, com precisão de 80,1%, mas apenas 46,6% em problemas práticos. Da mesma forma, ele se sai muito melhor no tratamento de questões somente de texto (80,5% de acertos) do que em questões com imagens e tabelas (35,4% de acertos). Esta descoberta é consistente com pesquisas anteriores sobre as limitações da compreensão visual do GPT-4.
É importante notar que a dificuldade das perguntas e o comprimento do texto têm pouco impacto no desempenho do GPT-4. Embora o modelo tenha sido treinado principalmente com dados em inglês, ele também teve um bom desempenho ao lidar com informações em japonês.
Os investigadores observaram que, embora este estudo demonstre o potencial do GPT-4 na reabilitação clínica e na educação médica, deve ser visto com cautela. Enfatizaram que o GPT-4 não responde corretamente a todas as questões e que serão necessárias avaliações futuras de novas versões e das capacidades do modelo em testes escritos e de raciocínio.
Além disso, os pesquisadores propuseram que modelos multimodais como o GPT-4v podem trazer melhorias adicionais na compreensão visual. Atualmente, modelos profissionais de IA médica, como Med-PaLM2 e Med-Gemini do Google, bem como o modelo médico da Meta baseado em Llama3, estão sendo ativamente desenvolvidos, com o objetivo de superar modelos de uso geral em tarefas médicas.
No entanto, os especialistas acreditam que pode demorar muito até que os modelos de IA médica sejam amplamente utilizados na prática. O espaço de erro dos modelos atuais permanece muito grande em ambientes médicos, e são necessários avanços significativos nas capacidades de inferência para integrar com segurança estes modelos na prática médica diária.
Embora este estudo demonstre o potencial do GPT-4 na área médica, ele também nos lembra que a tecnologia de IA ainda precisa ser continuamente melhorada antes que possa realmente ser aplicada a cenários médicos complexos. No futuro, modelos multimodais e capacidades de raciocínio mais poderosas serão melhorias fundamentais para garantir a segurança e a fiabilidade da IA nos cuidados médicos.