최근에는 의료분야에 인공지능을 적용하는 것이 많은 주목을 받고 있으며, 특히 의사의 진단 효율성 향상에 대한 기대가 큰 ChatGPT로 대표되는 챗봇이 주목을 받고 있다. 그러나 저널 "JAMA Network Open"에 발표된 최신 연구에 따르면 ChatGPT는 의사의 진단 역량을 크게 향상시키지 못하며, 이는 의료 진단 응용 분야에서 AI의 잠재력과 한계에 대한 재고를 촉발시켰습니다. 이 연구는 50명의 의사를 대상으로 실험을 실시한 결과 ChatGPT를 사용한 의사와 전통적인 자원만 사용한 의사 사이에 진단 정확도에 거의 차이가 없는 것으로 나타났습니다. 이는 ChatGPT의 독립적 진단의 높은 정확도와 뚜렷한 대조를 이루었습니다. 또한 연구에서는 실제 임상 환경의 복잡성과 의사 자신의 인지적 편향 가능성이 AI 지원 진단의 효율성에 영향을 미친다고 지적합니다.
사진 출처 참고: 사진은 AI가 생성한 것이며, 사진 인증 서비스 제공업체 Midjourney가 제공한 것입니다.
연구 참여자는 주치의 26명, 전공의 24명 등 50명의 의사였다. 그들은 한 시간 안에 6개의 실제 사례를 바탕으로 진단을 내려달라는 요청을 받았습니다. ChatGPT의 보조 효과를 평가하기 위해 연구진은 의사를 두 그룹으로 나누었습니다. 한 그룹은 ChatGPT와 전통적인 의료 자원을 사용할 수 있었고, 다른 그룹은 임상 정보 플랫폼 UpToDate와 같은 전통적인 자원에만 의존할 수 있었습니다.
결과에 따르면 ChatGPT를 사용하는 의사는 진단에서 76%의 점수를 얻은 반면, 전통적인 자원에만 의존하는 의사는 74%의 점수를 얻었습니다. 이에 비해 ChatGPT는 자체적으로 90%의 진단 점수를 달성했습니다. ChatGPT는 독립적으로 작업할 때는 좋은 성능을 보였지만 의사와의 결합에서는 큰 개선이 이루어지지 않아 연구팀이 놀랐습니다.
이번 연구의 공동 제1저자이자 스탠포드 임상우수센터(Stanford Center for Clinical Excellence)의 박사후 연구원인 Ethan Goh는 이번 연구가 실제 임상 환경에서 수행되도록 고안된 것이 아니라 시뮬레이션된 데이터를 기반으로 했기 때문에 결과가 적용되지 않는다고 말했습니다. 제한되어 있습니다. 그는 의사들이 실제 환자를 대할 때 겪는 복잡성을 실험에 충분히 반영할 수 없다고 지적했다.
연구에 따르면 ChatGPT가 진단 시 일부 의사보다 더 나은 성능을 보이는 것으로 나타났지만 이것이 AI가 의사의 의사 결정을 대체할 수 있다는 의미는 아닙니다. 대신 고 교수는 의사들이 AI 도구를 사용할 때 여전히 감독과 판단을 유지할 필요가 있다고 강조했다. 또한, 의사들이 진단을 내릴 때 고집을 부릴 수도 있고, 그들이 내린 예비 진단이 AI 권고사항의 수용에 영향을 미칠 수도 있다는 점은 향후 연구가 집중해야 할 방향이기도 합니다.
의학적 진단 과정이 끝나면 의사들은 "올바른 치료 단계를 어떻게 진행해야 하는가?", "환자의 다음 단계를 안내하기 위해 어떤 검사가 필요한가?"와 같은 일련의 새로운 질문에 답해야 합니다. AI를 의료 분야에 적용할 수 있는 가능성은 여전히 넓지만, 실제 임상 현장에서의 유효성과 적용 가능성에 대해서는 아직 심도 있는 연구가 필요합니다.
가장 밝은 부분:
연구에 따르면 ChatGPT를 사용하는 의사는 기존 방법을 사용하는 의사보다 진단 능력이 약간 더 좋을 뿐이며 큰 개선은 없는 것으로 나타났습니다.
ChatGPT의 단독 진단 점수는 90%로 우수한 수준이지만, 여전히 의사의 감독과 판단이 필요합니다.
의료 진단에 AI 적용을 최적화하여 효율성을 향상시키는 방법을 모색하려면 앞으로 더 많은 연구가 필요합니다.
전체적으로 본 연구는 의료 진단에 AI를 적용하는 데 귀중한 경험을 제공하고 향후 연구 방향을 제시합니다. ChatGPT와 같은 AI 도구는 어느 정도 잠재력을 보여주었지만 실제 임상 적용에서는 여전히 더욱 개선되고 최적화되어야 하며, 의사는 환자에게 더 나은 서비스를 제공하기 위해 이를 주의 깊게 사용하고 자신의 임상 경험을 바탕으로 판단해야 합니다.