최근 의료분야에 인공지능을 적용하는 것이 많은 주목을 받고 있으며, 특히 ChatGPT로 대표되는 챗봇이 큰 기대를 모으고 있다. 그러나 새로운 연구에서는 의료 진단에서 AI의 한계가 드러났습니다. 다운코드 편집자는 저널 'JAMA Network Open'에 게재된 이번 연구를 해석하고, AI 기반 의료 진단의 현황과 향후 발전 방향을 분석할 예정이다.
글: 최근 의료분야에 인공지능(AI)을 적용하는 것에 대한 관심이 높아지고 있다. 특히, ChatGPT와 같은 챗봇은 많은 병원에서 의사의 진단 효율성을 높이기 위한 보조 도구로 활용될 것으로 기대됩니다. 그러나 새로 발표된 연구에 따르면 ChatGPT를 사용해도 의사의 진단 능력이 크게 향상되지는 않은 것으로 나타났습니다. JAMA Network Open 저널에 게재된 이 연구는 의료 진단에서 AI의 잠재력과 한계를 보여줍니다.
사진 출처 참고: 사진은 AI가 생성한 것이며, 사진 인증 서비스 제공업체 Midjourney가 제공한 것입니다.
연구 참여자는 주치의 26명, 전공의 24명 등 50명의 의사였다. 그들은 1시간 이내에 6개의 실제 사례를 바탕으로 진단을 내려달라는 요청을 받았습니다. ChatGPT의 보조 효과를 평가하기 위해 연구진은 의사를 두 그룹으로 나누었습니다. 한 그룹은 ChatGPT와 전통적인 의료 자원을 사용할 수 있었고, 다른 그룹은 임상 정보 플랫폼 UpToDate와 같은 전통적인 자원에만 의존할 수 있었습니다.
결과에 따르면 ChatGPT를 사용하는 의사는 진단에서 76%의 점수를 얻은 반면, 전통적인 자원에만 의존하는 의사는 74%의 점수를 얻었습니다. 이에 비해 ChatGPT는 자체적으로 90%의 진단 점수를 달성했습니다. ChatGPT는 독립적으로 작업할 때는 좋은 성능을 보였지만 의사와의 결합에서는 큰 개선이 이루어지지 않아 연구팀이 놀랐습니다.
이번 연구의 공동 제1저자이자 스탠포드 임상우수센터(Stanford Center for Clinical Excellence)의 박사후 연구원인 Ethan Goh는 이번 연구가 실제 임상 환경에서 수행되도록 고안된 것이 아니라 시뮬레이션된 데이터를 기반으로 했기 때문에 결과가 적용되지 않는다고 말했습니다. 제한되어 있습니다. 그는 실제 환자를 대할 때 의사가 직면하는 복잡성을 실험에 완전히 반영할 수 없다고 지적합니다.
연구에 따르면 ChatGPT가 진단 시 일부 의사보다 더 나은 성능을 보이는 것으로 나타났지만 이것이 AI가 의사의 의사 결정을 대체할 수 있다는 의미는 아닙니다. 대신 고 교수는 의사들이 AI 도구를 사용할 때 여전히 감독과 판단을 유지할 필요가 있다고 강조했다. 또한, 의사들이 진단을 내릴 때 고집을 부릴 수도 있고, 그들이 내린 예비 진단이 AI 권고사항의 수용에 영향을 미칠 수도 있다는 점은 향후 연구가 집중해야 할 방향이기도 합니다.
의학적 진단 과정이 끝나면 의사들은 "올바른 치료 단계를 어떻게 진행해야 하는가?", "환자의 다음 단계를 안내하기 위해 어떤 검사가 필요한가?"와 같은 일련의 새로운 질문에 답해야 합니다. AI를 의료 분야에 적용할 수 있는 가능성은 여전히 넓지만, 실제 임상 현장에서의 유효성과 적용 가능성에 대해서는 아직 심도 있는 연구가 필요합니다.
전체적으로 본 연구는 AI가 의료 분야에 적용되는 것은 하루아침에 이루어지는 것이 아니며 AI 도구를 사용할 때 의사의 실제 상황에 대한 주의와 한계에 대한 신중한 평가가 필요하다는 점을 상기시켜 줍니다. 앞으로 AI 기술을 임상 실습에 어떻게 더 잘 통합할 것인지는 의료 분야에서 지속적인 탐구를 위한 중요한 방향이 될 것입니다.