하버드 대학교, 스탠포드 대학교 등 최고 기관의 공동 연구에 따르면 OpenAI의 o1-preview 모델은 의학적 추론 작업에서 인간 의사를 능가하는 놀라운 능력을 보여주었습니다. 본 연구에서는 감별진단 생성, 진단 추론 과정 표시, 분류 감별진단, 확률적 추론, 관리 추론 등의 다양한 측면을 포괄하는 o1-preview 모델에 대한 종합적인 평가를 수행하고 이를 인간 의사 및 초기 대규모 언어와 비교했습니다. 모델. 이번 연구 결과는 의료 분야 인공지능 활용에 새로운 돌파구를 제시하고, 향후 의료용 인공지능 발전 방향을 제시하고 있어 눈길을 끈다.
의료 분야에서 인공 지능의 적용이 다시 한 번 획기적인 발전을 이루었습니다! 하버드 대학, 스탠포드 대학 및 기타 최고 기관이 공동으로 실시한 연구에 따르면 OpenAI의 o1-preview 모델은 여러 의료 추론 작업에서 놀라운 기능을 보여주었습니다. 인간 의사들. 이 연구에서는 의료용 객관식 벤치마크 테스트에서 모델의 성능을 평가했을 뿐만 아니라 시뮬레이션된 실제 임상 시나리오에서의 진단 및 관리 기능에 중점을 두었습니다. 결과는 인상적입니다.
연구진은 감별진단 생성, 진단 추론 과정 표시, 분류 감별진단, 확률적 추론, 관리 추론 등 5가지 실험을 통해 o1-preview 모델에 대한 종합적인 평가를 수행했다. 실험은 검증된 심리 측정 방법을 사용하여 의료 전문가에 의해 평가되었으며 o1-preview의 성능을 이전의 인간 제어 및 이전의 대규모 언어 모델 벤치마크와 비교하도록 설계되었습니다. 결과는 o1-preview가 감별 진단 생성과 진단 및 관리 추론의 품질을 크게 향상시키는 것으로 나타났습니다.
감별 진단을 생성하는 o1-preview의 능력을 평가하기 위해 연구자들은 New England Journal of Medicine(NEJM)에 발표된 임상 병리학 심포지엄(CPC) 사례를 사용했습니다. 그 결과, 모델에 의해 주어진 감별진단에는 78.3%의 경우에 정확한 진단이 포함되어 있었고, 52%의 경우에는 첫 번째 진단이 정확한 진단인 것으로 나타났습니다. 더욱 놀랍게도 o1-preview는 이전 GPT-4 모델의 동일한 사례 중 72.9%에 비해 88.6%의 사례에서 정확하거나 매우 근접한 진단을 제공했습니다. 또한 o1-preview는 다음 진단 테스트 선택에서도 좋은 성능을 발휘하여 87.5%의 사례에서 올바른 테스트를 선택하고 11%의 사례에서 도움이 되는 테스트 요법을 선택했습니다.
o1-preview의 임상 추론 능력을 추가로 평가하기 위해 연구원들은 NEJM Healer 과정의 20개 임상 사례를 사용했습니다. 결과는 o1-preview가 이러한 경우 GPT-4, 주치의 및 레지던트보다 훨씬 더 나은 성능을 발휘하여 78/80 사례에서 완벽한 R-IDEA 점수를 달성했음을 보여줍니다. R-IDEA 점수는 임상 추론 문서의 품질을 평가하는 데 사용되는 10점 척도입니다. 또한 연구진은 'Grey Matters' 관리 사례와 'Landmark' 진단 사례를 통해 o1-preview의 관리 및 진단 추론 능력을 평가했다. "Grey Matters" 사례에서 o1-preview는 GPT-4, GPT-4를 사용하는 의사, 기존 자원을 사용하는 의사보다 훨씬 더 높은 점수를 받았습니다. "Landmark" 사례에서 o1-preview는 GPT-4와 동등한 성능을 발휘하지만 GPT-4 또는 기존 리소스를 사용하는 의사보다 성능이 뛰어납니다.
그러나 이번 연구에서는 확률적 추론에서 o1-preview의 성능이 크게 개선되지 않은 채 이전 모델과 유사하다는 사실도 발견했습니다. 어떤 경우에는 모델이 질병 확률을 예측하는 데 있어 인간보다 열등했습니다. 연구원들은 또한 o1-preview의 한계는 장황한 경향이 있다는 점을 지적했는데, 이는 일부 실험에서 점수에 영향을 미쳤을 수 있습니다. 또한, 이 연구는 주로 모델 성능에 초점을 맞추고 인간-컴퓨터 상호 작용을 포함하지 않았으므로 향후 보다 효과적인 임상 의사 결정 지원 도구를 개발하기 위해 o1-preview가 인간-컴퓨터 상호 작용을 어떻게 향상시키는 지에 대한 추가 연구가 필요합니다.
그럼에도 불구하고, 본 연구는 o1-preview가 진단, 관리 등 복잡한 비판적 사고를 요구하는 작업에서 좋은 성능을 발휘한다는 것을 보여줍니다. 연구자들은 의료 분야의 진단 추론 벤치마크가 급속도로 포화되고 있어 보다 도전적이고 현실적인 평가 방법의 개발이 필요하다고 강조합니다. 그들은 실제 임상 환경에서 이러한 기술을 시험하고 임상의와 인공 지능 간의 협력적 혁신을 준비할 것을 요구합니다. 또한 AI 임상 의사결정 지원 시스템의 광범위한 구현을 모니터링하기 위해 강력한 감독 프레임워크를 구축해야 합니다.
논문 주소: https://www.arxiv.org/pdf/2412.10849
전체적으로 이번 연구는 인공지능이 의료 분야에 활용될 수 있는 강력한 증거를 제시하고 향후 연구 방향을 제시한다. o1-preview 모델의 뛰어난 성능은 흥미롭지만, 그 한계 역시 신중한 고려가 필요하고 임상 적용에서 안전성과 신뢰성을 보장해야 합니다. 앞으로는 인간과 기계의 협업이 의료 분야의 중요한 트렌드가 될 것입니다.