중국 홍콩 대학교 (Shenzhen)의 연구팀과 Shenzhen Big Data Research Institute는 최근 Huatuogpt-O1이라는 의료 대규모 언어 모델 (LLM)을 시작했습니다. 중요한 단계. 의료 분야에서 복잡한 추론을 위해 설계된이 모델은 의료 진단 및 의사 결정의 정확성과 신뢰성을 향상시키는 것을 목표로합니다. 과거의 수학적 추론에 중점을 둔 LLM과 달리 Huatuogpt-O1은 특별한 의료 분야에 중점을두고 실제 작업에서 의사의 엄격한 사고 과정을 시뮬레이션하여 의료 AI 개발을위한 새로운 길을 열었습니다.
개발 과정에서 연구팀이 직면 한 주요 과제는 의료 분야의 추론 프로세스가 종종 명확한 단계가없고 검증하기가 어렵다는 것입니다. 이 문제를 해결하기 위해, 그들은 건강 검진 질문 은행의 독특하고 객관적인 정답으로 40,000 개의 어려운 질문을 선택하여 검증 가능한 의료 질문 세트를 구축하기 위해 개방형 질문으로 전환했습니다. 이러한 질문은 모델이 심층적 인 추론을 수행해야 할뿐만 아니라 옳고 그른 답변을 통해 추론 프로세스의 정확성을 확인하므로 모델 교육에 대한 신뢰할 수있는 데이터 지원을 제공합니다.
모델의 추론 능력을 향상시키기 위해 연구팀은 2 단계 교육 방법을 채택했습니다. 첫 번째 단계에서는 유효성 검사기 피드백 (올바른 또는 잘못)을 사용하여 정책 기반 검색 모델을 안내하여 복잡한 추론 궤적을 생성합니다. 이 모델은 먼저 사고 체인 (COT)을 초기화합니다. 유효성 검사기가 현재 COT가 잘못되었다고 생각하면 모델이 뒤로 트랙을 탐색하고 정답이 발견 될 때까지 전략을 확인하거나 올바르게합니다. 이러한 성공적인 추론 궤적은 LLM을 미세 조정하여 반복적 반사의 복잡한 추론 능력을 제공하는 데 사용됩니다. 두 번째 단계에서, 연구팀은 유효성 검사기가 제공 한 희소 보상을 사용하여 RL (Rencement Learning) 알고리즘을 통해 모델의 복잡한 추론 기능을 더욱 향상시켰다.
실험 결과는이 2 단계 훈련 방법이 중요한 결과를 얻었음을 보여줍니다. 40,000 개의 검증 가능한 질문 만 사용하여 80 억 파라미터가있는 모델은 의료 벤치 마크가 8.5 점 증가했습니다. 70 억 개의 매개 변수 모델은 여러 의료 벤치 마크에서 다른 오픈 소스 일반 및 의료 별 LLM을 능가합니다. 이러한 결과는 의학적 문제 해결에서 복잡한 추론의 효과를 확인할뿐만 아니라 모델 성능 향상에있어 강화 학습의 중요한 역할을 보여줍니다.
Huatuogpt-O1은 LLM의 의료 복잡한 추론 능력을 향상시키기 위해 처음으로 검증 가능한 의료 문제와 의료 검증자를 사용한다는 점에서 혁신적입니다. 이 접근법을 통해이 모델은 의사처럼 깊이 생각하고 답변을하기 전에 자기 검사와 수정을 수행 할 수 있습니다. 이것은 의료 분야에서 모델의 응용 잠재력을 향상시킬뿐만 아니라 다른 전문 분야의 추론 능력을 향상시키기위한 참조를 제공합니다.
모델의 신뢰성을 추가로 검증하기 위해 연구원들은 GPT-4O를 유효성 검사기로 사용했으며 결과는 정확도가 첫 번째 단계에서 96.5%, 두 번째 단계에서 94.5%에 도달 한 것으로 나타났습니다. 동시에, 그들은 LLM 기반 유효성 검사기가 전통적인 정확한 일치하는 방법보다 더 신뢰할 수 있음을 확인했습니다. 또한, 연구원들은이 방법을 중국 의료 분야에 적용했으며, 또한 다른 분야와 언어 환경에서 방법의 적응성을 보여 주면서 놀라운 결과를 얻었습니다.
전반적으로, huatuogpt-o1의 출현은 복잡한 추론에서 의료 AI의 상당한 진전을 나타냅니다. 의료 진단 및 의사 결정을위한보다 신뢰할 수있는 도구를 제공 할뿐만 아니라 다른 전문 분야에서 AI를 향후 AI를 적용하기위한 새로운 아이디어도 제공합니다. 모델은 여전히 연구 단계에 있으며 임상 실습에 직접 적용 할 수는 없지만, 큰 잠재력은 광범위한 관심을 끌었으며 향후 의료 분야에서 더 큰 역할을 할 것으로 예상됩니다.
종이 주소 : https://arxiv.org/pdf/2412.18925