의료 AI 평가에 관한 논문에서 예기치 않게 여러 상위 대형 언어 모델의 매개변수 크기가 공개되어 업계에서 광범위한 우려를 불러일으켰습니다. Microsoft가 발표한 이 문서는 MEDEC 의료 분야 벤치마크 테스트를 핵심으로 삼아 OpenAI의 GPT-4 시리즈 및 Anthropic의 Claude 3.5 Sonnet과 같은 모델을 포함하여 OpenAI, Anthropic 및 기타 회사의 모델 매개변수를 추정합니다. 논문에 언급된 매개변수 척도와 공개 정보에는 차이가 있습니다. 예를 들어, GPT-4의 매개변수 척도는 NVIDIA가 이전에 발표한 데이터와 매우 다릅니다. 이로 인해 업계에서는 모델 아키텍처 및 기술에 대한 열띤 논의가 촉발되었습니다. 그리고 다시 한번 AI 모델에 대한 사람들의 우려를 불러일으켰습니다.
논문에 따르면 OpenAI의 o1-preview 모델은 약 300B, GPT-4o는 약 200B, GPT-4o-mini는 8B만 갖고 있으며 Claude3.5Sonnet의 매개변수 크기는 약 175B입니다. MEDEC 테스트 결과 Claude3.5Sonnet은 70.16점으로 오류 탐지 성능이 우수한 것으로 나타났습니다. Google Gemini의 매개변수는 논문에서 언급되지 않습니다. 이는 Gemini가 NVIDIA GPU 대신 TPU를 사용하기 때문에 토큰 생성 속도를 정확하게 예측하기 어렵기 때문일 수 있습니다. 논문에 담긴 '유출된' 매개변수 정보와 모델 성능 평가 결과는 업계가 대형 모델 기술 경로, 사업 경쟁, 향후 개발 방향에 대해 깊이 생각해 볼 수 있는 귀중한 참고 자료를 제공한다.
Microsoft가 논문에서 모델 매개변수 정보를 "유출"한 것은 이번이 처음이 아닙니다. 마이크로소프트는 지난해 10월 GPT-3.5-Turbo의 20B 매개변수 크기를 논문에 공개했지만 이후 업데이트 버전에서 이 정보를 삭제했다. 이처럼 반복되는 '유출'로 인해 업계 관계자 사이에서는 구체적인 의도가 있는 것인지에 대한 추측이 나오고 있다.
본 논문의 주요 목적이 MEDEC이라는 의료 분야의 벤치마크를 소개하는 것임을 주목할 필요가 있다. 연구팀은 미국 3개 병원의 임상 기록 488개를 분석하고 의료 문서 오류를 식별하고 수정하는 주요 모델의 능력을 평가했습니다. 테스트 결과에 따르면 Claude3.5Sonnet은 70.16점으로 오류 탐지에서 다른 모델보다 앞서는 것으로 나타났습니다.
업계에서는 이들 데이터의 진위 여부를 두고 뜨거운 논의가 이뤄지고 있다. 어떤 사람들은 Claude3.5Sonnet이 더 적은 수의 매개변수로 뛰어난 성능을 달성한다면 이것이 Anthropic의 기술적 강점을 부각시킬 것이라고 믿습니다. 일부 분석가들은 모델 가격 추론을 통해 일부 매개변수 추정이 합리적이라고 믿습니다.
특히 주목할만한 점은 논문에서 주류 모델의 매개변수만 추정했을 뿐, Google Gemini의 구체적인 매개변수에 대해서는 언급하지 않았다는 점입니다. 일부 분석가들은 이는 Gemini가 NVIDIA GPU 대신 TPU를 사용하는 것과 관련이 있을 수 있어 토큰 생성 속도를 정확하게 추정하기 어렵게 한다고 믿고 있습니다.
OpenAI가 오픈 소스에 대한 헌신을 점진적으로 희석함에 따라 모델 매개변수와 같은 핵심 정보가 업계에서 지속적인 관심의 초점이 될 수 있습니다. 이 예상치 못한 유출은 다시 한번 AI 모델 아키텍처, 기술 경로 및 비즈니스 경쟁에 대한 사람들의 심층적인 사고를 촉발시켰습니다.
참고자료:
https://arxiv.org/pdf/2412.19260
https://x.com/Yuchenj_UW/status/1874507299303379428
https://www.reddit.com/r/LocalLLaMA/comments/1f1vpyt/why_gpt_4o_mini_is_probously_around_8b_active/
전체적으로 본 논문에서 '유출된' 모델 매개변수 정보가 논문 연구의 주요 내용은 아니지만, 이를 통해 업계에서는 대규모 모델 매개변수의 규모, 기술 경로의 선택, 인공지능 분야의 미래 발전을 위한 기반을 제공하는 상업적 경쟁 환경을 제공합니다.