一篇关于医疗AI评测的论文意外地披露了多个顶级大语言模型的参数规模,引发业界广泛关注。微软发布的这篇论文,以MEDEC医疗领域基准测试为核心,对OpenAI、Anthropic等公司的模型参数进行了估计,其中包括OpenAI的GPT-4系列和Anthropic的Claude 3.5 Sonnet等模型。论文中提及的参数规模与公开信息存在差异,例如GPT-4的参数规模与英伟达此前公布的数据大相径庭,这引发了业内对模型架构和技术实力的热烈讨论,并再次引发了人们对AI模型参数保密性的思考。
根据论文披露,OpenAI的o1-preview模型约有300B参数,GPT-4o约200B,GPT-4o-mini仅有8B;Claude3.5Sonnet的参数规模约为175B。MEDEC测试结果显示,Claude3.5Sonnet在错误检测方面表现出色,得分高达70.16。论文中未提及谷歌Gemini的参数,这可能是因为Gemini使用TPU而非英伟达GPU,难以通过token生成速度进行准确估算。 论文中“泄露”的参数信息,以及对模型性能的评测结果,都为业界对大模型技术路线、商业竞争以及未来发展方向的深入思考提供了宝贵的参考。
这已经不是微软第一次在论文中"泄露"模型参数信息。去年10月,微软曾在一篇论文中披露GPT-3.5-Turbo的20B参数规模,随后又在更新版本中删除了这一信息。这种反复出现的"泄露"让业内人士对其是否存在某种特定意图产生猜测。
值得注意的是,这篇论文的主要目的是介绍一个名为MEDEC的医疗领域基准测试。研究团队分析了来自三家美国医院的488份临床笔记,评估了各大模型在识别和纠正医疗文档错误方面的能力。测试结果显示,Claude3.5Sonnet在错误检测方面以70.16的得分领先其他模型。
业内对这些数据的真实性展开了热烈讨论。有观点认为,如果Claude3.5Sonnet确实以更小的参数量达到优秀性能,这将凸显Anthropic的技术实力。也有分析人士通过模型定价反推,认为部分参数估计具有合理性。
特别引人注意的是,论文仅对主流模型参数进行估计,却独独没有提及谷歌Gemini的具体参数。有分析认为,这可能与Gemini使用TPU而非英伟达GPU有关,导致难以通过token生成速度进行准确估算。
随着OpenAI逐渐淡化开源承诺,模型参数等核心信息可能会继续成为业界持续关注的焦点。这场意外泄露再次引发了人们对AI模型架构、技术路线以及商业竞争的深入思考。
参考资料:
https://arxiv.org/pdf/2412.19260
https://x.com/Yuchenj_UW/status/1874507299303379428
https://www.reddit.com/r/LocalLLaMA/comments/1f1vpyt/why_gpt_4o_mini_is_probably_around_8b_active/
总而言之,此次论文“泄露”的模型参数信息,虽然并非论文研究的主要内容,但却引发了业界对于大模型参数规模、技术路线选择以及商业竞争格局的深入探讨,为人工智能领域未来的发展提供了新的思考方向。