В документе по оценке медицинского ИИ неожиданно были раскрыты размеры параметров нескольких ведущих моделей больших языков, что вызвало широкую обеспокоенность в отрасли. В этом документе, выпущенном Microsoft, в качестве основы используется медицинский полевой тест MEDEC и оцениваются параметры моделей OpenAI, Anthropic и других компаний, включая такие модели, как серия GPT-4 от OpenAI и Claude 3.5 Sonnet от Anthropic. Существуют различия между шкалами параметров, упомянутыми в документе, и общедоступной информацией. Например, шкала параметров GPT-4 сильно отличается от данных, ранее объявленных NVIDIA. Это вызвало в отрасли бурную дискуссию по поводу архитектуры и технических характеристик модели. силы и еще раз вызвало беспокойство людей по поводу моделей ИИ. Мысли о конфиденциальности параметров.
Согласно документу, модель OpenAI o1-preview имеет около 300B параметров, GPT-4o — около 200B, а GPT-4o-mini — только 8B, размер параметра Claude3.5Sonnet составляет около 175B; Результаты тестов MEDEC показывают, что Claude3.5Sonnet хорошо справляется с обнаружением ошибок, набрав 70,16 баллов. Параметры Google Gemini в документе не упоминаются. Возможно, это связано с тем, что Gemini использует TPU вместо графического процессора NVIDIA, что затрудняет точную оценку скорости генерации токенов. «Утечка» информации о параметрах в документе, а также результаты оценки производительности модели предоставляют отрасли ценную информацию, позволяющую глубоко задуматься о технологическом маршруте больших моделей, деловой конкуренции и будущих направлениях развития.
Это не первый случай, когда Microsoft «сливает» информацию о параметрах модели в документы. В октябре прошлого года Microsoft раскрыла размер параметра GPT-3.5-Turbo 20B в статье, но позже удалила эту информацию в обновленной версии. Эта неоднократная «утечка» привела к предположениям среди инсайдеров отрасли о том, есть ли у нее какие-то конкретные намерения.
Стоит отметить, что основная цель данной статьи — представить эталон в области медицины под названием MEDEC. Исследовательская группа проанализировала 488 клинических записей из трех больниц США и оценила способность основных моделей выявлять и исправлять ошибки в медицинской документации. Результаты тестов показывают, что Claude3.5Sonnet опережает другие модели по обнаружению ошибок с результатом 70,16.
В отрасли идет острая дискуссия о достоверности этих данных. Некоторые полагают, что если Claude3.5Sonnet действительно добьется превосходной производительности при меньшем количестве параметров, это подчеркнет техническую мощь Anthropic. Некоторые аналитики также считают, что некоторые оценки параметров являются разумными благодаря выводам о ценообразовании модели.
Что особенно примечательно, так это то, что в статье оцениваются только параметры основных моделей, но не упоминаются конкретные параметры Google Gemini. Некоторые аналитики полагают, что это может быть связано с использованием Gemini TPU вместо NVIDIA GPU, что затрудняет точную оценку скорости генерации токенов.
Поскольку OpenAI постепенно ослабляет свою приверженность открытому исходному коду, основная информация, такая как параметры модели, может продолжать оставаться в центре внимания отрасли. Эта неожиданная утечка еще раз заставила людей задуматься об архитектуре моделей искусственного интеллекта, технических маршрутах и деловой конкуренции.
Ссылки:
https://arxiv.org/pdf/2412.19260
https://x.com/Yuchenj_UW/status/1874507299303379428
https://www.reddit.com/r/LocalLLaMA/comments/1f1vpyt/why_gpt_4o_mini_is_probally_around_8b_active/
В целом, хотя информация о параметрах модели, «утекшая» в эту статью, не является основным содержанием исследования, она вызвала в отрасли глубокие дискуссии о масштабах больших параметров модели, выборе технических маршрутов и среда коммерческой конкуренции, обеспечивающая основу для будущего развития области искусственного интеллекта. Обеспечивает новые направления мышления.