В последние годы повышение производительности моделей крупных языков (LLM) в основном полагалось на расширение масштаба, то есть увеличение объема данных и вычислительной мощности. Однако эта модель постепенно достигает узкого места. Отраслевые эксперты отметили, что трудно добиться значительного прогресса, просто полагаясь на «большую и лучшую» стратегию, и новые технологические прорывы неизбежны. В этой статье будут изучены проблемы, с которыми сталкиваются текущая область ИИ и как новые технологии «вычисления времени испытаний» могут принести новые направления для разработки ИИ.
Благодаря быстрому развитию генеративного ИИ традиционное восприятие отрасли «больше, чем лучше» меняется. Многие ведущие ученые ИИ недавно заявили, что метод улучшения производительности ИИ за счет простого увеличения объема данных и вычислительной мощности приближается к узкому месту, и появляются новые технологические прорывы.
Илья Саускевер, соучредитель Safe Superintelligence и Openai, недавно выразил свое мнение, что традиционные методы предварительного обучения вошли в период Performance Platerial. Это утверждение особенно привлекает внимание, потому что это был крупномасштабный метод предварительного обучения, который он защищал в первые дни, которые родили CHATGPT. Сегодня он сказал, что область ИИ перешла от «эпохи расширения масштаба» к «эпохе чудес и открытий».
В настоящее время крупномасштабные модели обучения сталкиваются с несколькими проблемами: затраты на обучение десятков миллионов долларов, риск отказа оборудования, вызванный сложностью системы, длинными циклами тестирования и ограничениями на ресурсы данных и энергоснабжение. Эти вопросы побудили исследователей изучить новые технологические пути.
Среди них технология «вычисления времени испытания» привлекло широкое внимание. Этот подход позволяет моделям ИИ генерировать и оценивать несколько решений в режиме реального времени во время использования, а не непосредственно дать один ответ. Исследователь Openai Ноам Браун провел аналогию изображения: позволить ИИ мыслить в течение 20 секунд в игровой карте, что сопоставимо с расширением масштаба модели и времени обучения в 100 000 раз.
В настоящее время несколько лучших лабораторий ИИ, включая Openai, Anpropic, Xai и DeepMind, активно разрабатывают свои соответствующие технологические версии. OpenAI применила эту технологию в своей последней модели «O1», и директор по продукту Кевин Вейл сказал, что благодаря этим инновационным подходам они увидели большое количество возможностей для повышения производительности модели.
Отраслевые эксперты считают, что эта трансформация технологических маршрутов может изменить конкурентную среду всей индустрии ИИ и принципиально изменяет структуру спроса компаний искусственного интеллекта для различных ресурсов. Это знаменует собой, что разработка ИИ выходит на новый этап, где он больше фокусируется на улучшении качества, а не на простое расширение.
Короче говоря, рост новых технологий, таких как «вычисления времени тестирования», знаменует собой новый этап в разработке ИИ, то есть уделять больше внимания улучшению производительности модели, а не просто расширения масштаба. Это изменит конкурентную ландшафт индустрии ИИ и продвинет технологии ИИ для развития в более утонченном и интеллектуальном направлении. В будущем прорывы в технологии ИИ будут больше зависеть от инноваций алгоритма и понимания сущности модели, а не простого накопления вычислительной мощности.