«Буддийский» оптимизатор C-AdamW: Одна строка кода ускоряет обучение больших моделей в 1,47 раза!

Автор：Eve Cole Время обновления：2024-11-28 10:00:02

Обучение больших моделей требует много времени и труда. Как повысить эффективность и снизить энергопотребление, стало ключевым вопросом в области искусственного интеллекта. AdamW, являющийся оптимизатором по умолчанию для предварительного обучения Transformer, постепенно становится неспособным справляться со все более крупными моделями. Редактор Downcodes познакомит вас с новым оптимизатором, разработанным китайской командой — C-AdamW. Благодаря своей «осторожной» стратегии он значительно снижает потребление энергии, обеспечивая при этом скорость и стабильность обучения, а также приносит большие преимущества при обучении больших моделей. , чтобы совершить революцию в переменах.

В мире искусственного интеллекта упорный труд для достижения чудес кажется золотым правилом. Чем больше модель, чем больше данных и чем сильнее вычислительная мощность, тем ближе она к Святому Граалю интеллекта. Однако за этим быстрым развитием стоит также огромное давление на стоимость и потребление энергии.

Чтобы сделать обучение ИИ более эффективным, ученые искали более мощных оптимизаторов, таких как тренер, которые будут управлять параметрами модели для непрерывной оптимизации и в конечном итоге достижения наилучшего состояния. AdamW, оптимизатор по умолчанию для предварительного обучения Transformer, уже много лет является эталоном в отрасли. Однако перед лицом все более крупного масштаба модели AdamW также начал казаться неспособным справиться со своими возможностями.

Нет ли способа увеличить скорость тренировки и снизить энергопотребление? Не волнуйтесь, здесь присутствует полностью китайская команда со своим секретным оружием C-AdamW!

Полное имя C-AdamW — Осторожный АдамW, а его китайское название — Осторожный АдамW. Разве это не звучит очень по-буддистски? Да, основная идея C-AdamW — дважды подумать, прежде чем действовать.

Представьте, что параметры модели подобны группе энергичных детей, которые все время хотят побегать. AdamW подобен преданному своему делу учителю, пытающемуся направить их в правильном направлении. Но иногда дети слишком волнуются и бегут не в том направлении, тратя время и силы.

В это время C-AdamW подобен мудрому старейшине с проницательными глазами, способному точно определить правильность направления обновления. Если направление неверное, C-AdamW решительно остановит движение, чтобы модель не пошла дальше по неверному пути.

Эта осторожная стратегия гарантирует, что каждое обновление может эффективно уменьшить функцию потерь, тем самым ускоряя сходимость модели. Результаты экспериментов показывают, что C-AdamW увеличивает скорость тренировки в 1,47 раза при предварительной тренировке Llama и MAE!

Что еще более важно, C-AdamW практически не требует дополнительных вычислительных затрат и может быть реализован с помощью простой однострочной модификации существующего кода. Это означает, что разработчики могут легко применять C-AdamW для обучения различных моделей и наслаждаться скоростью и азартом!

Самое замечательное в C-AdamW то, что он сохраняет функцию Гамильтона Адама и не разрушает гарантию сходимости при анализе Ляпунова. Это означает, что C-AdamW не только быстрее, но и его стабильность гарантирована, и не будет никаких проблем, таких как сбои при обучении.

Конечно, быть буддистом не означает, что вы не предприимчивы. Исследовательская группа заявила, что они продолжат изучать более широкие функции φ и применять маски в пространстве признаков, а не в пространстве параметров, чтобы еще больше повысить производительность C-AdamW.

Вполне предсказуемо, что C-AdamW станет новым фаворитом в области глубокого обучения, внеся революционные изменения в обучение больших моделей!

Адрес статьи: https://arxiv.org/abs/2411.16085.

Гитхаб:

https://github.com/kyleliang919/C-Optim

Появление C-AdamW дает новые идеи для решения проблем эффективности обучения больших моделей и энергопотребления. Его высокая эффективность, стабильность и простые в использовании характеристики делают его очень перспективным для применения. Ожидается, что в будущем C-AdamW сможет применяться в большем количестве областей и будет способствовать постоянному развитию технологий искусственного интеллекта. Редакция Downcodes и дальше будет уделять внимание актуальному технологическому прогрессу, так что следите за обновлениями!