大規模モデルのトレーニングの効率とエネルギー消費の問題はますます顕著になってきており、従来の AdamW オプティマイザーは巨大なモデル規模に対応できなくなっています。この問題を解決するために、全員中国人のチームが C-AdamW (Crudent AdamW) と呼ばれる新しいオプティマイザーを提案しました。 C-AdamW の中心的なアイデアは、「行動する前に考える」というものであり、更新の方向を正確に特定することで、モデルは間違ったパスでのリソースの無駄を回避し、それによってトレーニング速度を向上させ、エネルギー消費を削減します。このオプティマイザーは、計算オーバーヘッドをほとんど追加することなく、Llama および MAE の事前トレーニングでトレーニング速度を最大 1.47 倍に向上させます。これは、既存のコードを簡単に変更するだけで実現できます。
AIの世界では「強さは奇跡を起こす」が鉄則のようです。モデルが大きければ大きいほど、より多くのデータが得られ、より強力なコンピューティング能力が得られ、インテリジェンスの聖杯に近づくようです。しかし、この急速な発展の裏には、コストとエネルギー消費に対する大きな圧力もあります。
AI トレーニングをより効率的にするために、科学者は、モデルのパラメーターを継続的に最適化し、最終的に最良の状態に到達するように導くコーチのような、より強力なオプティマイザーを探してきました。 AdamW は、Transformer の事前トレーニングのデフォルトのオプティマイザーとして、長年にわたり業界のベンチマークであり続けています。しかし、モデルのスケールがますます大きくなるにつれ、AdamW もその限界に対処できなくなってきたように見え始めました。
エネルギー消費を抑えながらトレーニング速度を上げる方法はないでしょうか? 心配しないでください。全員が中国人のチームが「秘密兵器」C-AdamW を持ってやって来ました!
C-AdamW のフルネームは Cautious AdamW、中国語名は「Cautious AdamW」です。とても「仏教的」だと思いませんか? そう、C-AdamW の核となる考え方は「行動する前に考える」です。
モデルのパラメーターが、いつも走り回りたがる元気な子供のグループに似ていると想像してください。 AdamW は熱心な教師のような存在で、生徒たちを正しい方向に導こうと努めています。しかし、子供たちは興奮しすぎて間違った方向に走り、時間とエネルギーを無駄にしてしまうことがあります。
このとき、C-AdamW は賢い長老のようなもので、更新の方向が正しいかどうかを正確に識別できる「炎の目」を備えています。方向が間違っている場合、C-AdamW はモデルがさらに間違った道を進むのを防ぐために断固として停止を要求します。
この「慎重な」戦略により、各更新で損失関数を効果的に削減できるため、モデルの収束が高速化されます。実験結果は、C-AdamW が Llama と MAE の事前トレーニングでトレーニング速度を 1.47 倍に向上させることを示しています。
さらに重要なのは、C-AdamW は追加の計算オーバーヘッドをほとんど必要とせず、既存のコードを 1 行変更するだけで実装できることです。これは、開発者が C-AdamW をさまざまなモデルのトレーニングに簡単に適用し、「スピードと情熱」を享受できることを意味します。
C-AdamW の「仏教的」側面は、アダムのハミルトニアン関数を保持し、リアプノフ解析に基づく収束保証を破壊しないことです。これは、C-AdamW が高速であるだけでなく、その安定性も保証されており、トレーニングのクラッシュなどの問題が発生しないことを意味します。
もちろん、「仏教徒」というのは「野心がない」という意味ではありません。研究チームは、C-AdamWのパフォーマンスをさらに向上させるために、より豊富なϕ関数を探索し、パラメータ空間ではなく特徴空間にマスクを適用し続けると述べた。
C-AdamW が深層学習の分野で新たな人気者となり、大規模モデルのトレーニングに革命的な変化をもたらすことは予見できます。
論文アドレス: https://arxiv.org/abs/2411.16085
GitHub:
https://github.com/kyleliang919/C-Optim
C-AdamW の登場は、大規模モデル学習の効率とエネルギー消費の問題を解決する新しい考え方を提供し、その高効率と低コストにより幅広い応用の可能性を秘めており、この分野での発展が期待されています。これからのディープラーニング。