「Buddha」オプティマイザー C-AdamW: 1 行のコードで大規模モデルのトレーニングが 1.47 倍速くなります。
AIの世界では「強さは奇跡を起こす」が鉄則のようです。モデルが大きければ大きいほど、より多くのデータが得られ、より強力なコンピューティング能力が得られ、インテリジェンスの聖杯に近づくようです。しかし、この急速な発展の裏には、コストとエネルギー消費に対する大きな圧力もあります。 AI トレーニングをより効率的にするために、科学者はコーチのような、より強力なオプティマイザーを探してきました。
2024-12-17