Die Effizienz- und Energieverbrauchsprobleme beim Training großer Modelle werden immer wichtiger, und der herkömmliche AdamW-Optimierer ist nicht in der Lage, den riesigen Modellumfang zu bewältigen. Um dieses Problem zu lösen, schlug ein rein chinesisches Team einen neuen Optimierer namens C-AdamW (Crudent AdamW) vor. Die Kernidee von C-AdamW besteht darin, „zu denken, bevor man handelt“. Durch die genaue Identifizierung der Aktualisierungsrichtung kann das Modell vermeiden, Ressourcen auf dem falschen Weg zu verschwenden, wodurch die Trainingsgeschwindigkeit erhöht und der Energieverbrauch gesenkt wird. Dieser Optimierer verbessert die Trainingsgeschwindigkeit im Llama- und MAE-Vortraining um das bis zu 1,47-fache, fast ohne zusätzlichen Rechenaufwand und kann durch einfache Änderungen am vorhandenen Code erreicht werden.
In der Welt der KI scheint „Stärke kann Wunder bewirken“ die goldene Regel zu sein. Je größer das Modell, je mehr Daten und je stärker die Rechenleistung, desto näher scheint es dem Heiligen Gral der Intelligenz zu sein. Allerdings steht hinter dieser rasanten Entwicklung auch ein enormer Druck auf Kosten und Energieverbrauch.
Um das KI-Training effizienter zu gestalten, haben Wissenschaftler nach leistungsfähigeren Optimierern wie einem Coach gesucht, der die Parameter des Modells so steuert, dass es kontinuierlich optimiert und letztendlich den besten Zustand erreicht. AdamW ist als Standardoptimierer für das Transformer-Vortraining seit vielen Jahren der Branchenmaßstab. Allerdings schien AdamW angesichts des immer größeren Modellmaßstabs seinen Fähigkeiten nicht mehr gewachsen zu sein.
Gibt es nicht eine Möglichkeit, die Trainingsgeschwindigkeit zu erhöhen und gleichzeitig den Energieverbrauch zu senken? Keine Sorge, ein rein chinesisches Team ist hier mit seiner „Geheimwaffe“ C-AdamW!
Der vollständige Name von C-AdamW ist Cautious AdamW, und sein chinesischer Name ist „Cautious AdamW“. Klingt das nicht sehr „buddhistisch“?
Stellen Sie sich vor, dass die Parameter des Modells wie eine Gruppe energiegeladener Kinder sind, die immer herumlaufen wollen. AdamW ist wie ein engagierter Lehrer, der versucht, sie in die richtige Richtung zu führen. Aber manchmal sind Kinder zu aufgeregt und rennen in die falsche Richtung, was Zeit und Energie verschwendet.
Zu diesem Zeitpunkt ist C-AdamW wie ein weiser Ältester, der ein Paar „feuriger Augen“ trägt, die genau erkennen können, ob die Aktualisierungsrichtung korrekt ist. Wenn die Richtung falsch ist, ruft C-AdamW entschieden einen Stopp auf, um zu verhindern, dass das Modell weiter in die falsche Richtung fährt.
Diese „vorsichtige“ Strategie stellt sicher, dass jedes Update die Verlustfunktion effektiv reduzieren kann, wodurch die Konvergenz des Modells beschleunigt wird. Experimentelle Ergebnisse zeigen, dass C-AdamW die Trainingsgeschwindigkeit im Lama- und MAE-Vortraining auf das 1,47-fache erhöht!
Noch wichtiger ist, dass C-AdamW nahezu keinen zusätzlichen Rechenaufwand erfordert und mit einer einfachen einzeiligen Änderung des vorhandenen Codes implementiert werden kann. Dies bedeutet, dass Entwickler C-AdamW problemlos auf verschiedene Modelltrainings anwenden und „Geschwindigkeit und Leidenschaft“ genießen können!
Der „buddhistische“ Aspekt von C-AdamW besteht darin, dass es Adams Hamilton-Funktion beibehält und die Konvergenzgarantie gemäß der Lyapunov-Analyse nicht zerstört. Das bedeutet, dass C-AdamW nicht nur schneller ist, sondern auch seine Stabilität gewährleistet ist und es zu keinen Problemen wie Trainingsabstürzen kommt.
„Buddhistisch“ bedeutet natürlich nicht „nicht unternehmungslustig“. Das Forschungsteam erklärte, dass es weiterhin umfangreichere ϕ-Funktionen erforschen und Masken im Merkmalsraum statt im Parameterraum anwenden werde, um die Leistung von C-AdamW weiter zu verbessern.
Es ist absehbar, dass C-AdamW zum neuen Favoriten im Bereich Deep Learning wird und das Training großer Modelle revolutionär verändert!
Papieradresse: https://arxiv.org/abs/2411.16085
GitHub:
https://github.com/kyleliang919/C-Optim
Das Aufkommen von C-AdamW bietet eine neue Denkweise zur Lösung der Effizienz- und Energieverbrauchsprobleme beim Training großer Modelle. Aufgrund seiner hohen Effizienz und geringen Kosten bietet es breite Anwendungsaussichten, und es lohnt sich, auf seine zukünftige Entwicklung zu blicken Bereich des Deep Learning.