Nous Research führt ein bahnbrechendes Experiment durch: Mithilfe global verteilter Maschinen wird ein 1,5 Milliarden Parameter umfassendes Large Language Model (LLM) vorab trainiert. Dieses Experiment untergräbt das traditionelle zentralisierte Trainingsmodell, vermeidet teure und energieverbrauchende Rechenzentren und überträgt den Trainingsprozess in Echtzeit über seine Website distro.nousresearch.com und demonstriert die Modellleistung und Hardware-Standortkarten. Dieser Schritt senkt nicht nur die Schulungskosten, sondern, was noch wichtiger ist, er soll die Eintrittsbarriere für große Sprachmodelle senken und es mehr kleinen Teams und Einzelpersonen ermöglichen, an der Forschung und Entwicklung generativer KI teilzunehmen.
Im sich schnell entwickelnden Bereich der generativen KI führt das Team von Nous Research ein einzigartiges Experiment durch: Sie verwenden auf der ganzen Welt verteilte Maschinen, um ein 1,5 Milliarden Parameter umfassendes Large Language Model (LLM) vorab zu trainieren, ein Prozess, der die traditionelle Zentralisierung vermeidet Entwicklung in teuren und stromhungrigen Rechenzentren oder Superclustern.
Nous Research überträgt den Vortrainingsprozess auch live auf seiner speziellen Website distro.nousresearch.com, zeigt die Leistung des Modells bei verschiedenen Bewertungsbenchmarks in Echtzeit und stellt eine Karte der am Training teilnehmenden Hardwarestandorte bereit, die mehrere Standorte in der Region abdeckt Vereinigte Staaten und Europa. Zum Zeitpunkt der Veröffentlichung dieses Artikels beträgt die verbleibende Zeit für das Vortraining etwa 57 Stunden (d. h. 2,3 Tage) und mehr als 75 % des Trainingsfortschritts sind abgeschlossen.
Das Vortraining ist der erste und grundlegendste Schritt beim LLM-Training, bei dem eine große Menge an Textdaten trainiert wird, um die statistischen Eigenschaften und die Struktur der Sprache zu erlernen. In dieser Phase erfasst das Modell die Muster von Sprache, Syntax und kontextuellen Beziehungen zwischen Wörtern durch die Verarbeitung umfangreicher Textdatensätze. Dieser Prozess verleiht dem Modell ein umfassendes Sprachverständnis, die Fähigkeit, kohärenten Text zu generieren und eine Vielzahl sprachbezogener Aufgaben auszuführen. Nach dem Vortraining muss das Modell auch für bestimmte Aufgaben oder Domänen feinabgestimmt werden.
Wenn dieser Plan erfolgreich ist, wird Nous Research beweisen, dass hochmodernes LLM immer noch ohne teure Supercluster oder Übertragungen mit geringer Latenz trainiert werden kann, was eine neue Ära des verteilten KI-Trainings einläutet. Dieser Open-Source-Trainingsansatz könnte die Leistungsdynamik der generativen KI verändern und kleinere Teams und nicht-unternehmensbezogene Akteure in diesem Bereich wettbewerbsfähiger machen.
Die von Nous verwendete neue Technologie heißt Nous DisTrO (Distributed Training Over-the-Internet) und soll den Kommunikationsbandbreitenbedarf zwischen GPUs während des Vortrainingsprozesses reduzieren. Laut der neuesten Veröffentlichung von Nous Research kann DisTrO die Kommunikationsanforderungen um das bis zu 10.000-fache reduzieren und ermöglicht so die Aufrechterhaltung wettbewerbsfähiger Konvergenzraten und Verlustkurven über langsamere und kostengünstigere Internetverbindungen.
Darüber hinaus besteht der zentrale Durchbruch von DisTrO darin, die zwischen GPUs ausgetauschte Datenmenge effektiv zu komprimieren, ohne die Leistung des Modells zu beeinträchtigen. Diese Technologie baut auf dem früheren De Coupled Momentum Optimization-Algorithmus (DeMo) auf, der ebenfalls darauf abzielt, die Kommunikationsanforderungen zwischen GPUs erheblich zu reduzieren und gleichzeitig die Trainingsleistung aufrechtzuerhalten.
In Bezug auf die Hardware wird der Pre-Training-Prozess von Nous Research von vielen namhaften Partnern wie Oracle, Lambda Labs, Northern Data Group, Crusoe Cloud und Andromeda Cluster unterstützt, die gemeinsam die erforderliche heterogene Hardware bereitstellen, um DisTrO in der tatsächlichen Verteilung vollständig zu testen Systeme. Fähigkeit in der Umwelt.
Blogeintrag: https://nousresearch.com/
Dieses Experiment von Nous Research brachte nicht nur einen Durchbruch in der Technologie, sondern, was noch wichtiger ist, es bot KI-Forschern auf der ganzen Welt eine neue Idee und Möglichkeit und läutete eine Änderung des KI-Trainingsmodells ein. In Zukunft werden möglicherweise weitere ähnliche verteilte Trainingsprojekte entstehen, die die Einstiegsschwelle für KI-Technologie weiter senken und die dynamische Entwicklung des KI-Bereichs fördern.