Kürzlich äußerte Elon Musk in einer Live-Übertragung seine Besorgnis über die Erschöpfung der Trainingsdaten für künstliche Intelligenz. Er glaubt, dass die zum Training von KI-Modellen in der realen Welt verwendeten Daten kurz vor der Erschöpfung stehen. Diese Ansicht spiegelt die Ansichten anderer Experten im KI-Bereich wider und löst in der Branche Überlegungen zu zukünftigen KI-Entwicklungsmodellen aus. Musk glaubt, dass synthetische Daten eine Schlüssellösung für das Problem der Datenknappheit sein werden, und weist darauf hin, dass viele Technologieunternehmen begonnen haben, diesen Ansatz zu übernehmen, der tiefgreifende Auswirkungen auf die Art und Weise und die Kosten des Trainings von KI-Modellen haben wird.
In einem kürzlich live übertragenen Gespräch sagte Elon Musk, CEO von Tesla und SpaceX, dass die realen Daten, die für das Training von Modellen der künstlichen Intelligenz verfügbar sind, fast erschöpft seien. Die Person, die das Gespräch mit ihm führte, war Mark Payne, Vorstandsvorsitzender von Stagwell. Musk erwähnte: „Wir haben jetzt im Grunde die gesamte Ansammlung menschlichen Wissens verbraucht … die Daten, die für das Training der künstlichen Intelligenz verwendet werden. Dieses Phänomen ist im Grunde letztes Jahr aufgetreten.“
Musks Ansicht ähnelt der „Data Peak“-Theorie, die der ehemalige OpenAI-Chefwissenschaftler Ilya Sutskov auf der NeurIPS-Konferenz im Dezember letzten Jahres vorgeschlagen hat. Suzkofer sagte, dass die KI-Branche vor der Herausforderung eines Datenmangels stehe und der Mangel an ausreichenden Trainingsdaten in Zukunft zu Änderungen in der Art und Weise führen werde, wie KI-Modelle entwickelt werden.
Um dieses Problem zu lösen, glaubt Musk, dass synthetische Daten eine praktikable Alternative sein werden. Er weist darauf hin, dass die einzige Möglichkeit, Daten aus der realen Welt zu ergänzen, durch synthetische Daten bestehe, bei denen die KI ihre eigenen Trainingsdaten generiert. Musk sagte, dass KI die Leistung verbessern kann, indem sie sich selbst bewertet und kontinuierlich optimiert.
Derzeit haben viele Technologieunternehmen wie Microsoft, Meta, OpenAI und Anthropic damit begonnen, synthetische Daten zum Trainieren ihrer wichtigsten KI-Modelle zu verwenden. Gartner prognostiziert, dass bis 2024 60 % der in Projekten zur künstlichen Intelligenz und Datenanalyse verwendeten Daten synthetisch generiert werden.
Ein wesentlicher Vorteil synthetischer Daten besteht darin, dass die Entwicklungskosten erheblich gesenkt werden können. Allerdings weisen Musk und andere Experten auch darauf hin, dass synthetische Daten nicht ohne Risiken seien. Untersuchungen zeigen, dass synthetische Daten zu einer Verschlechterung der Modellleistung führen können und die Ergebnisse weniger innovativ sein und möglicherweise von Verzerrungen betroffen sein können. Wenn die synthetischen Daten selbst Einschränkungen aufweisen, wird auch die Ausgabe des endgültigen Modells von diesen Problemen betroffen sein.
Highlight:
Musk ist besorgt darüber, dass die für das Training von KI verfügbaren realen Daten fast erschöpft sind.
Synthetische Daten gelten als wichtige Lösung für die Zukunft und viele Technologieunternehmen setzen sie bereits ein.
Die Verwendung synthetischer Daten kann die Entwicklungskosten erheblich senken, birgt jedoch auch das Risiko einer Verschlechterung der Modellleistung.
Alles in allem steht das Problem des Mangels an Trainingsdaten für künstliche Intelligenz unmittelbar bevor. Obwohl synthetische Daten neue Möglichkeiten mit sich bringen, stellen sie auch Herausforderungen dar. Die zukünftige Richtung der KI-Entwicklung wird davon abhängen, wie man synthetische Daten effektiv nutzt und verbessert, ihre Kosten und Risiken in Einklang bringt und letztendlich weitere Fortschritte in der KI-Technologie erzielt.