Das GPT-5-Projekt von OpenAI (Codename Orion) hat nur langsame Fortschritte gemacht, was in der Branche weit verbreitete Besorgnis über die zukünftige Entwicklungsrichtung großer Sprachmodelle geweckt hat. Berichten zufolge bietet GPT-5 zwar eine bessere Leistung als bestehende Modelle, seine Verbesserung reicht jedoch nicht aus, um die enormen Forschungs- und Entwicklungskosten zu decken. Noch wichtiger ist, dass der Mangel an globalen Daten zum größten Engpass geworden ist, der GPT-5 daran hindert, sein Intelligenzniveau weiter zu verbessern. In diesem Artikel werden die technischen Herausforderungen, die internen Schwierigkeiten, mit denen das GPT-5-Projekt konfrontiert ist, und die daraus resultierenden Überlegungen zu den Engpässen der KI-Entwicklung eingehend untersucht.
Das hochkarätige GPT-5-Projekt (Codename Orion) befindet sich seit mehr als 18 Monaten in der Entwicklung, muss jedoch noch veröffentlicht werden. Laut dem neuesten Bericht des Wall Street Journal haben mit der Angelegenheit vertraute Personen enthüllt, dass die Leistung von Orion zwar besser ist als das bestehende Modell von OpenAI, ihre Verbesserung jedoch nicht ausreicht, um weiterhin hohe Investitionen zu rechtfertigen. Noch besorgniserregender ist, dass der Mangel an globalen Daten möglicherweise zum größten Hindernis für GPT-5 auf dem Weg zu einem höheren Intelligenzniveau wird.
Es wird gesagt, dass GPT-5 mindestens zwei Schulungen durchlaufen hat und jede Schulung neue Probleme aufgedeckt hat und die Erwartungen der Forscher nicht erfüllt hat. Jede Trainingsrunde dauert mehrere Monate und allein die Rechenkosten belaufen sich auf bis zu 500 Millionen US-Dollar. Es ist unklar, ob und wann das Projekt erfolgreich sein wird.
Der Weg zur Ausbildung ist voller Schwierigkeiten: Es treten Datenengpässe auf
Seit der Veröffentlichung von GPT-4 im März 2023 hat OpenAI mit der Entwicklung von GPT-5 begonnen. Typischerweise nehmen die Fähigkeiten eines KI-Modells mit zunehmender Datenmenge zu, die es aufnimmt. Der Trainingsprozess erfordert riesige Datenmengen, dauert Monate und ist auf eine große Anzahl teurer Computerchips angewiesen. Altman, CEO von OpenAI, gab einmal bekannt, dass allein die Kosten für das Training von GPT-4 100 Millionen US-Dollar übersteigen und dass die Kosten für das Training von KI-Modellen in Zukunft voraussichtlich über 1 Milliarde US-Dollar betragen werden.
Um Risiken zu reduzieren, führt OpenAI in der Regel zunächst einen kleinen Testlauf durch, um die Machbarkeit des Modells zu überprüfen. Die Entwicklung von GPT-5 war jedoch von Anfang an mit Herausforderungen verbunden. Mitte 2023 startete OpenAI ein experimentelles Training namens „Arrakis“, um das neue Design von GPT-5 zu testen. Der Trainingsfortschritt ist jedoch langsam und kostspielig, und experimentelle Ergebnisse deuten darauf hin, dass die Entwicklung von GPT-5 komplexer und schwieriger ist als ursprünglich erwartet.
Daher beschloss das Forschungsteam von OpenAI, eine Reihe technischer Anpassungen an Orion vorzunehmen und stellte fest, dass die vorhandenen öffentlichen Internetdaten die Anforderungen des Modells nicht mehr erfüllen konnten. Um die Leistung von GPT-5 zu verbessern, benötigen sie dringend mehr Typen und qualitativ hochwertigere Daten.
„Daten von Grund auf neu erstellen“: Umgang mit Datenengpässen
Um das Problem unzureichender Daten zu lösen, beschloss OpenAI, „Daten von Grund auf neu zu erstellen“. Sie stellen Softwareentwickler und Mathematiker ein, um neuen Softwarecode zu schreiben oder mathematische Probleme zu lösen, und lassen Orion aus diesen Aufgaben lernen. OpenAI ermöglicht es diesen Experten auch, ihre Arbeitsprozesse zu erklären und so menschliche Intelligenz in maschinell lernbares Wissen umzuwandeln.
Viele Forscher glauben, dass Code als Sprache der Software großen Modellen helfen kann, Probleme zu lösen, die sie zuvor nicht gesehen haben. Jonathan Siddharth, CEO von Turing, sagte: „Wir übertragen menschliche Intelligenz vom menschlichen Gehirn auf das Maschinenhirn.“
OpenAI arbeitet sogar mit Experten aus Bereichen wie der theoretischen Physik zusammen, damit diese erklären können, wie schwierige Probleme in ihrem Fachgebiet gelöst werden können. Dieser Ansatz „Daten von Grund auf neu erstellen“ ist jedoch nicht sehr effizient. Die Trainingsdaten von GPT-4 belaufen sich auf etwa 13 Billionen Token. Selbst wenn 1.000 Menschen täglich 5.000 Wörter schreiben, wird es mehrere Monate dauern, 1 Milliarde Token zu produzieren.
Um das Training zu beschleunigen, versucht OpenAI auch, „synthetische Daten“ zu nutzen, die von KI generiert werden. Studien haben jedoch gezeigt, dass die Rückkopplungsschleife, in der KI-generierte Daten für das KI-Training wiederverwendet werden, manchmal dazu führt, dass das Modell Fehler macht oder bedeutungslose Antworten generiert. In diesem Zusammenhang glauben OpenAI-Wissenschaftler, dass diese Probleme durch die Verwendung der von o1 generierten Daten vermieden werden können.
Interne und externe Probleme: OpenAI steht vor mehreren Herausforderungen
OpenAI ist nicht nur mit technischen Herausforderungen konfrontiert, sondern auch mit internen Unruhen und der Abwerbung durch Konkurrenten. Gleichzeitig nimmt auch der doppelte Druck seitens Technologie und Finanzen zu. Jede Schulungssitzung kostet bis zu 500 Millionen US-Dollar, und die endgültigen Schulungskosten werden wahrscheinlich über 1 Milliarde US-Dollar betragen. Gleichzeitig bringen auch Konkurrenten wie Anthropic und Google Modelle der neuen Generation auf den Markt, um mit OpenAI gleichzuziehen.
Die Abwanderung von Fachkräften und interne Meinungsverschiedenheiten verlangsamten die Entwicklung zusätzlich. Letztes Jahr entließ der Vorstand von OpenAI Altman plötzlich, was einige Forscher dazu veranlasste, die Zukunft des Unternehmens in Frage zu stellen. Während Altman schnell wieder zum CEO ernannt wurde und mit der Reform der Führungsstruktur des Unternehmens begann, wurden von Anfang an mehr als 20 wichtige Führungskräfte, Forscher und langjährige Führungskräfte ersetzt, darunter Mitbegründer und Chefwissenschaftler Ilya Sutskever und Technologieleiterin Mira Murati In diesem Jahr scheiden Mitarbeiter nacheinander aus.
Als der Fortschritt des Orion-Projekts ins Stocken geriet, begann OpenAI mit der Entwicklung anderer Projekte und Anwendungen, darunter eine vereinfachte Version von GPT-4 und das KI-Videogenerierungsprodukt Sora. Dies hat jedoch zu einem harten Wettbewerb zwischen verschiedenen Teams um begrenzte Rechenressourcen geführt, insbesondere zwischen dem Entwicklungsteam für neue Produkte und dem Orion-Forschungsteam.
Engpass bei der KI-Entwicklung? Die Branche steht vor tiefgreifenden Überlegungen
Das Dilemma von GPT-5 könnte ein größeres Problem der Branche offenbaren: Nähert sich die KI der „Engpassphase“ der Entwicklung? Brancheninsider weisen darauf hin, dass Strategien, die auf riesigen Datenmengen und größeren Modellen basieren, allmählich wirkungslos werden. Der ehemalige OpenAI-Wissenschaftler Suzko Ver sagte einmal: „Wir haben nur ein Internet“, das Datenwachstum verlangsamt sich und der „fossile Brennstoff“, der den Sprung in der KI vorantreibt, versiegt allmählich.
Altman hat nie einen klaren Zeitplan für die Zukunft von GPT-5 genannt. Wir wissen immer noch nicht genau, wann oder ob OpenAI ein Modell auf den Markt bringen wird, das den Namen GPT-5 verdient. Dieses Dilemma um GPT-5 hat auch dazu geführt, dass die Menschen intensiv über die zukünftige Entwicklungsrichtung der KI nachdenken.
Die Stagnation des GPT-5-Projekts wirkt sich nicht nur auf die Entwicklung von OpenAI selbst aus, sondern schlägt auch Alarm für die gesamte KI-Branche, was darauf hindeutet, dass der Weg, sich ausschließlich auf Datenskala und Modellgröße zu verlassen, möglicherweise zu einem Ende gekommen ist und in der Zukunft liegt Die KI-Entwicklung muss neue Ansätze und technologische Durchbrüche erforschen.