Das neueste Modell von OpenAI, o3, erzielte beeindruckende Ergebnisse beim ARC-AGI-Benchmark und erreichte unter Standard-Rechenbedingungen bis zu 75,7 % und in der High-Computing-Version 87,5 %. Dieses Ergebnis übertrifft alle bisherigen Modelle bei weitem und hat im Bereich der KI-Forschung große Aufmerksamkeit erregt. Der ARC-AGI-Benchmark soll die Fähigkeit von KI-Systemen bewerten, sich an neue Aufgaben anzupassen und flüssige Intelligenz zu demonstrieren. Er ist äußerst schwierig und gilt als einer der anspruchsvollsten Standards bei der KI-Bewertung. Die bahnbrechende Leistung von o3 bringt zweifellos neue Richtungen und Möglichkeiten für die KI-Entwicklung, bedeutet aber nicht, dass AGI geknackt wurde.
Das neueste von OpenAI veröffentlichte Modell o3 erzielte im ARC-AGI-Benchmark erstaunliche Ergebnisse und erzielte unter Standard-Rechenbedingungen einen Wert von bis zu 75,7 %, während die High-Computing-Version 87,5 % erreichte. Dieser Erfolg überraschte die KI-Forschungsgemeinschaft, beweist jedoch immer noch nicht, dass die Generalität der künstlichen Intelligenz (AGI) geknackt wurde.
Der ARC-AGI-Benchmark basiert auf dem Abstract Reasoning Corpus, einem Test zur Bewertung der Fähigkeit eines KI-Systems, sich an neue Aufgaben anzupassen und flüssige Intelligenz zu demonstrieren. ARC besteht aus einer Reihe visueller Rätsel, die das Verständnis grundlegender Konzepte wie Objekte, Grenzen und räumliche Beziehungen erfordern. Menschen können diese Rätsel leicht lösen, aktuelle KI-Systeme stehen diesbezüglich jedoch vor großen Herausforderungen. ARC gilt als eines der anspruchsvollsten Kriterien bei der KI-Bewertung.
o3 schneidet deutlich besser ab als die Vorgängermodelle. Die höchste Punktzahl von o1-preview und o1 model auf ARC-AGI beträgt 32 %. Zuvor nutzte der Forscher Jeremy Berman eine Hybridmethode, um Claude3.5Sonnet mit einem genetischen Algorithmus zu kombinieren und erreichte einen Wert von 53 %, und die Entstehung von o3 wurde als Sprung in den KI-Fähigkeiten angesehen.
François Chollet, der Gründer von ARC, lobte o3 für die qualitative Veränderung der KI-Fähigkeiten und glaubte, dass das Unternehmen ein beispielloses Niveau in seiner Anpassungsfähigkeit an neue Aufgaben erreicht habe.
Obwohl o3 eine gute Leistung erbringt, ist der Rechenaufwand auch recht hoch. Bei einer niedrigen Rechenkonfiguration kostet das Lösen jedes Rätsels zwischen 17 und 20 US-Dollar und verbraucht 33 Millionen Token. Bei einer hohen Rechenkonfiguration erhöht sich der Rechenaufwand auf das 172-fache, wenn Milliarden von Token verwendet werden. Da jedoch die Kosten für die Inferenz allmählich sinken, können diese Gemeinkosten angemessener werden.
Derzeit gibt es keine Details darüber, wie o3 diesen Durchbruch geschafft hat. Einige Wissenschaftler spekulieren, dass o3 eine Programmsynthesemethode verwenden könnte, die Kettendenken und Suchmechanismen kombiniert. Andere Wissenschaftler glauben, dass o3 einfach aus der weiteren Ausweitung des Reinforcement Learning resultieren könnte.
Obwohl o3 bei ARC-AGI erhebliche Fortschritte gemacht hat, betonte Chollet, dass ARC-AGI kein AGI-Test sei und o3 noch nicht die AGI-Standards erreicht habe. Bei einigen einfachen Aufgaben schneidet es immer noch schlecht ab und weist grundlegende Unterschiede zur menschlichen Intelligenz auf. Darüber hinaus ist o3 während des Argumentationsprozesses immer noch auf externe Überprüfung angewiesen, was weit von der unabhängigen Lernfähigkeit von AGI entfernt ist.
Das Chollet-Team entwickelt neue herausfordernde Benchmarks, um die Fähigkeiten von o3 zu testen, und geht davon aus, dass der Wert unter 30 % sinken wird. Er weist darauf hin, dass echte AGI dazu führen wird, dass es nahezu unmöglich wird, Aufgaben zu erstellen, die für Menschen einfach, für die KI jedoch schwierig sind.
Highlight:
o3 erreichte im ARC-AGI-Benchmark-Test eine hohe Punktzahl von 75,7 % und übertraf damit die Vorgängermodelle.
Die Kosten für die Lösung jedes Rätsels in o3 betragen bis zu 17 bis 20 US-Dollar, was einen enormen Rechenaufwand darstellt.
Obwohl o3 gut abschneidet, betonen Experten, dass es noch nicht den AGI-Standard erreicht hat.
Alles in allem zeigt die hervorragende Leistung des o3-Modells im ARC-AGI-Test den erheblichen Fortschritt der künstlichen Intelligenz bei den Fähigkeiten zum abstrakten Denken, aber dies ist nur ein kleiner Schritt auf dem Weg zu echtem AGI. Zukünftige Forschung muss noch weiter forschen, um die hohen Rechenkosten und Kernprobleme von AGI zu lösen.