Der Herausgeber von Downcodes berichtet: Das neu veröffentlichte Chatbot-System von OpenAI lag in den letzten Bewertungen ganz oben auf der Liste. Es schneidet in Bezug auf Gesamtleistung, Sicherheit und technische Fähigkeiten gut ab, insbesondere bei MINT-Aufgaben. Es ist jedoch zu beachten, dass die Anzahl der an dieser Evaluierung beteiligten Bewertungen relativ gering war, was einen gewissen Einfluss auf die Endergebnisse haben kann und mit Vorsicht interpretiert werden muss.
Das neue System von OpenAI erzielte in den letzten Bewertungen hervorragende Ergebnisse und belegte den Spitzenplatz im Chatbot-Ranking. Aufgrund der geringen Anzahl an Bewertungen kann es jedoch zu einer Verzerrung der Bewertungsergebnisse kommen.
Der Übersicht der Pressemitteilung zufolge schnitten die neuen Systeme in allen Bewertungskategorien gut ab, darunter Gesamtleistung, Sicherheit und technische Fähigkeiten. Eines der Systeme für MINT-Aufgaben belegte kurzzeitig den zweiten Platz und übernahm zusammen mit der Anfang September veröffentlichten GPT-4o-Version die Führung im Technologiebereich.
Chatbot Arena, eine Plattform zum Vergleich verschiedener Systeme, bewertet neue Systeme anhand von über 6.000 Community-Bewertungen. Die Ergebnisse zeigten, dass diese neuen Systeme bei mathematischen Aufgaben, komplexen Eingabeaufforderungen und der Programmierung gute Leistungen erbrachten.
Allerdings erhalten diese neuen Systeme mit jeweils weniger als 3.000 Bewertungen deutlich schlechtere Bewertungen als andere ausgereifte Systeme wie GPT-4o oder Claude3.5 von Anthropic. Eine derart kleine Stichprobengröße kann die Beurteilung verzerren und die Aussagekraft der Ergebnisse einschränken.
Das neue System von OpenAI zeichnet sich durch Mathematik und Codierung aus, die die Hauptziele seines Designs waren. Indem sie länger „denken“, bevor sie antworten, zielen diese Systeme darauf ab, neue Maßstäbe für das KI-Denken zu setzen. Allerdings übertreffen diese Systeme andere nicht in allen Bereichen. Viele Aufgaben erfordern kein komplexes logisches Denken und manchmal reicht eine schnelle Reaktion anderer Systeme aus.
Das Diagramm von Lmsys zur Stärke mathematischer Modelle zeigt deutlich, dass diese neuen Systeme über 1360 Punkte erzielten und damit deutlich über der Leistung anderer Systeme lagen.
Trotz der begrenzten Stichprobengröße verdient die hervorragende Leistung des neuen Systems von OpenAI immer noch Aufmerksamkeit. Seine Durchbrüche in den Bereichen Mathematik und Codierung geben eine neue Richtung für die Entwicklung der KI-Schlussfolgerungstechnologie vor. Mit der Ansammlung weiterer Daten und der kontinuierlichen Verbesserung der Modelle wird erwartet, dass das neue System von OpenAI in Zukunft seine leistungsstarken Fähigkeiten in mehr Bereichen unter Beweis stellen wird. Der Herausgeber von Downcodes wird seiner Entwicklung weiterhin Aufmerksamkeit schenken.