Der Herausgeber von Downcodes erfuhr, dass die neuesten Forschungsergebnisse von OpenAI zeigen, dass die Genauigkeit der derzeit fortschrittlichsten Sprachmodelle bei der Beantwortung sachlicher Fragen trotz der rasanten Weiterentwicklung der KI-Technologie immer noch besorgniserregend ist. In dieser Studie wurde der SimpleQA-Benchmark von OpenAI verwendet. Die Testergebnisse zeigten, dass die Genauigkeit selbst der besten Modelle von OpenAI weitaus geringer war als erwartet, was eine erneute Überprüfung der Wissenserwerbsfähigkeiten von KI-Modellen auslöste.
Für die Studie wurde der SimpleQA-Benchmark-Test von OpenAI verwendet. Dieser Test umfasst 4.326 Fragen, die mehrere Bereiche wie Wissenschaft, Politik und Kunst abdecken.
Nach Überprüfung durch zwei unabhängige Gutachter zeigen die Ergebnisse, dass die Genauigkeit des besten Modells o1-preview von OpenAI nur 42,7 % beträgt, während GPT-4o mit nur 38,2 % etwas niedriger ist. Beim kleineren GPT-4o-mini beträgt die Genauigkeit sogar nur 8,6 %. Im Vergleich dazu schnitt das Claude-Modell von Anthropic sogar noch schlechter ab, wobei das Claude-3,5-Sonett eine Genauigkeit von nur 28,9 % erreichte.
Der Schlüssel zu dieser Forschung liegt in der Gestaltung des Tests, nicht nur um die Leistung von KI zu testen, sondern auch um alle auf die Grenzen von KI-Modellen beim Wissenserwerb aufmerksam zu machen. Die Forscher betonen, dass Benutzer diese Modelle bei der Verwendung als Informationsverarbeitungswerkzeuge und nicht als vollständig abhängige Wissensquellen betrachten sollten. Um genauere Antworten zu erhalten, ist es am besten, der KI verlässliche Daten zur Verfügung zu stellen, anstatt sich ausschließlich auf ihr eingebautes Wissen zu verlassen.
Es ist erwähnenswert, dass KI-Modelle ihre Fähigkeiten oft zu optimistisch einschätzen. Die Forscher fanden heraus, dass diese Modelle, wenn sie gebeten wurden, das Vertrauen in ihre Antworten einzuschätzen, oft überhöhte Genauigkeitswerte lieferten. Bei Tests, bei denen dieselben Fragen wiederholt beantwortet wurden, war die tatsächliche Erfolgsquote immer noch niedriger als ihre selbst eingeschätzte Genauigkeit, auch wenn die Modelle mehrmals dieselbe Antwort gaben. Dies steht im Einklang mit der Kritik von außen, dass Sprachmodelle oft lächerliche Antworten liefern, aber selbstbewusst wirken.
Forscher glauben, dass das aktuelle KI-System offensichtliche Lücken in der sachlichen Genauigkeit aufweist und dringend verbessert werden muss. Sie warfen auch die offene Frage auf, ob die Leistung einer KI bei der Beantwortung kurzer Sachfragen ihre Leistung bei der Verarbeitung längerer, komplexerer Antworten vorhersagt. Um die Entwicklung zuverlässigerer Sprachmodelle zu unterstützen, hat OpenAI die SimpleQA-Benchmark-Daten öffentlich auf Github veröffentlicht.
Diese Forschung warnt vor der Zuverlässigkeit von KI-Modellen und zeigt die Richtung für zukünftige Verbesserungen auf. Wir müssen KI-Tools sorgfältiger einsetzen und freuen uns auf größere Durchbrüche bei der sachlichen Genauigkeit von KI-Modellen in der Zukunft. Die öffentlich veröffentlichten SimpleQA-Benchmark-Daten von OpenAI werden dazu beitragen, die Entwicklung des gesamten KI-Bereichs voranzutreiben.