Kürzlich sorgte die gemeinnützige Organisation Epoch AI für Kontroversen, weil ihr KI-Mathematik-Benchmark-Projekt FrontierMath Fördermittel von OpenAI erhielt, diese jedoch nicht rechtzeitig offenlegte. Bei diesem Vorfall geht es um Themen wie die Transparenz der Offenlegung von Informationen, Interessenkonflikte und die Objektivität des Benchmarkings und hat bei Wissenschaftlern und der Öffentlichkeit große Besorgnis erregt. In diesem Artikel werden die Einzelheiten dieses Vorfalls im Detail analysiert und seine möglichen Auswirkungen untersucht.
Kürzlich hat Epoch AI, eine gemeinnützige Organisation, die mathematische KI-Benchmarks entwickelt, für Kontroversen gesorgt, weil sie die von OpenAI erhaltenen Mittel nicht umgehend offengelegt hat. Die Organisation gab am 20. Dezember bekannt, dass OpenAI ein Projekt namens FrontierMath finanziert hat, ein Benchmark, der die mathematischen Fähigkeiten von KI testen soll. OpenAI nutzte den Benchmark auch, um sein kommendes Flaggschiff-KI-Produkt o3 vorzustellen. Ein Auftragnehmer für Epoch AI, der im Forum LessWrong den Spitznamen „Meemi“ verwendet, sagte, dass viele Mitwirkende des FrontierMath-Projekts nichts von der Finanzierung von OpenAI wussten, bis sie veröffentlicht wurde. Er erwähnte: „In der Kommunikation darüber mangelt es an Transparenz. Meiner Meinung nach sollte Epoch AI die Finanzierungsquelle für OpenAI im Voraus offenlegen, und Auftragnehmer sollten wissen, dass ihre Arbeit zur Fähigkeitsbewertung verwendet werden kann, bevor sie sich dafür entscheiden.“ Nehmen Sie an der Benchmark-Entwicklung teil.“ In den sozialen Medien äußerten einige Benutzer Bedenken, dass eine solche Geheimhaltung dem Ruf von FrontierMath als objektiver Benchmark schaden könnte. Neben der Finanzierung von FrontierMath verfügt OpenAI auch über Einblick in viele Probleme und Lösungen im Benchmark, die Epoch AI nicht vor dem 20. Dezember offengelegt hat. Carina Hong, Doktorandin der Mathematik an der Stanford University, wies auf sozialen Plattformen darauf hin, dass OpenAI aufgrund seiner Zusammenarbeit mit Epoch AI bevorzugten Zugang zu FrontierMath erhielt, was einige Mitwirkende unzufrieden machte. „Sechs Mathematiker, die wesentliche Beiträge zum FrontierMath-Benchmark geleistet haben, bestätigten, dass sie nicht wussten, dass OpenAI ausschließlich dieser Benchmark besitzen würde und dass andere keinen Zugriff darauf haben würden, nachdem sie dies erfahren hatten, sagten die meisten Mitwirkenden, wenn sie dies tun würden.“ hatten bereits zuvor davon gewusst. Mit dieser Vereinbarung dürfen sie nicht an dem Projekt teilnehmen. Tamay Besiroglu, stellvertretender Direktor von Epoch AI, sagte, dass die Transparenz der Organisation zwar unzureichend gewesen sei, er jedoch der Ansicht sei, dass die Integrität von FrontierMath nicht beeinträchtigt worden sei. Er gab zu, dass Epoch AI Kommunikationsfehler gemacht und es versäumt hatte, die Mitwirkenden im Voraus über die Teilnahme von OpenAI zu informieren. Besiroglu sagte, dass OpenAI zwar Zugriff auf FrontierMath habe, es aber eine „mündliche Vereinbarung“ zwischen den beiden Parteien gebe, dass OpenAI die Aufgaben des Benchmarks nicht zum Training seiner KI nutzen werde. Epoch AI unterhält außerdem einen „separaten Holdout“, um eine unabhängige Überprüfung der FrontierMath-Benchmark-Ergebnisse sicherzustellen. Der Chefmathematiker von Epoch AI, Ellot Glazer, erwähnte auf Reddit, dass Epoch AI die FrontierMath o3-Ergebnisse von OpenAI nicht unabhängig überprüft habe. Er hält die Bewertung von OpenAI für glaubwürdig, kann sie jedoch erst bestätigen, wenn eine unabhängige Überprüfung abgeschlossen ist.
Der Epoch AI-Vorfall machte deutlich, wie wichtig Transparenz und Informationsoffenlegung in der wissenschaftlichen Forschungskooperation sind. Ähnliche KI-Benchmark-Projekte benötigen in Zukunft klarere Finanzierungsvereinbarungen und effektivere Kommunikationsmechanismen, um ihre Objektivität und Unparteilichkeit sicherzustellen und das Vertrauen und den Ruf der akademischen Gemeinschaft zu wahren. Nur so kann die gesunde Entwicklung des KI-Bereichs gefördert werden.