Kürzlich gab es Berichte, dass Google das Claude-Modell von Anthropic verwendet, um sein künstliches Intelligenzprojekt Gemini zu verbessern. Interne Dokumente zeigen, dass Google-Auftragnehmer die Ergebnisse von Gemini und Claude systematisch vergleichen, um die Leistung von Gemini zu bewerten und zu verbessern. Dieser Ansatz hat die Aufmerksamkeit der Branche auf sich gezogen und beinhaltet auch Branchennormen für die Bewertung von KI-Modellen und ethische Fragen bei der technischen Zusammenarbeit zwischen verschiedenen Unternehmen. Dieser Artikel befasst sich mit den Einzelheiten dieses Vorfalls und analysiert seine möglichen Auswirkungen.
Kürzlich hat Googles Gemini-Projekt für künstliche Intelligenz seine Leistung verbessert, indem es seine Ausgabeergebnisse mit dem Claude-Modell von Anthropic vergleicht. Laut internen Mitteilungen von TechCrunch wertet der für die Verbesserung von Gemini verantwortliche Auftragnehmer die Antworten der beiden KI-Modelle systematisch aus.
In der KI-Branche erfolgt die Bewertung der Modellleistung normalerweise anhand von Branchen-Benchmarks, anstatt dass Auftragnehmer die Antworten verschiedener Modelle einzeln vergleichen. Der für Gemini verantwortliche Auftragnehmer muss die Ergebnisse des Modells anhand mehrerer Kriterien bewerten, darunter Authentizität und Detaillierungsgrad. Sie hatten jedes Mal bis zu 30 Minuten Zeit, um zu entscheiden, welche Antwort besser war, die der Zwillinge oder die von Claude.
In letzter Zeit haben diese Auftragnehmer festgestellt, dass auf den von ihnen genutzten internen Plattformen häufig Hinweise auf Claude auftauchen. In einem Teil dessen, was den Auftragnehmern gezeigt wurde, hieß es eindeutig: „Ich bin Claude, erstellt von Anthropic.“ In einem internen Chat stellten die Auftragnehmer auch fest, dass Claudes Antworten mehr auf Sicherheit ausgerichtet waren. Einige Auftragnehmer wiesen darauf hin, dass die Sicherheitseinstellungen von Claude die strengsten aller KI-Modelle seien. In manchen Fällen wird Claude sich dafür entscheiden, nicht auf Aufforderungen zu reagieren, die er für unsicher hält, wie zum Beispiel Rollenspiele mit anderen KI-Assistenten. In einem anderen Fall vermied Claude eine Aufforderung und Geminis Antwort wurde als „schwerer Sicherheitsverstoß“ eingestuft, weil sie „Nacktheit und Knechtschaft“ beinhaltete.
Es ist zu beachten, dass die kommerziellen Servicebedingungen von Anthropic es Kunden verbieten, Claude ohne Genehmigung zu nutzen, um „konkurrierende Produkte oder Dienstleistungen zu entwickeln“ oder „konkurrierende KI-Modelle zu trainieren“. Google ist einer der größten Investoren von Anthropic.
In einem Interview mit TechCrunch wollte Google DeepMind-Sprecherin Shira McNamara nicht verraten, ob Google von Anthropic die Genehmigung zur Nutzung von Claude erhalten hat. McNamara sagte, dass DeepMind die Modellausgaben zur Bewertung vergleicht, Gemini jedoch nicht auf dem Claude-Modell trainiert. „Natürlich werden wir, wie es in der Branche üblich ist, in einigen Fällen die Modellergebnisse vergleichen“, sagte sie. „Jeder Vorschlag, dass wir das Anthropic-Modell zum Trainieren von Gemini verwendet haben, ist jedoch ungenau.“
Letzte Woche berichtete TechCrunch außerdem exklusiv, dass Google-Auftragnehmer gebeten wurden, die KI-Antworten von Gemini in Bereichen außerhalb ihres Fachgebiets zu bewerten. Einige Auftragnehmer haben in der internen Kommunikation Bedenken geäußert, dass Gemini ungenaue Informationen zu sensiblen Themen wie der Gesundheitsversorgung generieren könnte.
Höhepunkte:
Gemini führt Vergleichstests mit Claude durch, um die Leistung seines eigenen KI-Modells zu verbessern.
Der Auftragnehmer ist für die Bewertung verantwortlich und die Antworten der beiden werden anhand mehrerer Kriterien verglichen, darunter Authentizität und Sicherheit.
Anthropic verbietet die unbefugte Nutzung von Claude für das Training von Wettbewerbsmodellen.
Die Verwendung des Claude-Modells durch Google zur Verbesserung des Verhaltens von Gemini hat Diskussionen über Methoden zur Bewertung von KI-Modellen, Ethik bei der Datennutzung und Wettbewerbsbeziehungen ausgelöst. Ob ähnliche unternehmensübergreifende KI-Modellvergleiche in Zukunft zur Norm in der Branche werden und wie ein solches Verhalten reguliert werden kann, verdient weitere Aufmerksamkeit. Dies wird tiefgreifende Auswirkungen auf die Entwicklung und Regulierung der KI-Branche haben.