Kürzlich reichten die New York Times und die Daily News eine Urheberrechtsklage gegen OpenAI ein und beschuldigten das Unternehmen, seine Werke ohne Genehmigung zum Trainieren von KI-Modellen zu verwenden. Der Fall konzentrierte sich auf die Tatsache, dass OpenAI-Ingenieure versehentlich Beweise gelöscht hatten, die für den Fall von entscheidender Bedeutung sein könnten, was große Besorgnis erregte. Dieser Schritt wirkte sich nicht nur auf den Prozess des Falles aus, sondern zeigte auch die potenziellen Risiken und ethischen Probleme der Datenverarbeitung beim Training großer Sprachmodelle auf. In diesem Artikel werden die Einzelheiten dieses Vorfalls im Detail analysiert und seine Auswirkungen auf die Entwicklung der Branche der künstlichen Intelligenz untersucht.
Kürzlich haben die New York Times und die Daily News gemeinsam OpenAI verklagt und ihm vorgeworfen, ihre Werke unbefugt zum Trainieren von Modellen der künstlichen Intelligenz genutzt zu haben.
Die Entwicklung des Falls hat öffentliche Aufmerksamkeit erregt, weil das Rechtsteam des Klägers in den neuesten Gerichtsdokumenten darauf hingewiesen hat, dass OpenAI-Ingenieure bei der Verarbeitung relevanter Daten versehentlich Beweise gelöscht haben, die einen wichtigen Einfluss auf den Fall haben könnten.
Es wird berichtet, dass OpenAI in diesem Herbst zugestimmt hat, zwei virtuelle Maschinen bereitzustellen, damit das Rechtsteam des Klägers seine Trainingsdaten nach urheberrechtlich geschützten Inhalten durchsuchen kann. Eine virtuelle Maschine ist ein virtueller Computer, der innerhalb eines Computerbetriebssystems ausgeführt wird und normalerweise zum Testen, zur Datensicherung und zum Ausführen von Anwendungen verwendet wird. Rechtsberater der New York Times und der Daily News sowie deren beauftragte Experten haben seit dem 1. November mehr als 150 Stunden an den Trainingsdaten von OpenAI gearbeitet.
Am 14. November löschten OpenAI-Ingenieure jedoch versehentlich die auf einer der virtuellen Maschinen gespeicherten Suchdaten. Laut dem Schreiben der Anwälte der Kläger versuchte OpenAI zwar, die verlorenen Daten wiederherzustellen, was in den meisten Fällen erfolgreich war, die wiederhergestellten Daten konnten jedoch aufgrund der Ordnerstruktur und der Dateinamen nicht dazu verwendet werden, festzustellen, um welche Nachrichten es sich bei den Artikeln der Kläger handelte „nicht wiederherstellbar.“ Wie es zum Trainieren von OpenAI-Modellen verwendet wird.
Der Rechtsbeistand der Kläger wies darauf hin, dass sie nicht glauben, dass die Entfernung beabsichtigt war, sondern dass der Vorfall zeige, dass OpenAI „in der besten Position ist, seine eigenen Datensätze nach potenziell rechtsverletzenden Inhalten zu durchsuchen“. Das bedeutet, dass OpenAI seine eigenen Tools nutzen sollte, um relevante rechtsverletzende Inhalte effizienter zu finden.
OpenAI hat in diesem und ähnlichen Fällen behauptet, dass die Verwendung öffentlich verfügbarer Daten für das Modelltraining eine faire Verwendung sei. Dies bedeutet, dass OpenAI davon ausgeht, für die Nutzung dieser Beispiele keine Lizenzgebühren zahlen zu müssen, obwohl es mit diesen Modellen Geld verdient.
Es ist erwähnenswert, dass OpenAI Lizenzvereinbarungen mit einer zunehmenden Zahl neuer Medien unterzeichnet hat, darunter Associated Press, Business Insider, Financial Times usw., OpenAI hat jedoch die spezifischen Bedingungen dieser Vereinbarungen nicht offengelegt. Es wird berichtet, dass der Content-Partner Dotdash eine jährliche Vergütung von mindestens 16 Millionen US-Dollar erhält.
Trotz des Rechtsstreits hat OpenAI die Verwendung bestimmter urheberrechtlich geschützter Werke für das KI-Training ohne Genehmigung weder bestätigt noch dementiert.
Highlight:
OpenAI wurde vorgeworfen, in einer Urheberrechtsklage fälschlicherweise potenziell wichtige Beweise gelöscht zu haben.
Die Anwälte der Kläger gaben an, dass sie viel Zeit und Arbeitskraft in die Wiederherstellung der Daten investiert hätten.
OpenAI behauptet, dass die Nutzung öffentlich verfügbarer Daten zum Trainieren seiner Modelle eine faire Nutzung sei.
Dieser Vorfall verdeutlicht die Komplexität der Quellen- und Urheberrechtsprobleme von Trainingsdaten für Modelle künstlicher Intelligenz und wirft auch Bedenken hinsichtlich der Datensicherheit und des Beweismanagements auf. Ob das Verhalten von OpenAI einen Verstoß darstellt und wie die Grenzen der „fairen Nutzung“ definiert werden können, werden wichtige Themen sein, die in Zukunft weiterer Diskussion bedürfen. Der endgültige Ausgang dieses Falles wird tiefgreifende Auswirkungen auf die Entwicklung der Branche der künstlichen Intelligenz haben.