Kürzlich enthüllten die Medien, dass Nvidia heimlich in großem Umfang YouTube-Videodaten abgegriffen hat, um sein KI-Modell zu trainieren, was weitreichende rechtliche und ethische Kontroversen auslöste. Dieser Schritt betrifft viele der KI-Produkte von Nvidia, darunter das Deep-Learning-Modell Cosmos, autonome Fahralgorithmen usw. Die Datenerfassungsmethode ist verborgen und ohne Genehmigung des Videoerstellers und von Google. Interne NVIDIA-E-Mails zeigen, dass leitende Angestellte diesem Verhalten optimistisch gegenüberstehen und davon ausgehen, dass es „vollständig genehmigt“ wurde. Diese Aussage steht im Widerspruch zur offiziellen Erklärung von Google, in der eindeutig festgestellt wurde, dass dieses Verhalten gegen die Nutzungsbedingungen der Plattform verstößt. Die riesigen Datenmengen, die verdeckten Vorgehensweisen und die völlig unterschiedlichen Reaktionen aller Beteiligten haben diesen Vorfall zu Besorgnis erregend gemacht.
Kürzlich wurde eine geheime Operation des Technologieriesen Nvidia bei der Datenerfassung aufgedeckt. Berichten von Media 404 zufolge hat Nvidia sein künstliches Intelligenzmodell trainiert, indem es riesige Mengen an YouTube-Videodaten abgegriffen hat, was aus rechtlicher und ethischer Sicht ziemlich zweideutig ist.
In dem Bericht wurde darauf hingewiesen, dass Nvidia diese Videodaten verwendet, um seine zahlreichen KI-Modelle zu trainieren, darunter Deep-Learning-Modelle von Cosmos, Algorithmen für autonomes Fahren, digitale menschliche KI-Avatarprodukte und das 3D-Weltbautool Omniverse.
Es wird davon ausgegangen, dass Nvidia viele verdeckte Maßnahmen ergriffen hat, um sein Verhalten beim Daten-Scraping zu vertuschen, indem es mehrere „virtuelle Maschinen“ verwendet und ständig IP-Adressen ändert, um nicht von YouTube entdeckt zu werden. Darüber hinaus hat der Videoersteller und YouTube-Mutterkonzern Google keine Genehmigung für diese Daten-Scraping-Aktivität erteilt. Die interne Kommunikation von Nvidia zeigt, dass ihre Strategie ziemlich mutig ist. Ein Manager erwähnte in einer E-Mail, dass sie eine „Videodatenfabrik“ aufbauen, die jeden Tag visuelle Erlebnisdaten generieren kann, die einem Menschenleben entsprechen.
Als Mitarbeiter Bedenken hinsichtlich der Rechtmäßigkeit und Ethik einer solchen Datenerfassung äußerten, zeigte sich das Management interessanterweise ziemlich zuversichtlich und glaubte, dass es sich hierbei um eine hochrangige Entscheidung handelte. „Wir haben eine pauschale Genehmigung aller Daten“, heißt es in der E-Mail.
Noch besorgniserregender ist, dass Nvidia seit einiger Zeit wusste, dass es den HD-VG-130M-Datensatz mit 130 Millionen YouTube-Videos verwendet, der ursprünglich für akademische Forschung erstellt wurde. Viele Experten äußerten große Unzufriedenheit darüber und argumentierten, dass die Kommerzialisierung von Forschungsdaten unangemessen sei.
Als zentraler Akteur in der KI-Branche nimmt NVIDIA eine herausragende Stellung auf dem Markt ein und seine Grafikprozessoren (GPUs) sind die Basis für viele rechenintensive KI-Systeme. Unternehmen, die mit Nvidia zusammenarbeiten, wie OpenAI, Microsoft und Google, haben Bedenken über dieses Verhalten geäußert. Ein Google-Sprecher erwähnte, dass die Nutzung von YouTube-Daten ohne Genehmigung einen klaren Verstoß gegen die Nutzungsbedingungen der Plattform darstellt.
Als Reaktion auf die Medien behauptete Nvidia, dass ihre KI-Trainingspraktiken „vollständig mit dem Geist und Buchstaben des Urheberrechts vereinbar“ seien. Doch was denken die Ersteller, die diese Inhalte nutzen, über diese Aussage?
Highlight:
Nvidia hat heimlich eine große Menge an YouTube-Videodaten für das KI-Training ausgewertet, was Bedenken hinsichtlich rechtlicher und ethischer Fragen aufkommen lässt.
? Interne E-Mails zeigen, dass die Nvidia-Führungskräfte glaubten, dass dieses Verhalten voll und ganz gebilligt wurde, und dass ihre Haltung ziemlich mutig war.
? Google wies darauf hin, dass die Nutzung von YouTube-Daten ohne Genehmigung eindeutig gegen die Nutzungsbedingungen der Plattform verstoße, und die Reaktion von Nvidia löste Kontroversen aus.
Das Data-Scraping-Verhalten von NVIDIA löste weitreichende Diskussionen über die Ethik und Gesetze der KI-Datenerfassung aus, und die Reaktion des Unternehmens konnte die Kontroverse nicht unterdrücken. Dieser Vorfall verdeutlicht die Herausforderungen, mit denen große Technologieunternehmen bei der Nutzung von Daten konfrontiert sind, und die dringende Notwendigkeit, relevante Gesetze und Vorschriften zu verbessern. In Zukunft könnten ähnliche Vorfälle weiterhin Aufmerksamkeit erregen und die Branche dazu veranlassen, die Selbstdisziplin zu stärken und das Datennutzungsverhalten zu standardisieren.