Die Harvard University hat enorme Geldsummen ausgegeben, um fast eine Million gemeinfreier Buchdatensätze zu veröffentlichen, mit dem Ziel, einen fairen Wettbewerb im Bereich der künstlichen Intelligenz zu fördern und die Entwicklung der KI-Technologie voranzutreiben. Das Projekt wird von der Harvard University Institutional Data Initiative geleitet und von Microsoft und OpenAI finanziert. Der Datensatz enthält umfangreiche Inhalte von klassischer Literatur bis hin zu professioneller akademischer Literatur und stellt wertvolle Ressourcen für kleine KI-Unternehmen und einzelne Forscher bereit und schließt die Lücke zwischen der Datenlücke bei großen Technologieunternehmen. Dieser Schritt liefert auch neue Ideen für die Quelle von Trainingsdaten im Bereich der künstlichen Intelligenz und versucht, einen nachhaltigen Entwicklungspfad im Kontext immer komplexer werdender Urheberrechtsfragen zu erkunden.
Die Harvard University kündigte kürzlich Pläne zur Veröffentlichung eines Datensatzes an, der aus fast einer Million gemeinfreier Bücher besteht, die jeder zum Trainieren großer Sprachmodelle und anderer Werkzeuge der künstlichen Intelligenz nutzen kann.
Dieses Projekt wird von der neu gegründeten Institutional Data Initiative (Institutional Data Initiative) der Harvard University geleitet und mit Mitteln von Microsoft und OpenAI abgeschlossen. Der Datensatz umfasst gescannte Bücher aus dem Google Books-Projekt, die klassische Werke wie Shakespeare, Dickens und Dante abdecken, sowie einige obskure tschechische Mathematiklehrbücher und walisische Wörterbücher.
Hinweis zur Bildquelle: Das Bild wird von AI und dem Bildautorisierungsdienstleister Midjourney generiert
Der als „Books3-Datensatz“ bezeichnete Datensatz ist fünfmal größer und zielt darauf ab, gleiche Wettbewerbsbedingungen im Bereich der künstlichen Intelligenz zu schaffen und der Öffentlichkeit, insbesondere kleinen KI-Unternehmen und einzelnen Forschern, Zugang zu Dingen zu verschaffen, die normalerweise nur großen Technologieunternehmen zur Verfügung stehen . Nur Unternehmen können qualitativ hochwertige Daten sammeln. Greg Leppert sagte, das Projekt sei sorgfältig ausgewählt und der Inhalt sorgfältig kuratiert worden.
Microsoft-Vizepräsident Burton Davis betonte, dass Microsofts Ziel bei der Unterstützung des Projekts darin bestehe, einen „zugänglichen Datenpool“ für Startups zu schaffen und sicherzustellen, dass diese Daten im „öffentlichen Interesse“ verwaltet werden. Tom Rubin, Direktor für geistiges Eigentum bei OpenAI, sagte ebenfalls, das Unternehmen freue sich, das Projekt zu unterstützen.
Da die Klagen über die Verwendung urheberrechtlich geschützter Daten in der KI immer mehr zunehmen, werden Projekte wie der gemeinfreie Datensatz von Harvard zu einer wichtigen Quelle für KI-Trainingsdaten. Obwohl unklar ist, wie der Datensatz konkret veröffentlicht wird, wird erwartet, dass er Unternehmen eine große Menge hochwertiger Daten zur Verfügung stellt und gleichzeitig Urheberrechtsprobleme vermeidet.
Harvards Institutional Data Initiative geht über Bücher hinaus und arbeitet mit der Boston Public Library zusammen, um Millionen gemeinfreier Zeitungsartikel zu scannen, und plant ähnliche Kooperationen mit weiteren Partnern für die Zukunft. Darüber hinaus arbeitet Harvard mit Google zusammen, um zu diskutieren, wie eine öffentliche Verbreitung des Datensatzes erreicht werden kann.
Dieses Projekt schließt sich mehreren ähnlichen Initiativen an, die ebenfalls versprechen, hochwertige KI-Schulungsmaterialien ohne Urheberrechtsrisiken bereitzustellen. Da in Zukunft mehr gemeinfreie Datensätze verfügbar werden, werden KI-Unternehmen mehr Möglichkeiten haben, ihre Modelle zu trainieren und gleichzeitig urheberrechtliche rechtliche Risiken zu reduzieren.
Dieser Schritt der Harvard University stellt nicht nur hochwertige Datenressourcen für die Forschung im Bereich der künstlichen Intelligenz bereit, sondern liefert auch neue Ideen zur Lösung des Urheberrechtsproblems von KI-Trainingsdatenquellen. Es wird erwartet, dass er eine gesunde Entwicklung und einen fairen Wettbewerb im Bereich der künstlichen Intelligenz fördert in der Zukunft. Die erfolgreiche Umsetzung dieses Projekts wird tiefgreifende Auswirkungen auf die gesamte Branche haben.