Der Herausgeber von Downcodes hilft Ihnen, die „alternativen Verwendungsmöglichkeiten“ wissenschaftlicher Arbeiten zu verstehen! In den letzten Jahren hat die Quelle von Trainingsdaten für KI-Modelle große Aufmerksamkeit erregt. Viele akademische Verlage „verpacken und verkaufen“ Forschungsarbeiten an Technologieunternehmen, um die Fähigkeiten von KI-Systemen zu verbessern. Dies beinhaltete große Transaktionen und löste in der akademischen Gemeinschaft hitzige Diskussionen über geistige Eigentumsrechte, Urheberrechte und die Ethik der KI-Entwicklung aus. Dieser Artikel befasst sich mit den Mechanismen, Auswirkungen und zukünftigen Trends hinter diesem Phänomen.
Haben Sie jemals darüber nachgedacht, dass Ihre Forschungsarbeit möglicherweise zum Training von KI verwendet wurde? Ja, viele akademische Verlage „verpacken und verkaufen“ ihre Ergebnisse an Technologieunternehmen, die KI-Modelle entwickeln. Es besteht kein Zweifel, dass dieser Schritt in der wissenschaftlichen Forschungsgemeinschaft für großes Aufsehen gesorgt hat, insbesondere wenn die Autoren nichts davon wissen. Experten sagen: Wenn Ihr Modell nicht bereits von einem großen Sprachmodell (LLM) verwendet wird, besteht eine gute Chance, dass dies in naher Zukunft der Fall sein wird.
Kürzlich hat der britische Wissenschaftsverlag Taylor & Francis einen 10-Millionen-Dollar-Vertrag mit Microsoft abgeschlossen, der es dem Technologieriesen ermöglicht, seine Forschungsdaten zur Verbesserung der Fähigkeiten seiner KI-Systeme zu nutzen. Bereits im Juni einigte sich auch der amerikanische Verlag Wiley mit einem Unternehmen und erhielt 23 Millionen US-Dollar Umsatz als Gegenleistung dafür, dass seine Inhalte zum Trainieren generativer KI-Modelle genutzt werden.
Wenn ein Artikel online verfügbar ist, sei es im Open Access oder hinter einer Paywall, ist es wahrscheinlich, dass er in ein großes Sprachmodell eingespeist wurde. „Sobald ein Papier zum Trainieren eines Modells verwendet wird, kann es nach dem Training des Modells nicht mehr entfernt werden“, sagte Lucy Lu Wang, KI-Forscherin an der University of Washington.
Für das Training großer Sprachmodelle sind große Datenmengen erforderlich, die häufig aus dem Internet stammen. Durch die Analyse von Milliarden von Sprachschnipseln sind diese Modelle in der Lage, flüssige Texte zu lernen und zu generieren. Wissenschaftliche Arbeiten sind aufgrund ihrer hohen Informationsdichte und langen Länge zu einem sehr wertvollen „Schatz“ für LLM-Entwickler geworden. Solche Daten helfen der KI, bessere Schlussfolgerungen in der Wissenschaft zu ziehen.
In letzter Zeit nimmt der Trend zum Kauf hochwertiger Datensätze zu und viele bekannte Medien und Plattformen haben begonnen, mit KI-Entwicklern zusammenzuarbeiten, um ihre Inhalte zu verkaufen. Wenn man bedenkt, dass viele Arbeiten ohne eine Vereinbarung möglicherweise stillschweigend eingestellt werden, wird diese Art der Zusammenarbeit in Zukunft nur noch häufiger vorkommen.
Einige KI-Entwickler, wie beispielsweise das Large-Scale Artificial Intelligence Network, entscheiden sich dafür, ihre Datensätze offen zu halten, aber viele Unternehmen, die generative KI entwickeln, halten ihre Trainingsdaten geheim. Experten glauben, dass Open Source nicht verfügbar ist Plattformen wie arXiv und Datenbanken wie PubMed sind zweifellos beliebte Ziele für das Crawlen von KI-Unternehmen.
Es ist nicht einfach zu beweisen, ob eine bestimmte Arbeit im Trainingssatz eines bestimmten LLM enthalten ist. Forscher können ungewöhnliche Sätze aus dem Papier verwenden, um zu testen, ob die Modellausgabe mit dem Originaltext übereinstimmt. Dies beweist jedoch nicht vollständig, dass das Papier nicht verwendet wurde, da Entwickler das Modell anpassen können, um die direkte Ausgabe von Trainingsdaten zu vermeiden.
Selbst wenn nachgewiesen ist, dass ein LLM einen bestimmten Text verwendet hat, was passiert dann? Verlage behaupten, dass die unbefugte Verwendung von urheberrechtlich geschütztem Text einen Verstoß darstellt, es gibt aber auch Einwände, dass der LLM den Text nicht kopiert, sondern vielmehr neuen Text generiert durch Analyse des Informationsgehalts.
Derzeit läuft in den USA ein Urheberrechtsstreit, der zu einem bahnbrechenden Fall werden könnte. Die New York Times verklagt Microsoft und den ChatGPT-Entwickler OpenAI und wirft ihnen vor, ihre Nachrichteninhalte ohne Erlaubnis zum Trainieren von Modellen zu nutzen.
Viele Wissenschaftler begrüßen die Einbeziehung ihrer Arbeiten in die Trainingsdaten von LLM, insbesondere wenn diese Modelle die Genauigkeit der Forschung verbessern können. Allerdings nehmen nicht alle Forscher in ihrem Berufsstand dies gelassen hin und viele haben das Gefühl, dass ihre Arbeitsplätze bedroht sind.
Generell haben einzelne wissenschaftliche Autoren derzeit wenig Einfluss auf die Verkaufsentscheidungen der Verlage und es gibt keinen klaren Mechanismus dafür, wie Credits vergeben werden und ob sie für veröffentlichte Artikel verwendet werden. Einige Forscher äußerten sich frustriert: „Wir hoffen auf die Hilfe von KI-Modellen, hoffen aber auch auf einen fairen Mechanismus. Eine solche Lösung haben wir noch nicht gefunden.“
Referenzen:
https://www.nature.com/articles/d41586-024-02599-9
https://arxiv.org/pdf/2112.03570
Die zukünftige Ausrichtung von KI und wissenschaftlichem Publizieren ist noch unklar und Urheberrechtsfragen, Datenschutz und Schutzmechanismen für Autorenrechte und -interessen müssen weiter verbessert werden. Dabei handelt es sich nicht nur um ein Spiel zwischen Verlagen und Technologieunternehmen, sondern auch um ein wichtiges Thema im Zusammenhang mit der nachhaltigen Entwicklung der akademischen Forschung und der Ethik der KI-Technologie, das die gemeinsame Aufmerksamkeit und Anstrengung der gesamten Gesellschaft erfordert.