Bei bis zu 60 % der GPT-3.5-Modellausgabe besteht der Verdacht auf Plagiat

Autor：Eve Cole Aktualisierungszeit：2025-02-04 00:16:01

Kürzlich veröffentlichte das Plagiatserkennungsunternehmen Copyleaks einen Bericht, in dem es heißt, dass bis zu 60 % der vom GPT-3.5-Modell von OpenAI generierten Inhalte verschiedene Formen von Plagiaten enthalten. Der Bericht äußerte weit verbreitete Bedenken hinsichtlich Urheberrechts- und Originalitätsproblemen bei KI-Modellen. Copyleaks verwendet eine selbst entwickelte Bewertungsmethode, die Faktoren wie Textähnlichkeit, geringfügige Änderungen und Interpretationen umfassend berücksichtigt. Der Bericht zeigt, dass Informatik, Physik, Psychologie und andere Fächer größere Ähnlichkeiten aufweisen, während Theaterwissenschaften, Geisteswissenschaften, Englisch und andere Fächer geringere Ähnlichkeiten aufweisen. OpenAI antwortete, dass es Maßnahmen ergriffen hat, um das unbeabsichtigte Speichern von Modellen zu begrenzen, und den Benutzern ausdrücklich verbietet, Inhalte absichtlich erneut zu bearbeiten.

Das Plagiatserkennungsunternehmen Copyleaks hat kürzlich einen Bericht veröffentlicht, in dem es heißt, dass bis zu 60 % der vom von OpenAI eingeführten Sprachmodell GPT-3.5 generierten Inhalte verschiedene Formen von Plagiaten enthalten. Copyleaks verwendet eine selbst entwickelte Bewertungsmethode, die mehrere Faktoren wie Textähnlichkeit, geringfügige Änderungen und Paraphrasen berücksichtigt, um ähnliche Inhalte als „Plagiat“ einzustufen. Informatik, Physik, Psychologie und andere Fächer weisen die größte Ähnlichkeit auf, während Theaterwissenschaften, Geisteswissenschaften und Englisch die geringeren Ähnlichkeiten aufweisen. OpenAI gab an, verschiedene Maßnahmen ergriffen zu haben, um unbeabsichtigten Speicher zu begrenzen, und die Nutzungsbedingungen verbieten Benutzern auch ausdrücklich, dem Modell absichtlich die Neuprogrammierung von Inhalten zu erlauben. Zusätzlich zu der bekannten Klage der New York Times versuchen einige Content-Ersteller auch zu behaupten, dass das KI-Modell an ihren Werken trainiert wurde, sodass auch die Inhalte, die ungefähre Kopien produzieren, angegeben werden sollten Aktie.

Der Bericht beleuchtet nicht nur die Herausforderungen von KI-Modellen bei der Inhaltsgenerierung, sondern löst auch Diskussionen über eine Reihe rechtlicher und ethischer Fragen aus, wie z. B. das Urheberrecht an KI-Modell-Trainingsdaten, die Originalität von Inhalten und den Besitz von geistigem Eigentum. Die Branche muss gemeinsam nach Lösungen suchen Förderung der gesunden Entwicklung der KI-Technologie.