In den letzten Jahren stützte sich das Training von Modellen für künstliche Intelligenz zunehmend auf die Sammlung von Netzwerkdaten. Als wichtige Datenquelle wirkt sich die Haltung von Nachrichtenwebsites gegenüber Crawlern mit künstlicher Intelligenz direkt auf den Trainingseffekt des Modells aus. In diesem Artikel werden die Ergebnisse einer Studie zu Nachrichten-Websites analysiert, die OpenAI-Crawler blockieren, und die Gründe und möglichen Auswirkungen dahinter untersucht.
Eine Studie ergab, dass fast die Hälfte der beliebten Nachrichten-Websites die Crawler von OpenAI blockierten. Herkömmliche Printmedien-Websites werden von den Crawlern von OpenAI stärker blockiert, und bei neuen KI-Modellen kann es zu Leistungseinbußen kommen, wenn sie mit früheren Modellen trainiert werden. Crawler mit künstlicher Intelligenz werden zum Sammeln von Daten zum Trainieren von Sprachmodellen verwendet, und Nachrichtenorganisationen in Ländern der nördlichen Hemisphäre neigen eher dazu, Crawler mit künstlicher Intelligenz zu blockieren.
Die Ergebnisse werfen ein Licht auf die wachsende Spannung zwischen Nachrichten-Websites und dem Training von Modellen der künstlichen Intelligenz. Das Verhalten von Nachrichten-Websites, die Crawler blockieren, kann zu einer Verschlechterung der Qualität der Trainingsdaten des Modells für künstliche Intelligenz führen und dadurch die Leistung und Zuverlässigkeit des Modells beeinträchtigen. In Zukunft wird es ein wichtiges Thema sein, wie man den Schulungsbedarf von Modellen der künstlichen Intelligenz und den Schutz der Rechte und Interessen von Nachrichten-Websites in Einklang bringen kann. Es müssen effektivere Kooperationsmodelle erforscht werden, um die Entwicklung der Technologie der künstlichen Intelligenz zu fördern und gleichzeitig die geistigen Eigentumsrechte und die Datensicherheit von Nachrichtenorganisationen zu respektieren.