Meta est soupçonnée de violation du droit d'auteur: utilisez un ensemble de données Libgen pour former l'IA et supprimer les informations sur le droit d'auteur - Articles de l'IA

Auteur：Eve Cole Date de mise à jour：2025-02-18 12:32:01

Meta a été prise dans un procès très attendu en violation du droit d'auteur, le demandeur accusant son PDG Mark Zuckerberg d'approuver personnellement l'utilisation de livres électroniques piratés et de données d'articles pour former son modèle LLAMA AI. Cette affaire a non seulement poussé Meta au premier plan, mais a également attiré une attention généralisée de l'industrie sur l'utilisation du droit d'auteur des géants de la technologie dans la formation des modèles d'IA. Il convient de noter qu'il s'agit de l'une des nombreuses poursuites en matière de droit d'auteur contre plusieurs sociétés technologiques qui ont été accusées de formation de modèles d'IA en utilisant des œuvres protégées par le droit d'auteur sans autorisation.

Selon les derniers documents soumis au tribunal de district américain du district nord de la Californie, le demandeur a cité le témoignage de Meta à la fin de l'année dernière, qui a explicitement mentionné que Zuckerberg a approuvé l'utilisation d'un ensemble de données appelé Libgen pour la formation du modèle LLAMA. En tant que «agrégateur de liens», Libgen fournit un grand nombre de publications académiques protégées par le droit d'auteur. Bien que le site Web ait été poursuivi et fermé pour violation du droit d'auteur, il continue de fournir des œuvres d'éditeurs majeurs tels que Cengage Learning et McGraw Hill, qui facilite la violation de Meta.

全息投影机器人设计 (3)

Le document a en outre révélé que les méta-employés internes ont reconnu Libgen comme un "ensemble de données piraté connu" et ont réalisé que son utilisation pourrait nuire à la position négociée de l'entreprise avec les régulateurs. Ce qui est encore plus choquant, c'est que Meta ingénieur Nikolay Bashlykov a été accusé d'écrire des scripts spécifiquement pour supprimer les informations sur le droit d'auteur dans les livres électroniques Libgen, y compris des mots tels que "Copyright" et "Remerciements". De plus, Meta a été accusée d'avoir retiré des étiquettes de droit d'auteur et des métadonnées source des articles de revues scientifiques, tous deux destinés à couvrir son infraction.

L'allégation la plus controversée dans le cas était que Meta a téléchargé le contenu de Libgen par le torrent et a aidé à diffuser ces documents protégés par des droits d'auteur piratés. Le torrent est une méthode de distribution de fichiers réseau et les téléchargeurs partagent également du contenu lors du téléchargement de fichiers. Les avocats du demandeur ont souligné que Meta avait réellement effectué une autre forme de violation du droit d'auteur par son implication dans le torrent. Bien que Meta Engineers ait offert des réserves à ce sujet, estimant que ce comportement était illégal, Meta a continué à mener le comportement avec le soutien d'Ahmad al-Dahle, chef de Generator IA.

Les allégations coïncident avec un rapport du New York Times en avril dernier qui a suggéré que Meta avait coupé les coins lors de la collecte de données sur l'IA. Meta aurait embauché des entrepreneurs africains pour résumer le résumé du livre et envisagé d'acquérir l'éditeur Simon Schuster. Cependant, les dirigeants de Meta estiment que la négociation des licences de droits d'auteur prend trop de temps et que le principe d'utilisation raisonnable est devenu leur principale défense, une attitude qui a suscité des doutes sur l'éthique commerciale des entreprises technologiques.

À l'heure actuelle, le procès de l'affaire n'a pas encore été conclu, et seul le modèle de Llama Early Llama est impliqué. Bien que le tribunal ait rejeté plusieurs poursuites contre le droit d'auteur liées à l'IA en 2023, estimant que le demandeur n'a pas prouvé l'infraction, les allégations dans cette affaire peuvent encore avoir un impact significatif sur la méta. Dans une ordonnance de mercredi, le juge président Vince Chabria a souligné qu'il avait rejeté la demande de Meta de supprimer la plupart des dossiers, affirmant que la suppression de ces fichiers était clairement destinée à éviter une publicité négative plutôt que de protéger les informations commerciales sensibles. Soufflez à Meta.

L'affaire pose non seulement un sérieux défi à Meta, mais déclenche également de nombreuses discussions sur la façon dont les entreprises technologiques peuvent utiliser les œuvres protégées par le droit d'auteur pour former des modèles d'IA. En particulier sur la question de la frontière entre l'utilisation raisonnable et la protection du droit d'auteur, cette affaire peut devenir une référence importante pour des cas similaires à l'avenir. Avec le développement rapide de la technologie de l'IA, comment trouver un équilibre entre l'innovation et la protection des droits d'auteur deviendra un problème important auxquels sont confrontés les entreprises technologiques et la communauté juridique.