Meta Company a suscité une énorme controverse sur la source des données de formation de son dernier chatbot IA Llama3. Selon des documents divulgués, Meta a utilisé le site Web de livres électroniques piraté Library Genesis (LibGen) pour entraîner Llama3, une décision qui a suscité de nombreuses inquiétudes concernant les droits d'auteur et la propriété des données. Bien que les employés de Meta aient exprimé leurs inquiétudes quant aux risques liés à l'utilisation de LibGen, y compris les risques juridiques potentiels et la publicité négative, le PDG Zuckerberg a néanmoins approuvé la décision, soulignant les tactiques agressives et la protection des droits d'auteur des grandes entreprises technologiques dans la course à l'indifférence de l'IA.
Récemment, alors que des documents divulgués par Meta dans le cadre d'un recours collectif en matière de droits d'auteur ont fait surface, la société a utilisé une bibliothèque de livres électroniques piratée appelée Library Genesis (LibGen) pour former son dernier chatbot IA Llama3. Les documents montrent que les ingénieurs Meta ont discuté des risques potentiels liés à l'utilisation de LibGen, une « bibliothèque fantôme », en particulier dans un contexte de préoccupations croissantes concernant les droits d'auteur et la propriété des données. Malgré l'impact négatif potentiel et le risque de publicité, le PDG de Meta, Mark Zuckerberg, a approuvé la décision.
À la demande du tribunal, les enregistrements de conversations confidentielles au sein de Meta concernant l'utilisation de l'ensemble de données de LibGen ont été déclassifiés. Les documents montrent que les dirigeants de Meta ont clairement indiqué lors des discussions avec l'équipe de recherche sur l'IA que les données de LibGen étaient « nous savons ». être piraté." Acceptez d'utiliser ces données pour améliorer les performances de Llama3. Dans un e-mail, le directeur de la gestion des produits de Meta, Sony Theakanath, a souligné que bien que la décision d'utiliser LibGen ait déclenché des risques pour l'opinion publique, d'autres sociétés d'IA utilisent également des données similaires, ce qui donne à l'équipe de Meta le sentiment que cette voie n'est pas isolée.
Plus inquiétant encore, l'équipe de Meta a également discuté de la façon de traiter et de filtrer le texte dans LibGen pour supprimer les marques de droit d'auteur telles que les ISBN et les mentions de droit d'auteur. Une note interne indique que le matériel fourni par LibGen est « de haute qualité et de format long, ce qui le rend idéal pour l'apprentissage de sujets particulièrement spécialisés ». Cela suggère que Meta semble tenter de dissimuler son utilisation de contenu non autorisé.
En outre, les employés de Meta ont également mentionné dans l'e-mail qu'il pourrait être inapproprié d'utiliser directement l'adresse IP de l'entreprise pour le torrenting et ont exprimé leurs inquiétudes concernant ce comportement. Cependant, avec Zuckerberg « poussant par le haut » pour utiliser l'ensemble de données LibGen, la mentalité gagnante de Meta dans la course à l'IA est clairement révélée. Cet incident a une fois de plus suscité l'attention et les doutes sur les questions de droits d'auteur des grandes entreprises technologiques.
L’issue de ce procès en matière de droit d’auteur pourrait avoir des implications importantes pour d’autres affaires similaires en cours, notamment en ce qui concerne l’utilisation d’œuvres créatives telles que les images, la musique et la littérature. À mesure que la demande de contenu original des entreprises technologiques continue d’augmenter, les droits des créateurs de contenu original deviendront le centre d’attention.
Cet incident a non seulement révélé l’attitude irresponsable de Meta sur les questions de droit d’auteur, mais a également déclenché une réflexion approfondie sur les questions éthiques et juridiques liées au développement de l’IA. À l’avenir, la manière d’équilibrer le développement technologique et la protection de la propriété intellectuelle deviendra une question importante, exigeant des efforts conjoints au sein et à l’extérieur de l’industrie pour trouver des solutions.