L'éditeur de Downcodes vous aidera à comprendre les « utilisations alternatives » des articles académiques ! Ces dernières années, la source de données de formation pour les modèles d'IA a attiré une grande attention. De nombreux éditeurs universitaires « conditionnent et vendent » des documents de recherche à des entreprises technologiques pour améliorer les capacités des systèmes d'IA. Cela impliquait d’énormes transactions et déclenchait des discussions animées au sein de la communauté universitaire sur les droits de propriété intellectuelle, les droits d’auteur et l’éthique du développement de l’IA. Cet article approfondira les mécanismes, les impacts et les tendances futures à l’origine de ce phénomène.
Avez-vous déjà pensé que votre document de recherche aurait pu être utilisé pour former l’IA ? Oui, de nombreux éditeurs universitaires « emballent et vendent » leurs résultats à des entreprises technologiques développant des modèles d’IA. Il ne fait aucun doute que cette décision a fait beaucoup de bruit dans la communauté de la recherche scientifique, surtout lorsque les auteurs n’en savent rien. Les experts disent que si le vôtre n’est pas déjà utilisé par un grand modèle de langage (LLM), il y a de fortes chances qu’il le soit dans un avenir proche.
Récemment, l'éditeur universitaire britannique Taylor & Francis a conclu un accord de 10 millions de dollars avec Microsoft, permettant au géant de la technologie d'utiliser ses données de recherche pour améliorer les capacités de ses systèmes d'IA. Dès juin, l’éditeur américain Wiley a également conclu un accord avec une entreprise et reçu 23 millions de dollars de revenus en échange de l’utilisation de son contenu pour former des modèles d’IA génératifs.
Si un article est disponible en ligne, qu'il soit en libre accès ou derrière un paywall, il est probable qu'il ait été intégré dans un grand modèle linguistique. "Une fois qu'un papier est utilisé pour entraîner un modèle, il ne peut pas être supprimé une fois le modèle entraîné", a déclaré Lucy Lu Wang, chercheuse en IA à l'Université de Washington.
Les grands modèles de langage nécessitent pour être entraînés de grandes quantités de données, qui sont souvent récupérées sur Internet. En analysant des milliards d’extraits de langage, ces modèles sont capables d’apprendre et de générer un texte fluide. Les articles académiques sont devenus un « trésor » très précieux pour les développeurs LLM en raison de leur haute densité d’informations et de leur grande longueur. Ces données aident l’IA à faire de meilleures déductions scientifiques.
Récemment, la tendance à acheter des ensembles de données de haute qualité s'est accentuée et de nombreux médias et plateformes bien connus ont commencé à coopérer avec des développeurs d'IA pour vendre leur contenu. Étant donné que sans accord, de nombreuses œuvres risquent d’être supprimées en silence, ce type de coopération ne fera que devenir plus courant à l’avenir.
Cependant, certains développeurs d'IA, comme le réseau d'intelligence artificielle à grande échelle, choisissent de garder leurs ensembles de données ouverts, mais de nombreuses entreprises développant l'IA générative gardent leurs données de formation secrètes. On ne sait rien des données de formation. Les experts pensent que l'open source. des plates-formes comme arXiv et des bases de données telles que PubMed sont sans aucun doute des cibles populaires à explorer par les entreprises d’IA.
Il n'est pas simple de prouver si un certain article apparaît dans le programme de formation d'un certain LLM. Les chercheurs peuvent utiliser des phrases inhabituelles du document pour tester si le résultat du modèle correspond au texte original, mais cela ne prouve pas complètement que le document n'a pas été utilisé, car les développeurs peuvent ajuster le modèle pour éviter de produire directement les données de formation.
Même s'il est prouvé qu'un LLM a utilisé un texte spécifique, que se passe-t-il ensuite ? Les éditeurs prétendent que l'utilisation non autorisée d'un texte protégé par le droit d'auteur constitue une contrefaçon, mais il y a également des objections selon lesquelles le LLM ne copie pas le texte, mais génère plutôt un nouveau texte ? en analysant le contenu de l’information.
Il y a actuellement un procès en cours aux États-Unis pour droits d’auteur qui pourrait devenir une affaire historique. Le New York Times poursuit Microsoft et le développeur ChatGPT OpenAI, les accusant d'utiliser son contenu d'actualité pour former des modèles sans autorisation.
De nombreux chercheurs accueillent favorablement l’inclusion de leurs travaux dans les données de formation du LLM, en particulier lorsque ces modèles peuvent améliorer la précision de la recherche. Cependant, tous les chercheurs de la profession ne prennent pas cela à bras-le-corps et nombre d’entre eux estiment que leur emploi est menacé.
En général, les auteurs scientifiques individuels ont actuellement peu de poids dans les décisions de vente des éditeurs, et il n’existe aucun mécanisme clair sur la manière dont le crédit est attribué et s’il est utilisé pour les articles publiés. Certains chercheurs ont exprimé leur frustration : "Nous espérons avoir l'aide des modèles d'IA, mais nous espérons aussi avoir un mécanisme équitable. Nous n'avons pas encore trouvé une telle solution."
Références :
https://www.nature.com/articles/d41586-024-02599-9
https://arxiv.org/pdf/2112.03570
L’orientation future de l’IA et de l’édition universitaire n’est toujours pas claire, et les questions de droits d’auteur, de confidentialité des données et de mécanismes de protection des droits et intérêts des auteurs doivent toutes être encore améliorées. Il ne s’agit pas seulement d’un jeu entre éditeurs et entreprises technologiques, mais aussi d’un enjeu majeur lié au développement durable de la recherche universitaire et à l’éthique des technologies de l’IA, qui nécessite l’attention et les efforts conjoints de l’ensemble de la société.