L'Université de Harvard a dépensé d'énormes sommes d'argent pour publier près d'un million d'ensembles de données de livres du domaine public, dans le but de promouvoir une concurrence loyale dans le domaine de l'intelligence artificielle et de promouvoir le développement de la technologie de l'IA. Le projet est dirigé par l'Institutional Data Initiative de l'Université Harvard et financé par Microsoft et OpenAI. L'ensemble de données contient un contenu riche allant de la littérature classique à la littérature universitaire professionnelle, fournissant des ressources précieuses aux petites entreprises d'IA et aux chercheurs individuels, comblant ainsi le fossé entre les données. dans les grandes entreprises technologiques. Cette démarche fournit également de nouvelles idées sur la source des données de formation dans le domaine de l'intelligence artificielle et tente d'explorer une voie de développement durable dans le contexte de questions de droit d'auteur de plus en plus complexes.
L'Université Harvard a récemment annoncé son intention de publier un ensemble de données composé de près d'un million de livres du domaine public que tout le monde peut utiliser pour former de grands modèles de langage et d'autres outils d'intelligence artificielle.
Ce projet est dirigé par la nouvelle Institutional Data Initiative de l'Université Harvard (Institutional Data Initiative) et réalisé grâce au financement de Microsoft et d'OpenAI. L'ensemble de données comprend des livres numérisés du projet Google Books, couvrant des œuvres classiques telles que Shakespeare, Dickens et Dante, ainsi que d'obscurs manuels de mathématiques tchèques et dictionnaires gallois.
Remarque sur la source de l'image : l'image est générée par l'IA et le fournisseur de services d'autorisation d'image Midjourney
Surnommé « l'ensemble de données Books3 », l'ensemble de données est cinq fois plus volumineux et vise à uniformiser les règles du jeu dans le domaine de l'intelligence artificielle, en donnant au public, en particulier aux petites entreprises d'IA et aux chercheurs individuels, l'accès à ce qui n'est généralement disponible qu'aux grandes technologies. . Seules les entreprises peuvent collecter des données de haute qualité. Greg Leppert a déclaré que le projet avait été rigoureusement sélectionné et le contenu soigneusement organisé.
Le vice-président de Microsoft, Burton Davis, a souligné que l'objectif de Microsoft en soutenant le projet est de créer un « pool de données accessible » pour les startups et de garantir que ces données sont gérées dans « l'intérêt public ». Tom Rubin, directeur de la propriété intellectuelle d'OpenAI, a également déclaré que la société était heureuse de soutenir le projet.
Alors que les poursuites judiciaires concernant l'utilisation de données protégées par le droit d'auteur dans l'IA continuent de se multiplier, des projets tels que l'ensemble de données du domaine public de Harvard deviennent une source importante de données de formation en IA. Bien qu'il ne soit pas clair comment l'ensemble de données sera publié spécifiquement, il devrait fournir aux entreprises une grande quantité de données de haute qualité tout en évitant les problèmes de droits d'auteur.
L'Institutional Data Initiative de Harvard va au-delà des livres, en travaillant avec la bibliothèque publique de Boston pour numériser des millions d'articles de journaux du domaine public et en planifiant des collaborations similaires avec davantage de partenaires à l'avenir. En outre, Harvard travaille avec Google pour discuter de la manière de parvenir à une diffusion publique de l'ensemble de données.
Ce projet rejoindra plusieurs initiatives similaires qui promettent également de fournir du matériel de formation en IA de haute qualité sans risques de droits d'auteur. À l’avenir, à mesure que davantage d’ensembles de données du domaine public seront disponibles, les entreprises d’IA disposeront de davantage d’options pour entraîner leurs modèles tout en réduisant les risques juridiques liés au droit d’auteur.
Cette décision de l'Université Harvard fournit non seulement des ressources de données de haute qualité pour la recherche sur l'intelligence artificielle, mais fournit également de nouvelles idées pour résoudre le problème des droits d'auteur sur les sources de données de formation à l'IA. Elle devrait promouvoir un développement sain et une concurrence loyale dans le domaine de l'intelligence artificielle. à l'avenir. La mise en œuvre réussie de ce projet aura un impact profond sur l’ensemble de l’industrie.