A Universidade de Harvard gastou enormes somas de dinheiro para liberar quase um milhão de conjuntos de dados de livros de domínio público, com o objetivo de promover a concorrência leal no campo da inteligência artificial e promover o desenvolvimento da tecnologia de IA. O projeto é liderado pela Iniciativa de Dados Institucionais da Universidade de Harvard e financiado pela Microsoft e OpenAI. O conjunto de dados contém conteúdo rico, desde literatura clássica até literatura acadêmica profissional, fornecendo recursos valiosos para pequenas empresas de IA e pesquisadores individuais, preenchendo a lacuna entre a lacuna de dados. em grandes empresas de tecnologia. Esta medida também fornece novas ideias para a fonte de dados de formação no domínio da inteligência artificial e tenta explorar um caminho de desenvolvimento sustentável no contexto de questões cada vez mais complexas de direitos de autor.
A Universidade de Harvard anunciou recentemente planos para lançar um conjunto de dados composto por quase 1 milhão de livros de domínio público que qualquer pessoa pode usar para treinar grandes modelos de linguagem e outras ferramentas de inteligência artificial.
Este projeto é liderado pela recém-criada Iniciativa de Dados Institucionais da Universidade de Harvard e concluído com financiamento da Microsoft e OpenAI. O conjunto de dados inclui livros digitalizados do projeto Google Books, abrangendo obras clássicas como Shakespeare, Dickens e Dante, bem como alguns obscuros livros didáticos de matemática tcheca e dicionários galeses.
Nota sobre a fonte da imagem: A imagem é gerada por IA e é autorizada pelo provedor de serviços Midjourney
Apelidado de “Books3 Dataset”, o conjunto de dados é cinco vezes maior e visa nivelar o campo de atuação no campo da inteligência artificial, dando ao público, especialmente pequenas empresas de IA e pesquisadores individuais, acesso ao que normalmente só está disponível para grandes empresas de tecnologia. empresas. Somente as empresas podem coletar dados de alta qualidade. Greg Leppert disse que o projeto foi rigorosamente selecionado e o conteúdo cuidadosamente selecionado.
O vice-presidente da Microsoft, Burton Davis, enfatizou que o objetivo da Microsoft ao apoiar o projeto é criar um “pool de dados acessível” para startups e garantir que esses dados sejam gerenciados no “interesse público”. Tom Rubin, diretor de propriedade intelectual da OpenAI, também disse que a empresa estava satisfeita em apoiar o projeto.
À medida que os processos judiciais sobre a utilização de dados protegidos por direitos de autor na IA continuam a crescer, projetos como o conjunto de dados de domínio público de Harvard estão a tornar-se uma fonte importante de dados de formação em IA. Embora não esteja claro como o conjunto de dados será divulgado especificamente, espera-se que forneça às empresas uma grande quantidade de dados de alta qualidade, evitando problemas de direitos autorais.
A Iniciativa de Dados Institucionais de Harvard vai além dos livros, trabalhando com a Biblioteca Pública de Boston para digitalizar milhões de artigos de jornais de domínio público e planejando colaborações semelhantes com mais parceiros no futuro. Além disso, Harvard está trabalhando com o Google para discutir como conseguir a distribuição pública do conjunto de dados.
Este projeto se juntará a várias iniciativas semelhantes que também prometem fornecer materiais de treinamento em IA de alta qualidade, sem riscos de direitos autorais. No futuro, à medida que mais conjuntos de dados de domínio público forem disponibilizados, as empresas de IA terão mais opções para treinar os seus modelos, reduzindo ao mesmo tempo os riscos legais relacionados com os direitos de autor.
Esta medida da Universidade de Harvard não só fornece recursos de dados de alta qualidade para pesquisas em inteligência artificial, mas também fornece novas idéias para resolver a questão dos direitos autorais das fontes de dados de treinamento em IA. Espera-se que promova o desenvolvimento saudável e a concorrência leal no campo da inteligência artificial. no futuro. A implementação bem-sucedida deste projeto terá um impacto profundo em toda a indústria.