하버드 대학교는 인공 지능 분야의 공정한 경쟁을 촉진하고 AI 기술 개발을 촉진하기 위해 거의 백만 개의 공개 도서 데이터 세트를 공개하는 데 막대한 돈을 지출했습니다. 이 프로젝트는 Harvard University Institutional Data Initiative가 주도하고 Microsoft와 OpenAI가 자금을 지원합니다. 데이터 세트에는 고전 문헌부터 전문 학술 문헌까지 풍부한 콘텐츠가 포함되어 있어 소규모 AI 기업과 개인 연구자에게 귀중한 리소스를 제공하여 데이터 격차를 해소합니다. 거대 기술 회사에서. 이러한 움직임은 또한 인공 지능 분야의 훈련 데이터 소스에 대한 새로운 아이디어를 제공하고 점점 복잡해지는 저작권 문제의 맥락에서 지속 가능한 개발 경로를 탐색하려는 시도입니다.
하버드 대학교는 최근 누구나 대규모 언어 모델 및 기타 인공 지능 도구를 훈련하는 데 사용할 수 있는 거의 100만 권의 공개 도서로 구성된 데이터 세트를 공개할 계획을 발표했습니다.
본 프로젝트는 하버드대학교가 새로 설립한 Institutional Data Initiative(기관 데이터 이니셔티브)가 주도하고 Microsoft와 OpenAI의 자금 지원을 받아 완성되었습니다. 데이터 세트에는 셰익스피어, 디킨스, 단테와 같은 고전 작품과 잘 알려지지 않은 일부 체코 수학 교과서 및 웨일스어 사전을 다루는 Google Books 프로젝트의 스캔된 도서가 포함되어 있습니다.
이미지 출처 참고: 이미지는 AI가 생성한 것이며, 이미지 인증 서비스 제공업체인 Midjourney
"Books3 데이터 세트"라고 불리는 이 데이터 세트는 5배 더 크며 인공 지능 분야의 공평한 경쟁의 장을 마련하여 일반 대중, 특히 소규모 AI 회사와 개인 연구자에게 일반적으로 대형 기술 기업에서만 사용할 수 있는 것에 대한 액세스를 제공하는 것을 목표로 합니다. .기업만이 고품질의 데이터를 수집할 수 있습니다. Greg Leppert는 프로젝트가 엄격하게 선택되었으며 콘텐츠가 신중하게 선별되었다고 말했습니다.
Microsoft 부사장 Burton Davis는 이 프로젝트를 지원하는 Microsoft의 목표는 스타트업을 위한 "접근 가능한 데이터 풀"을 만들고 이 데이터가 "공익"을 위해 관리되도록 하는 것이라고 강조했습니다. OpenAI의 지적 재산 담당 이사인 Tom Rubin도 회사가 이 프로젝트를 지원하게 되어 기쁘다고 말했습니다.
AI에서 저작권이 있는 데이터 사용에 대한 소송이 계속 증가함에 따라 Harvard의 공개 도메인 데이터 세트와 같은 프로젝트가 AI 훈련 데이터의 중요한 소스가 되고 있습니다. 데이터 세트가 구체적으로 어떻게 공개될지는 불분명하지만, 저작권 문제를 피하면서 대량의 고품질 데이터를 기업에 제공할 것으로 기대된다.
Harvard의 Institutional Data Initiative는 책을 넘어서 보스턴 공공 도서관과 협력하여 수백만 개의 공개 도메인 신문 기사를 스캔하고 향후 더 많은 파트너와 유사한 협력을 계획하고 있습니다. 또한 Harvard는 Google과 협력하여 데이터 세트를 공개적으로 배포하는 방법을 논의하고 있습니다.
이 프로젝트는 저작권 위험 없이 고품질 AI 교육 자료를 제공하겠다고 약속하는 여러 유사한 이니셔티브에 참여할 것입니다. 앞으로 더 많은 공개 도메인 데이터 세트를 사용할 수 있게 되면 AI 회사는 저작권 관련 법적 위험을 줄이면서 모델을 훈련할 수 있는 더 많은 옵션을 갖게 될 것입니다.
하버드대학교의 이번 움직임은 인공지능 연구를 위한 고품질의 데이터 자원을 제공할 뿐만 아니라, 인공지능 훈련 데이터 소스의 저작권 문제를 해결하기 위한 새로운 아이디어를 제공함으로써 인공지능 분야의 건전한 발전과 공정한 경쟁을 촉진할 것으로 기대됩니다. 미래에. 이 프로젝트의 성공적인 구현은 전체 산업에 큰 영향을 미칠 것입니다.