하버드 대학교는 AI 모델을 위한 고품질 교육 자료를 제공하기 위해 수천만 권의 도서 데이터 세트를 공개합니다.

저자：Eve Cole 업데이트 시간：2024-12-16 15:32:01

하버드 대학교는 인공 지능 분야의 공정한 경쟁을 촉진하고 AI 기술 개발을 촉진하기 위해 거의 백만 개의 공개 도서 데이터 세트를 공개하는 데 막대한 돈을 지출했습니다. 이 프로젝트는 Harvard University Institutional Data Initiative가 주도하고 Microsoft와 OpenAI가 자금을 지원합니다. 데이터 세트에는 고전 문헌부터 전문 학술 문헌까지 풍부한 콘텐츠가 포함되어 있어 소규모 AI 기업과 개인 연구자에게 귀중한 리소스를 제공하여 데이터 격차를 해소합니다. 거대 기술 회사에서. 이러한 움직임은 또한 인공 지능 분야의 훈련 데이터 소스에 대한 새로운 아이디어를 제공하고 점점 복잡해지는 저작권 문제의 맥락에서 지속 가능한 개발 경로를 탐색하려는 시도입니다.

하버드 대학교는 최근 누구나 대규모 언어 모델 및 기타 인공 지능 도구를 훈련하는 데 사용할 수 있는 거의 100만 권의 공개 도서로 구성된 데이터 세트를 공개할 계획을 발표했습니다.

본 프로젝트는 하버드대학교가 새로 설립한 Institutional Data Initiative(기관 데이터 이니셔티브)가 주도하고 Microsoft와 OpenAI의 자금 지원을 받아 완성되었습니다. 데이터 세트에는 셰익스피어, 디킨스, 단테와 같은 고전 작품과 잘 알려지지 않은 일부 체코 수학 교과서 및 웨일스어 사전을 다루는 Google Books 프로젝트의 스캔된 도서가 포함되어 있습니다.

AI助教机器人

이미지 출처 참고: 이미지는 AI가 생성한 것이며, 이미지 인증 서비스 제공업체인 Midjourney

"Books3 데이터 세트"라고 불리는 이 데이터 세트는 5배 더 크며 인공 지능 분야의 공평한 경쟁의 장을 마련하여 일반 대중, 특히 소규모 AI 회사와 개인 연구자에게 일반적으로 대형 기술 기업에서만 사용할 수 있는 것에 대한 액세스를 제공하는 것을 목표로 합니다. .기업만이 고품질의 데이터를 수집할 수 있습니다. Greg Leppert는 프로젝트가 엄격하게 선택되었으며 콘텐츠가 신중하게 선별되었다고 말했습니다.

Microsoft 부사장 Burton Davis는 이 프로젝트를 지원하는 Microsoft의 목표는 스타트업을 위한 "접근 가능한 데이터 풀"을 만들고 이 데이터가 "공익"을 위해 관리되도록 하는 것이라고 강조했습니다. OpenAI의 지적 재산 담당 이사인 Tom Rubin도 회사가 이 프로젝트를 지원하게 되어 기쁘다고 말했습니다.

Harvard의 Institutional Data Initiative는 책을 넘어서 보스턴 공공 도서관과 협력하여 수백만 개의 공개 도메인 신문 기사를 스캔하고 향후 더 많은 파트너와 유사한 협력을 계획하고 있습니다. 또한 Harvard는 Google과 협력하여 데이터 세트를 공개적으로 배포하는 방법을 논의하고 있습니다.