Гарвардский университет выпускает десятки миллионов наборов данных книг, чтобы предоставить высококачественные учебные материалы для моделей ИИ

Автор：Eve Cole Время обновления：2024-12-16 15:32:01

Гарвардский университет потратил огромные суммы денег на публикацию почти миллиона наборов данных книг, являющихся общественным достоянием, с целью способствовать справедливой конкуренции в области искусственного интеллекта и способствовать развитию технологий искусственного интеллекта. Проект возглавляется Инициативой институциональных данных Гарвардского университета и финансируется Microsoft и OpenAI. Набор данных содержит богатый контент, от классической литературы до профессиональной академической литературы, предоставляя ценные ресурсы для небольших компаний, занимающихся искусственным интеллектом, и отдельных исследователей, устраняя разрыв в данных. в крупных технологических компаниях. Этот шаг также дает новые идеи относительно источника обучающих данных в области искусственного интеллекта и пытается изучить путь устойчивого развития в контексте все более сложных проблем авторского права.

Гарвардский университет недавно объявил о планах выпустить набор данных, состоящий из почти 1 миллиона книг, являющихся общественным достоянием, которые каждый может использовать для обучения больших языковых моделей и других инструментов искусственного интеллекта.

Этот проект возглавляет недавно созданная Инициатива по институциональным данным Гарвардского университета (Institutional Data Initiative) и реализуется при финансовой поддержке Microsoft и OpenAI. Набор данных включает в себя отсканированные книги из проекта Google Books, охватывающие такие классические произведения, как Шекспир, Диккенс и Данте, а также некоторые малоизвестные чешские учебники по математике и валлийские словари.

AI助教机器人

Примечание к источнику изображения: изображение создается искусственным интеллектом и поставщиком услуг авторизации изображений Midjourney.

Набор данных, получивший название «Books3 Dataset», в пять раз больше и призван уравнять правила игры в области искусственного интеллекта, предоставляя общественности, особенно небольшим компаниям, занимающимся искусственным интеллектом, и отдельным исследователям, доступ к тому, что обычно доступно только крупным технологическим компаниям. . Только компании могут собирать высококачественные данные. Грег Лепперт сказал, что проект был тщательно отобран, а контент тщательно проверен.

Вице-президент Microsoft Бертон Дэвис подчеркнул, что цель Microsoft в поддержке проекта — создать «доступный пул данных» для стартапов и гарантировать, что управление этими данными будет осуществляться в «общественных интересах». Том Рубин, директор по интеллектуальной собственности OpenAI, также сказал, что компания рада поддержать проект.

Поскольку судебные иски по поводу использования данных, защищенных авторским правом, в ИИ продолжают расти, такие проекты, как общедоступный набор данных Гарварда, становятся важным источником данных для обучения ИИ. Хотя неясно, как конкретно будет публиковаться набор данных, ожидается, что он предоставит предприятиям большой объем высококачественных данных, избегая при этом проблем с авторскими правами.

Гарвардская инициатива в области институциональных данных выходит за рамки книг: она сотрудничает с Бостонской публичной библиотекой для сканирования миллионов общедоступных газетных статей и планирует подобное сотрудничество с большим количеством партнеров в будущем. Кроме того, Гарвард работает с Google над обсуждением того, как добиться публичного распространения набора данных.

Этот проект присоединится к нескольким аналогичным инициативам, которые также обещают предоставить высококачественные учебные материалы по искусственному интеллекту без риска нарушения авторских прав. В будущем, когда станет доступно больше общедоступных наборов данных, у компаний, занимающихся искусственным интеллектом, появится больше возможностей для обучения своих моделей, одновременно снижая юридические риски, связанные с авторским правом.

Этот шаг Гарвардского университета не только предоставляет высококачественные ресурсы данных для исследований в области искусственного интеллекта, но также предлагает новые идеи для решения проблемы авторских прав на источники данных для обучения ИИ. Ожидается, что он будет способствовать здоровому развитию и честной конкуренции в области искусственного интеллекта. в будущем. Успешная реализация этого проекта окажет глубокое влияние на всю отрасль.