ハーバード大学は、人工知能分野における公正な競争を促進し、AI技術の開発を促進することを目的として、巨額の資金を投じて100万件近いパブリックドメインの書籍データセットを公開した。このプロジェクトはハーバード大学機関データ イニシアチブによって主導され、マイクロソフトと OpenAI によって資金提供されています。このデータ セットには古典文献から専門的な学術文献までの豊富なコンテンツが含まれており、小規模な AI 企業や個人の研究者に貴重なリソースを提供し、データ ギャップを埋めることができます。大手テクノロジー企業で。この動きはまた、人工知能の分野におけるトレーニング データのソースに新しいアイデアを提供し、ますます複雑化する著作権問題の文脈で持続可能な開発の道を模索する試みです。
ハーバード大学は最近、大規模な言語モデルやその他の人工知能ツールをトレーニングするために誰でも使用できる、100 万冊近いパブリック ドメインの書籍で構成されるデータ セットをリリースする計画を発表しました。
このプロジェクトは、ハーバード大学が新設したInstitutional Data Initiative(Institutional Data Initiative)が主導し、MicrosoftとOpenAIからの資金提供を受けて完了した。このデータ セットには、Google ブックス プロジェクトからスキャンされた書籍が含まれており、シェイクスピア、ディケンズ、ダンテなどの古典作品に加え、知られていないチェコ語の数学の教科書やウェールズ語の辞書も含まれています。
画像出典注:画像はAIによって生成され、画像はサービスプロバイダーMidjourneyによって許可されています
「Books3 データセット」と呼ばれるこのデータセットは 5 倍の大きさで、人工知能の分野における競争条件を公平にし、一般の人々、特に小規模な AI 企業や個人の研究者が、通常は大手テクノロジー企業のみが利用できるものにアクセスできるようにすることを目的としています。高品質のデータを収集できるのは企業だけです。グレッグ・レパート氏は、このプロジェクトは厳密に選ばれ、コンテンツは慎重に精選されたと述べた。
Microsoftの副社長Burton Davis氏は、このプロジェクトを支援するMicrosoftの目標はスタートアップ向けに「アクセス可能なデータプール」を作成し、このデータが「公共の利益」に基づいて管理されるようにすることであると強調した。 OpenAI の知的財産担当ディレクターである Tom Rubin 氏も、同社がこのプロジェクトを喜んでサポートすると述べた。
AI での著作権で保護されたデータの使用をめぐる訴訟が増え続ける中、ハーバード大学のパブリック ドメイン データセットのようなプロジェクトが AI トレーニング データの重要なソースになりつつあります。このデータセットが具体的にどのように公開されるかは不明だが、著作権の問題を回避しながら、企業に大量の高品質なデータを提供することが期待されている。
ハーバード大学の機関データ イニシアチブは書籍にとどまらず、ボストン公共図書館と協力して何百万ものパブリック ドメインの新聞記事をスキャンし、将来的にはより多くのパートナーと同様のコラボレーションを計画しています。さらに、ハーバード大学は Google と協力して、データセットの公開配布を実現する方法について話し合っています。
このプロジェクトは、著作権リスクなしで高品質の AI トレーニング教材を提供することを約束するいくつかの同様の取り組みに参加します。将来的には、より多くのパブリック ドメイン データセットが利用可能になるため、AI 企業は著作権関連の法的リスクを軽減しながらモデルをトレーニングするための選択肢が増えるでしょう。
ハーバード大学によるこの動きは、人工知能研究に高品質のデータリソースを提供するだけでなく、AIトレーニングデータソースの著作権問題を解決するための新しいアイデアを提供し、人工知能分野の健全な発展と公正な競争を促進することが期待されます。将来。 このプロジェクトの実施が成功すれば、業界全体に大きな影響を与えるでしょう。