哈佛大學發布千萬級書籍資料集為AI模型提供高品質訓練材料

作者：Eve Cole 更新時間：2024-12-16 15:32:01

哈佛大學斥巨資發布近百萬本公共領域書籍資料集，旨在促進人工智慧領域公平競爭，推動AI技術發展。該計畫由哈佛大學機構數據計畫主導，並獲得微軟和OpenAI的資助，數據集包含了從經典文學到專業學術文獻的豐富內容，為小型AI公司和個人研究者提供了寶貴的資源，彌合了與大型科技公司的數據差距。此舉也為人工智慧領域訓練資料來源提供了新的思路，並試圖在版權問題日益複雜的背景下，探索一條可持續發展的道路。

哈佛大學近日宣布，計劃發布一個由近100萬本公共領域書籍組成的資料集，任何人都可以使用該資料集來訓練大型語言模型和其他人工智慧工具。

此計畫由哈佛大學新成立的機構數據計畫（Institutional Data Initiative）主導，並在微軟與OpenAI的資助下完成。該資料集包括來自GoogleBooks專案的掃描書籍，涵蓋了莎士比亞、狄更斯、但丁等經典作品，以及一些晦澀的捷克數學教科書和威爾斯字典等內容。

AI助教机器人

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

這套資料集被稱為「Books3資料集」的五倍大，旨在為人工智慧領域提供一個公平的競爭環境，讓大眾，特別是小型AI公司和個人研究人員，能夠存取到通常只有大型科技公司才能收集到的高品質數據。格雷格•萊珀特（Greg Leppert）表示，該項目經過了嚴格篩選，內容精心策劃。

微軟副總裁伯頓戴維斯強調，微軟支持該計畫的目的是為了為新創公司創建一個“可訪問數據池”，並確保這些數據以“公眾利益為基礎”進行管理。 OpenAI的智慧財產權主管湯姆魯賓也表示，該公司很高興能夠支持這項計畫。

隨著關於AI使用版權資料的訴訟不斷增多，類似哈佛這一公共領域資料集的計畫正在成為AI訓練資料的一個重要來源。雖然目前還不清楚該數據集具體如何發布，但它預計將為企業提供大量高品質的數據，同時避免版權問題的困擾。

哈佛大學的「機構資料倡議」計畫不僅限於書籍，還與波士頓公共圖書館合作，掃描了數百萬篇公共領域的報紙文章，並計劃將來與更多合作夥伴進行類似合作。此外，哈佛也正在與Google合作，討論如何實現資料集的公共分發。

這項計畫將加入多個類似的倡議，這些計畫也承諾提供高品質的AI訓練材料，並且避免版權風險。未來，隨著更多公共領域資料集的出現，AI公司將有更多的選擇來訓練其模型，同時減少版權相關的法律風險。

哈佛大學此舉不僅為人工智慧研究提供了高品質的資料資源，也為解決AI訓練資料來源的版權問題提供了新的思路，未來有望促進人工智慧領域的健康發展和公平競爭。該計畫的成功實施將對整個產業產生深遠影響。