100 萬本公共領域書籍，為 AI 訓練提供合法數據

來源：IT之家

據 TechCrunch 12 日報道，哈佛大學與谷歌宣布，聯合發布 100 萬本公共領域書籍作為 AI 訓練數據集。

AI 訓練所需的數據成本高昂，但卻更適合資金充裕的科技公司。因此，哈佛大學計劃發布一個包含約 100 萬本公共領域書籍的數據集，這些書籍覆蓋多種類型、語言和作者，包括已不再受版權保護的經典作家如狄更斯、但丁和莎士比亞等，因這些作品的版權已隨時間過期。

雖然這個新數據集尚未公開，也不清楚具體的發布方式和時間，但它來源于谷歌的長期項目 —— 谷歌圖書（Google Books）。因此，谷歌將參與這次“寶貴財富”的廣泛發布。

據IT之家了解，早在今年 3 月，哈佛大學就曾透露其“機構數據計劃（IDI）”，并表示這一計劃旨在為 AI 提供“合法數據的可信通道”。直到正式啟動后，該計劃才確認得到了微軟和 OpenAI 的資金支持。

IDI 的執行董事格雷格?萊佩特（Greg Leppert）表示，該數據集的目標是“讓競爭環境更加公平”，通過向包括研究機構和 AI 初創公司在內的各類機構開放這一龐大的數據集，以幫助他們訓練大型語言模型。

上一篇 AMD與微軟強強攜手，開啟 Windows 11 AI+ PC新時代！

yxqyxx.cn-中文字幕色AV一区二区三区,精品久久久久久综合日本,嗯灬啊灬把腿张开灬动态图,精品国产一区二区三区久久影院