來源:IT之家
據 TechCrunch 12 日報道,哈佛大學與谷歌宣布,聯合發布 100 萬本公共領域書籍作為 AI 訓練數據集。
AI 訓練所需的數據成本高昂,但卻更適合資金充裕的科技公司。因此,哈佛大學計劃發布一個包含約 100 萬本公共領域書籍的數據集,這些書籍覆蓋多種類型、語言和作者,包括已不再受版權保護的經典作家如狄更斯、但丁和莎士比亞等,因這些作品的版權已隨時間過期。
雖然這個新數據集尚未公開,也不清楚具體的發布方式和時間,但它來源于谷歌的長期項目 —— 谷歌圖書(Google Books)。因此,谷歌將參與這次“寶貴財富”的廣泛發布。
據IT之家了解,早在今年 3 月,哈佛大學就曾透露其“機構數據計劃(IDI)”,并表示這一計劃旨在為 AI 提供“合法數據的可信通道”。直到正式啟動后,該計劃才確認得到了微軟和 OpenAI 的資金支持。
IDI 的執行董事格雷格?萊佩特(Greg Leppert)表示,該數據集的目標是“讓競爭環境更加公平”,通過向包括研究機構和 AI 初創公司在內的各類機構開放這一龐大的數據集,以幫助他們訓練大型語言模型。