7月17日,據媒體報道,包括蘋果、英偉達、Salesforce和Anthrophic在内的一些大型科技公司,被曝在訓練AI模型時使用了來自谷歌旗下視頻網站YouTube的未授權數據。這些公司使用了一個由第三方提供的數據集,其中包含從YouTube上抓取的大量視頻字幕文本,違反了YouTube禁止從平台上未經許可抓取内容的規定。報道指出,這些科技公司在訓練AI模型時都使用了一個名為「YouTube Subtitles(YouTube字幕)」的數據集,大小為5.7GB,包含4.89億個單詞,來自Youtube上超過4.8萬個頻道中的17.35萬個視頻。該數據集由視頻字幕的純文本組成,包括視頻博主上傳的部分和Youtube自動轉錄的文本,除了英語外,通常還附帶日語、德語和阿拉伯語等語言的翻譯。(財聯社)
財華網所刊載內容之知識產權為財華網及相關權利人專屬所有或持有。未經許可,禁止進行轉載、摘編、複製及建立鏡像等任何使用。
如有意願轉載,請發郵件至content@finet.com.hk,獲得書面確認及授權後,方可轉載。
更多精彩內容,請登陸
財華香港網 (https://www.finethk.com/)
財華智庫網(https://www.finet.com.cn)
現代電視 (https://www.fintv.hk)