7月17日,據媒體報道,包括蘋果、英偉達、Salesforce和Anthrophic在内的一些大型科技公司,被曝在訓練AI模型時使用了來自谷歌旗下視頻網站YouTube的未授權數據。這些公司使用了一個由第三方提供的數據集,其中包含從YouTube上抓取的大量視頻字幕文本,違反了YouTube禁止從平台上未經許可抓取内容的規定。報道指出,這些科技公司在訓練AI模型時都使用了一個名為「YouTube Subtitles(YouTube字幕)」的數據集,大小為5.7GB,包含4.89億個單詞,來自Youtube上超過4.8萬個頻道中的17.35萬個視頻。該數據集由視頻字幕的純文本組成,包括視頻博主上傳的部分和Youtube自動轉錄的文本,除了英語外,通常還附帶日語、德語和阿拉伯語等語言的翻譯。(財聯社)
更多精彩內容,請登陸
財華香港網 (https://www.finethk.com/)
現代電視 (http://www.fintv.com)