新聞頻道 > 科技新聞

AI發展：訓練數據即將遭遇瓶頸

來源：科技日報 | 2024年12月31日 11:53:40

科技日報 | 2024年12月31日 11:53:40

原標題：AI發展：訓練數據即將遭遇瓶頸

正在加載

　　得益於神經網絡規模的擴大以及海量數據的訓練，人工智慧（AI）在過去10年間突飛猛進。“做大做強”的策略，在構建大型語言模型（LLM）上取得了顯著成果，ChatGPT就是一個典型的例子。

　　然而，《自然》《麻省理工科技評論》等多家雜誌網站指出，AI擴展正逼近極限。一方面，AI“吞噬”著越來越多的能源；另一方面，滋養無數模型成長的傳統數據集，正被LLM開發人員過度開墾。

　　訓練數據即將遭遇的瓶頸已悄然浮現。有研究機構預測，到2028年左右，用於訓練AI模型的數據集典型規模將達到公共在線文本總估計量的規模。換句話説，AI可能會在大約4年內耗盡訓練數據。與此同時，數據所有者（如報紙出版商）開始打擊對其內容的濫用行為，進一步收緊了訪問權限，這將引發“數據共享”規模上的危機。為此，開發人員必須尋找變通之道。

　　數據集供需失衡

　　過去10年間，LLM的發展顯示出了對數據的巨大需求。自2020年以來，用於訓練LLM的“標記”（或單詞）數量已增長100倍，從數百億增加到數萬億。一個常見的數據集RedPajama，包含數萬億個單詞。這些數據會被一些公司或研究人員抓取和清洗，成為訓練LLM的定制數據集。

　　然而，可用互聯網內容的增長速度出乎意料的緩慢。據估計，其年增長率不到10%，而AI訓練數據集的大小每年增長超過一倍。預測顯示，這兩條曲線將在2028年左右交匯。

　　與此同時，內容供應商越來越多地加入軟體代碼或修改條款，阻止爬蟲及AI抓取其數據。在這些內容中，被明確標記為限制爬蟲訪問的數量，從2023年的不足3%猛增到了2024年的20%至33%之間。

　　當前，圍繞AI訓練中數據使用的合法性，試圖為數據提供商爭取應有賠償的多起訴訟正在進行。2023年12月，《紐約時報》向OpenAI及其合作夥伴微軟提起了訴訟，指控其侵犯了版權；今年4月，紐約市Alden全球資本旗下的8家報紙聯合發起了一起類似的訴訟。對此，OpenAI表示，《紐約時報》的訴訟“毫無根據”。

　　若法院最終站在內容提供商一方，支持其獲得經濟賠償，那麼對於AI開發人員，尤其是那些資金緊張的學者而言，獲取所需數據無疑將變得更加艱難。

　　新方法有待印證

　　數據匱乏對AI的傳統擴展策略構成了潛在挑戰。

　　尋找更多數據的一個途徑是收集非公開數據，如社交媒體消息或視頻文字記錄。然而，這種做法的合法性尚存爭議。

　　一些公司選擇使用自己的數據來訓練AI模型，如Meta利用虛擬現實頭顯收集的音頻和圖像進行訓練。但各公司政策不同，包括Zoom在內的一些公司則明確表示不會使用客戶內容訓練AI。

　　另一種選擇可能是專注于快速增長的專業數據集，如天文學或基因組學數據，但其對訓練LLM的可用性和實用性尚不清楚。

　　如果AI接受除文本之外的多種類型的數據訓練，可能會為豐富數據的涌入打開閘門。Meta首席AI科學家勒丘恩強調，人類通過觀察物體而“吸收”的數據遠超用於訓練LLM的數據量，機器人形態的AI系統或許能從中獲取經驗。

　　此外，製造數據也是解決之道。一些AI公司付費讓人們生成訓練內容，或使用AI生成的合成數據來訓練AI。這已成為一個潛在的巨大數據源。然而，合成數據也存在問題，如遞歸循環可能鞏固錯誤、放大誤解，並降低學習質量。

　　小模型更專更精

　　另一種策略是摒棄模型“越大越好”的開發觀念。一些開發者已在追求更高效、專注于單一任務的小型語言模型。這些模型需要更精細、更專業的數據以及更好的訓練技術。

　　12月5日，OpenAI發佈了新的OpenAI o1模型。儘管該公司未透露模型的規模或訓練數據集大小，但o1採用了新方法：在強化學習上投入更多時間，讓模型對每個回答進行更深入的思考。這標誌著一種轉變，即從依賴大規模數據集進行預訓練，轉向更注重訓練和推理。

　　當前，LLM可能已飽覽互聯網大部分內容，或許無需更多數據即可變得更智慧。美國斯坦福大學一項研究表明，模型從多次讀取給定數據集中學到的內容，與從相同數量的唯一數據中學習到的內容一樣豐富。

　　合成數據、專門數據集、多次讀取和自我反思等因素的結合，或將共同推動AI的進一步飛躍。

　　記者張佳欣

編輯：劉京京責任編輯：劉亮

點擊收起全文

返回央視網首頁返回新聞頻道

掃一掃分享到微信

返回頂部

望海熱線

xinwenxiansuo@staff.cntv.cn