1月5日,美國人工智慧公司OpenAI表示,正在與數十家出版商洽談達成文章授權協議,以獲取內容來訓練其人工智慧模型。2023年12月27日,《紐約時報》起訴OpenAI和微軟公司,指控這兩家公司未經許可使用其數百萬篇文章訓練人工智慧模型。而早在2023年3月,就有消息顯示谷歌Bard模型的部分訓練數據來源於ChatGPT。
這些事件劍指同一個問題——大模型高質量語料短缺。“對於從頭開始訓練的模型,語料短缺會在非常大的程度上限制大模型發展。”近日,哈爾濱工業大學(深圳)計算機科學與技術學院教授邵睿在接受科技日報記者採訪時説:“增加語料對於提升大模型能力的邊際效益正在減弱,高質量語料的缺乏正日益成為限制大模型發展的瓶頸。”
大模型訓練語料短缺問題嚴重
科技部新一代人工智慧發展研究中心2023年發佈的《中國人工智慧大模型地圖研究報告》顯示,從全球已發佈的大模型數量來看,中國和美國大幅領先,佔全球總數的80%以上。
雖然大模型發展如火如荼,但大模型高質量語料短缺已成為全球共性問題。公開資料顯示,大模型對數據供給要求極高。比如,訓練GPT-4和Gemini Ultra大概需要4萬億至8萬億個單詞。麻省理工學院等高校研究人員預測,到2026年之前,機器學習數據集可能會耗盡所有可用的高質量語料數據。研究機構EpochAI亦公開表示,最早在2024年,人類就可能會陷入訓練數據荒,屆時全世界的高質量訓練數據都將面臨枯竭。OpenAI也公開表達過對數據告急的擔憂。
值得注意的是,當前大模型數據集主要為英文。中文語料面臨的短缺問題更加嚴峻。
中國工程院院士、鵬城實驗室主任高文曾公開表示,全球通用的50億大模型數據訓練集裏,中文語料佔比僅為1.3%。
上海數據交易所市場發展部副總經理章健此前公開表示,當前大模型行業存在語料供應不足的問題,特別是在垂直細分領域,一些共享、免費下載的語料數量雖然大,質量卻不高。“我們在追求語料數量增長的同時,也要重視質量。”章健説。
高質量語料應具備七大特徵
那麼,何為高質量語料?記者採訪時,包括騰訊、商湯科技、哈爾濱工業大學(深圳)等企業和高校專業人士均給出一致答案:高質量語料應具備多樣性、大規模、合法性、真實性、連貫性、無偏見和無害等七大特徵。
邵睿表示,高質量語料應具有多樣性高、句式流暢的特點。騰訊機器學習平臺算法負責人康戰輝認為,語料的多樣性是保證語料質量的基礎,要通過不同的途徑採集新聞、小説、詩歌、科技文章等不同類型的語料。這有助於大模型學習到更豐富的語言表達。
同時,高質量語料要具有較大規模,因為大模型需要大量語料來學習語言規律並提高泛化能力。只有擁有充足的語料,大模型才能更好地捕捉細微的語言特徵。
此外,高質量語料應是合法且無害的。不合法或有害的語料可能導致模型産生不恰當的回答或建議,或無意中洩露他人隱私。
“高質量語料還應該具有真實性和連貫性,以便讓大模型更好地理解語境並生成符合邏輯的回答。”康戰輝説,語料庫應該充分反映語料的多樣性並避免偏見,這樣大模型在不同場景下回答不同用戶的問題時才能做到盡可能科學客觀。
完善相關機制提高語料質量
記者在採訪中了解到,目前訓練大模型的語料有一部分是從數據公司購買的,也有一部分是從網絡公開語料或者公開數據集中獲取並整理的。“從數據公司購買的語料質量較高,並且大多是垂域數據,但其數據量較少且價格較貴。”邵睿説,“網絡公開語料通用性較好,數據量大,但數據質量無法保證,數據格式難以統一。”
“人類産生的有效信息,包括大量高價值信息可能不一定是互聯網數據,而是沉散在各行各業裏的數據。”商湯科技發言人説,“怎樣更多匯聚數據,設計更多、更好的網絡結構,用更多的計算資源去支撐更大容量的高質量語料,産生更強的智慧,是一個至關重要的問題。”這位發言人認為,要解決語料問題,不僅要靠增加語料總量,還需要提高語料質量,甚至要考慮完善數據交換機制,推動人工智慧數據基礎設施化。
正如這位發言人所説,目前業界正在採取一些措施,推動數據交換機制的建設。記者梳理髮現,2023年7月,深圳數據交易所聯合近50家單位成立開放算料聯盟。該聯盟將圍繞高質量中文訓練數據和多模態訓練數據,協調數據要素、數據治理、訓練數據、數據標注、合成數據等相關標準制定,協助數據交易所增加與大模型相關的新品類和新專區。
同樣是2023年7月,在2023世界人工智慧大會現場,中國大模型語料數據聯盟成立。同年8月,上海人工智慧實驗室宣佈,聯合中國大模型語料數據聯盟成員單位共同開源發佈“書生·萬卷”1.0多模態預訓練語料。這次開源的數據總量超過2TB,包含超5億個文本、2200萬個圖文交錯文檔、1000個影像視頻。
除了建設更為完善的體制機制,數據清洗等技術手段也能在一定程度上解決高質量語料短缺難題。但要看到,這些技術手段有較高門檻。商湯科技發言人透露,該公司在數據清洗的過程中投入了上千塊GPU的算力。OpenAI在無數場合介紹過GPT-4訓練的經驗,但從未公開過數據清洗的經驗。