40億數據灌注國內首個古籍處理與研究開源智慧工具

副標題:

來源:科技日報 | 2024-01-08 13:10:33
科技日報 | 2024-01-08 13:10:33
原標題:
正在加載

“秦淮佳麗地,城闕望中迷。柳暗青絲發,花香碧玉衣。歌樓留夜色,畫閣斂春暉。細雨輕舟去,雙魚夢澤飛。”這是近日上線的“荀子”古籍大語言模型(以下簡稱“荀子”)以“金陵”為題,生成的一首古詩。

記者了解到,“荀子”是國內首個專門應用於古籍處理與研究的開源智慧工具,由南京農業大學王東波教授研究團隊聯合古聯(北京)數字傳媒科技有限公司發佈。它依託國家社科基金重大項目“中國古代典籍跨語言知識庫構建及應用研究”,基於40億字的大型混合語料數據生成。

“數據是大模型的基礎。”王東波介紹,在“荀子”的研發過程中,研究團隊在人工智慧通用模型的基礎上,灌注了繁簡體《四庫全書》等20億字的古代漢語語料和文化領域的20億字的現代漢語語料,使“荀子”具有古籍智慧標引、古籍信息抽取、詩歌生成、古籍高質量翻譯、閱讀理解等功能。

“對於漢語言研究者來説,他們還可以利用‘荀子’完成古籍詞法分析、實體識別、關係抽取、文本分類與匹配、文本摘要等工作。”王東波舉例,如果要研究《史記·陳涉世家》的人物關係,就可以用“荀子”識別這篇文章中的人物名稱和關係名詞,再用知識圖譜的方式呈現人物關係圖譜,從而提高檢索、查詢、研究的效率。

王東波介紹,此次發佈的“荀子”大模型中的基座模型,還可以讓用戶根據自己的需求對“荀子”進行微調,幫助用戶開展更有針對性的研究。

“荀子”是怎麼做到化繁為簡、通讀古今的?“核心是‘算力充足’並且‘飽讀詩書’。”王東波介紹,“荀子”的順利問世離不開南京農業大學提供的高性能算力基礎設施支持,以及研究團隊長期積累的精加工語料庫。

“模型的構建受算力、場景應用等多方影響,但精準度較高的優質數據是最為關鍵的。”王東波表示,研究團隊自2013年起,一直專注於人工精標注數據的工作。

“比如要訓練大模型自動標注《岳陽樓記》中的形容詞,首先需要人工標注這篇文章中的形容詞。在積累了大量的人工標注後,再讓機器進行學習。”王東波説,這項“坐冷板凳”的基礎標注工作,他們一做就是10年。

“我們期待能將古籍的智慧化研究與跨學科的人才培養相結合,讓學生既有前瞻的科研視野,又能積累較為深厚的人文底蘊。”王東波表示,研究團隊希望能讓更多人接觸古籍、品讀古籍、傳播古籍,讓“故紙堆”重新煥發活力,推動中華優秀傳統文化創造性轉化、創新性發展,賡續中華文脈。

王東波介紹,“荀子”除了能讓人們更順暢地閱讀古籍內容,推動古籍整理、古籍數字化、古籍活化利用與傳播之外,未來還可應用於人工智慧寫作、人工智慧教學、數字文娛等領域。

編輯:阮崢 責任編輯:
點擊收起全文
掃一掃 分享到微信
|
熱點推薦
正在閱讀:40億數據灌注國內首個古籍處理與研究開源智慧工具
掃一掃 分享到微信
手機看
掃一掃 手機繼續看
A- A+