央視網 >數智頻道

40億數據灌注國內首個古籍處理與研究開源智慧工具

副標題：

來源：科技日報 | 2024-01-08 13:10:33

科技日報 | 2024-01-08 13:10:33

正在加載

“秦淮佳麗地，城闕望中迷。柳暗青絲發，花香碧玉衣。歌樓留夜色，畫閣斂春暉。細雨輕舟去，雙魚夢澤飛。”這是近日上線的“荀子”古籍大語言模型（以下簡稱“荀子”）以“金陵”為題，生成的一首古詩。

記者了解到，“荀子”是國內首個專門應用於古籍處理與研究的開源智慧工具，由南京農業大學王東波教授研究團隊聯合古聯（北京）數字傳媒科技有限公司發佈。它依託國家社科基金重大項目“中國古代典籍跨語言知識庫構建及應用研究”，基於40億字的大型混合語料數據生成。

“數據是大模型的基礎。”王東波介紹，在“荀子”的研發過程中，研究團隊在人工智慧通用模型的基礎上，灌注了繁簡體《四庫全書》等20億字的古代漢語語料和文化領域的20億字的現代漢語語料，使“荀子”具有古籍智慧標引、古籍信息抽取、詩歌生成、古籍高質量翻譯、閱讀理解等功能。

“對於漢語言研究者來説，他們還可以利用‘荀子’完成古籍詞法分析、實體識別、關係抽取、文本分類與匹配、文本摘要等工作。”王東波舉例，如果要研究《史記·陳涉世家》的人物關係，就可以用“荀子”識別這篇文章中的人物名稱和關係名詞，再用知識圖譜的方式呈現人物關係圖譜，從而提高檢索、查詢、研究的效率。

王東波介紹，此次發佈的“荀子”大模型中的基座模型，還可以讓用戶根據自己的需求對“荀子”進行微調，幫助用戶開展更有針對性的研究。

“荀子”是怎麼做到化繁為簡、通讀古今的？“核心是‘算力充足’並且‘飽讀詩書’。”王東波介紹，“荀子”的順利問世離不開南京農業大學提供的高性能算力基礎設施支持，以及研究團隊長期積累的精加工語料庫。

“模型的構建受算力、場景應用等多方影響，但精準度較高的優質數據是最為關鍵的。”王東波表示，研究團隊自2013年起，一直專注於人工精標注數據的工作。

“比如要訓練大模型自動標注《岳陽樓記》中的形容詞，首先需要人工標注這篇文章中的形容詞。在積累了大量的人工標注後，再讓機器進行學習。”王東波説，這項“坐冷板凳”的基礎標注工作，他們一做就是10年。

“我們期待能將古籍的智慧化研究與跨學科的人才培養相結合，讓學生既有前瞻的科研視野，又能積累較為深厚的人文底蘊。”王東波表示，研究團隊希望能讓更多人接觸古籍、品讀古籍、傳播古籍，讓“故紙堆”重新煥發活力，推動中華優秀傳統文化創造性轉化、創新性發展，賡續中華文脈。

王東波介紹，“荀子”除了能讓人們更順暢地閱讀古籍內容，推動古籍整理、古籍數字化、古籍活化利用與傳播之外，未來還可應用於人工智慧寫作、人工智慧教學、數字文娛等領域。

編輯：阮崢責任編輯：

點擊收起全文

返回央視網首頁返回數智頻道

掃一掃分享到微信

熱點推薦

正在閱讀：40億數據灌注國內首個古籍處理與研究開源智慧工具

掃一掃分享到微信

手機看

掃一掃手機繼續看

A- A+