◎本報記者 薛 岩
人工智慧正在科研方面展現出巨大潛力。然而,隨着其應用逐步加深,一些問題也浮出水面:大模型解決學科領域問題的效能如何?科學數據供給的質量如何?是否有“裁判員”對大模型科研能力進行評價?
近日,由中國科學院計算機網絡信息中心&&建設的科學地平線(SciHorizon)平臺正式上線。作為國際首個聚焦“數據+模型”角度、面向人工智慧驅動科學研究的綜合評價平臺,科學地平線旨在評估大模型在科研領域的應用能力以及科學數據質量,為科研人員使用大模型高效解決科學問題提供參考。
在科學地平線網站的大模型科學領域能力測試榜單中,用戶可根據不同學科瀏覽對應大模型排名。例如,在全學科排名中,DeepSeek-R1以71.68的綜合評分暫列第一。
“考慮到一種大模型並非在所有學科領域都能展現出非凡能力,我們對學科類型進行分類,包括全學科、數學、物理學、化學、生命科學、地球與空間科學6種。”中國科學院計算機網絡信息中心研究員祝恒書介紹,在不同學科下,依據知識、理解、推理、價值觀、多模態這5項評價指標,大模型的表現能力會被重新排序。科研人員能據此迅速找到適配度高且綜合能力更強的大模型輔助科學研究。
祝恒書補充説,針對大模型幻覺問題,團隊正在構建能將科學價值觀納入評價的指標體系,推動大模型在回答科學問題時遵守科學倫理和道德規範,實現價值觀對齊。
高質量數據是大模型的“成長燃料”。數據越豐富,大模型能“學到”的知識越多,能力也就越強。但是,並非所有數據都會幫助大模型不斷“成長”。只有高質量數據能讓大模型變得更“聰明”,低質量數據則會讓大模型“變笨”。
在科學地平線網站的高質量科學數據推薦榜單頁面上,分別列出了地球科學、生命科學、材料科學領域排名前十的數據集。其中,在地球科學領域,由中國科學院青藏高原研究所等機構發佈的“中國氣象驅動數據集(1979—2018)”暫列首位。
祝恒書介紹,為確保評價體系的合理性和公平性,研究團隊共收集國內高校、科研院所等上百家機構發佈的數據集,並從規範性、可用性、可解釋性、合規性4個維度對數據集作出評價。每一維度下,還設置了不同子指標。“通過考核子指標,我們可以發現數據是否在某一維度內符合標準,從而對科學數據的質量作出綜合評價。”祝恒書説。
“我們希望通過對高質量數據特徵進行深度解析,為科研人員開展科學研究提供便利。”祝恒書表示,未來團隊將構建“數據—場景—價值”的轉化閉環,讓每份數據都能在産業升級中釋放最大動能。
不少專家預測,智慧體將在科學研究中釋放巨大潛力。祝恒書介紹,團隊目前正開展面向科學領域的多智慧體研究工作,並已在人工智慧數字細胞方向取得階段性進展,未來還將部署建設相關評測系統。
“該系統將聚焦科學工具調用與環境交互能力、跨領域協作能力和複雜任務拆解效能等核心指標,建立從基礎理論驗證到産業轉化落地的全鏈條評測標準,為科研人員高效運用大模型開展科研攻關提供科學化、系統化指引。”祝恒書説。
正在閱讀:大模型科研能力哪家強?評價參考來了