一段包含中文、英語、韓語、日語、阿拉伯語、越南語等40種語言的文字如何理解?大多數人做不到的事情,經過訓練的人工智慧機器卻能做到。
在近日舉辦的世界權威多語言理解評測XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)中,哈工大訊飛聯合實驗室(HFL)團隊以總平均分84.1位列榜首,刷新世界記錄。
XTREME評測旨在全面考察模型的多語言理解與跨語言遷移能力。與以往單語言自然語言理解評測任務不同的是,XTREME中的每一個任務都覆蓋了多種語言,並且包含句對分類、序列標注、閱讀理解、句子檢索賽道,共四大類九個任務。
那麼,機器是如何做到多語言理解的?比賽負責人、哈工大訊飛聯合實驗室核心技術研究員楊子清介紹,他們通過自主研發的跨語言對比學習技術,利用知識蒸餾技術進行自監督學習和知識遷移,鼓勵模型學習不同語言中的語義相似性,與此同時,還創新性地融入了細粒度的語言學特徵,幫助模型克服訓練不足的困難,解決低資源語言學習不充分的問題,同時使之適應不同語言的形態學特點。
“這就意味著,通過本土語言學習,機器可以在少量其他語言語料的情況下,通過類比學會這門語言,減少了收集語料、語音標注等大量工作。”楊子清補充解釋。
除了多語言,科大訊飛還在少數民族語言處理方面推出了預訓練模型CINO(Chinese mINOrity pre-trained language model)。
楊子清介紹,“少數民族語言處理是中文信息處理中不可缺少的一環,也是中文信息處理多樣性的一種體現。這項技術的進步將極大改善我國少數民族語言學習問題。”
國內少數民族語言語料稀缺、獲取難度大等原因,相關技術研究相對匱乏,而主流的多語言模型也無法很好地處理國內少數民族語言文字。“希望未來能夠進一步促進業內少數民族語言相關的技術研究,推動少數民族語言相關技術的應用落地。未來支持各少數民族語言的多語言搜索引擎等文字應用工具或將成為可能。”楊子清説。