央視網|中國網絡電視臺|網站地圖 |
客服設為首頁 |
早在計算機誕生之初的上世紀40年代,人類就開始了對用計算機自動進行人類語言翻譯的夢想的追逐。幾十年來,作為自然語言處理領域最重要的研究方向之一,機器翻譯技術不斷取得突破。6月30日,百度完全自主投入、研發的在線翻譯産品百度翻譯(http://fanyi.baidu.com/)正式上線,受到了業界和用戶的普遍關注。這款由世界級頂尖機器翻譯研發團隊歷時一年多時間打造的最新翻譯工具,也曾遭遇過瓶頸困惑期。百度翻譯研發負責人日前獨家披露産品背後的故事。
組建頂尖機器翻譯團隊
互聯網的出現,為機器翻譯的研發和應用帶來了空前的機遇和挑戰。在中文搜索領域處於絕對領先地位的百度,也敏銳意識到了機器翻譯的重要性,並於2010年初,組建了由世界級機器翻譯專家王海峰博士和吳華博士領銜的機器翻譯核心研發團隊。他們二人皆有著10年以上的機器翻譯研發經驗,曾成功開發過機器翻譯産品,也曾在國際機器翻譯評測中以絕對優勢獲得第一,併發表過數十篇高水平機器翻譯論文。王海峰更是自然語言處理領域世界上影響力最大、也最具活力的國際學術組織ACL(Association for Computational Linguistics)50年曆史上唯一當選副主席的華人。
技術攻關解圍一個月的困惑
由3名正式員工和1名實習生組成的百度最初的機器翻譯核心研發團隊成立後,便迅速開始了百度機器翻譯的研發。調研、規劃、語料抓取、訓練工具、解碼器等工作全面鋪開。
在百度做機器翻譯,一個重要優勢就在於,百度強大的海量計算平臺和豐富的海量互聯網數據處理經驗,可以支撐機器翻譯團隊從海量互聯網數據中挖掘超大規模的雙語語料。作為機器翻譯領域資深專家,王海峰非常清楚這些雙語資源在機器翻譯中的價值。於是,雙語語料的探測、抓取和處理,就成了百度機器翻譯團隊初期的重要工作之一。
隨著工作的開展,雙語語料數量也迅速增加,當達到1000萬句對的規模時,團隊成員們都十分振奮,從事機器翻譯工作多年的他們,從未使用這麼大規模的雙語語料訓練過系統。但當看到基於這1000萬語料訓練的系統的翻譯結果時,大家一下子都沉默了,翻譯質量遠比預期要低!仔細分析後發現,雖然這1000萬語料已經是從更多的語料中選出的質量較高的部分,卻仍有一大半的低質句對,例如:“how old are you”這麼常用而簡單的英文在網上卻被大量地翻譯為“怎麼老是你”,“好好學習、天天向上”這句大家耳熟能詳的中文,在抓取回來的語料中,大多數都被翻為了“good good study, day day up”。這樣的句對,利用已經使用的常規雙語處理技術很難過濾掉。而如果不解決這個問題,語料規模再大也沒有意義。於是,語料工作的重點迅速轉到了低質語料處理。
接下來的一個月,大家反復地分析、開發及實驗,但又一次次陷入困惑,大量被同行證明行之有效的方法一時間都失靈了,成功過濾的低質語料不足10%。經過這個過程,大家逐漸看清了一點,解鈴還須繫鈴人,要想有效處理與傳統的文本數據差別非常大的互聯網數據,還要更多地將傳統文本處理技術與互聯網技術相結合。於是1個月後,一套全新的互聯網雙語語料挖掘技術方案出爐了。基於這套技術,1000萬句對被有效過濾到約400萬。令大家興奮的是,過濾過的400萬語料訓練出來的系統,其質量遠遠好于基於1000萬句對訓練的系統。新的互聯網雙語語料挖掘技術成功了!
之後的時間裏,高質量雙語語料不斷增加,翻譯系統質量得以一路攀升。
更本地化擅長網絡流行語
僅僅一年多的時間裏,百度翻譯即以令業界驚嘆的速度上線發佈,並獲得大量用戶的肯定。與業界同類産品相比,百度翻譯具有四大技術亮點:機器翻譯核心技術、語料挖掘和過濾技術、海量計算技術、可靠的web前端技術。
依託于百度在中文互聯網技術上的優勢,百度翻譯尤其對中文網絡語言有著獨特的應對能力。如翻譯“有木有、我勒個去、神馬都是浮雲”等網絡流行語,百度都能準確翻譯。從評測結果來看,百度翻譯在應對日常用語和網絡語言方面優勢明顯,尤其在翻譯結果忠實反映原文語義及符合目標語言習慣這兩項指標上表現出色。如在百度翻譯輸入“你們有什麼要問的嗎?”,百度翻譯結果為達意貼切的“Do you have any questions?”;而在其他較為熱門的在線翻譯工具中輸入該詞,則分別出現了“What you have to ask it?”、“What do you have to ask?”等含偏差理解和語法錯誤的翻譯結果。
百度翻譯相關負責人最後表示,百度翻譯團隊對機器翻譯技術突破和産品完善的追求永無止境,期待更多用戶使用體驗和反饋,以不斷提升翻譯質量和産品功能,讓用戶受益。