央視網|中國網絡電視臺|網站地圖
客服設為首頁
登錄

中國網絡電視臺 > 新聞臺 > 新聞評論 >

機器學習與互聯網搜索

發佈時間:2011年08月08日 05:29 | 進入復興論壇 | 來源:人民日報


評分
意見反饋 意見反饋 頂 踩 收藏 收藏
channelId 1 1 1
壟!-- /8962/web_cntv/dicengye_huazhonghua01 -->

更多 今日話題

壟!-- /8962/web_cntv/dicengye_huazhonghua02 -->

更多 24小時排行榜

壟!-- /8962/web_cntv/dicengye_huazhonghua03 -->

  當你打開互聯網搜索引擎,輸入關鍵詞尋找並得到想要的鏈結時,"機器學習"已經貫穿整個過程:搜索到的內容是機器根據無數人搜索關鍵詞的統計結果,返回的最可能被需要的目標信息;而同時,你的這一次搜索行為也已經被機器記錄,加入到它的龐大無比的數據庫中,用來了解人的搜索習慣和需求。

  隨著計算機與網絡的飛速發展,機器學習作用越來越大,正在改變著我們的生活和工作。互聯網搜索、在線廣告、機器翻譯、手寫識別、垃圾郵件過濾等等都是以機器學習為核心技術的。

  微軟亞洲研究院互聯網搜索與挖掘組高級研究員李航博士介紹説,機器學習是關於計算機基於數據構建模型並運用模型來模擬人類智慧活動的一門學科。機器學習實際上體現了計算機向智慧化發展的必然趨勢。現在當人們提到機器學習時,通常是指統計機器學習或統計學習。實踐表明,統計機器學習是實現計算機智慧化這一目標的最有效手段。

  機器學習最大的優點是它具有泛化能力,也就是可以舉一反三。無論是在什麼樣的圖片中,甚至是在抽象畫中,人們能夠輕而易舉地找出其中的人臉,這種能力就是泛化能力。

  當然,統計學習的預測準確率不能保證100%。

  李航説,機器學習是"鄉下人"的辦法。有個笑話。一個鄉下人進城,到餐館吃飯,不知如何在餐館用餐,就模倣旁邊的人。別人做什麼,他也就學著做什麼。鄰桌的一位故意戲弄他,將桌上的蠟燭卷在餅裏,趁鄉下人不注意時把蠟燭扔到地上,然後咬了一口卷著的餅。鄉下人也跟著學,大咬了一口自己的餅。機器學習只是根據觀測,"模倣"人的智慧行為,有時能夠顯得非常智慧化。但如果觀測不到關鍵的特徵,它就會去"咬卷著蠟燭的餅"。

  據調查,60%的互聯網用戶每天至少使用一次搜索引擎,90%的互聯網用戶每週至少使用一次搜索引擎。搜索引擎大大提高了人們工作、學習以及生活的質量。而互聯網搜索的基本技術中,機器學習佔據著重要的位置。

  在李航看來,互聯網搜索有兩大挑戰和一大優勢。挑戰包括規模挑戰與人工智慧挑戰;優勢主要是規模優勢。

  規模挑戰:比如,搜索引擎能看到萬億量級的網址,每天有幾億、幾十億的用戶查詢,需要成千上萬台的機器抓取、處理、索引網頁,為用戶提供服務。這需要系統、軟體、硬體等多方面的技術研發與創新。

  人工智慧挑戰:搜索最終是人工智慧問題。搜索系統需要幫助用戶儘快、盡準、盡全地找到信息。這從本質上需要對用戶需求如查詢語句,以及互聯網上的文本、圖像、視頻等多種數據進行"理解"。現在的搜索引擎通過關鍵詞匹配以及其他"信號",能夠在很大程度上幫助用戶找到信息。但是,還是遠遠不夠的。

  規模優勢:互聯網上有大量的內容數據,搜索引擎記錄了大量的用戶行為數據。這些數據能夠幫助我們找到看似很難找到的信息。比如,"紐約市的人口是多少","春風又綠江南岸作者是誰"。另一方面,低頻率的搜索行為對人工智慧的挑戰就更顯著。

  李航説,現在的互聯網搜索在一定程度上能夠滿足用戶信息訪問的一些基本需求,也是因為機器學習在一定程度上能夠利用規模優勢去應對人工智慧挑戰。但距離 "有問必答,準、快、全、好"這一理想還是有一定距離的,這就需要開發出更多更好的機器學習技術解決人工智慧的挑戰。

責任編輯:魏錚

熱詞:

  • 機器學習
  • 統計學習
  • 互聯網用戶