央視網|中國網絡電視臺|網站地圖
客服設為首頁
登錄

中國網絡電視臺 > 新聞臺 > 新聞中心 >

熱詞熱語怎麼選拔

發佈時間:2012年07月06日 14:44 | 進入復興論壇 | 來源:新民晚報 熱點專題 | 手機看視頻


評分
意見反饋 意見反饋 頂 踩 收藏 收藏
channelId 1 1 1
壟!-- /8962/web_cntv/dicengye_huazhonghua01 -->

更多 今日話題

壟!-- /8962/web_cntv/dicengye_huazhonghua02 -->

更多 24小時排行榜

壟!-- /8962/web_cntv/dicengye_huazhonghua03 -->

  《2011年中國語言生活狀況報告》最近發佈,傷不起、虎媽、淘寶體和另外7個詞,被宣佈為“十大新詞語”,十二五開局、喬布斯、利比亞局勢等則是“十大流行語”……

  許多人好奇,這兩個“十大”到底是怎麼“選拔”的?該不是一幫人圍一桌你一言我一語湊出來的吧?中國傳媒大學教授侯敏對此回應:怎麼可能?這可是歷經監測、過濾、篩選、釋義等一整套程序,從每年10億字的語料中像沙裏淘金那般“提煉”出來的。

  沙裏淘金,幾萬條中挑幾百個

  侯敏教授有著另一個頭銜:國家語言資源監測與研究中心有聲媒體語言分中心負責人。她介紹説,每年總量10億字的語料,取自平面媒體、有聲媒體和網絡媒體,並且逐年積累形成三大語料庫。

  語料備齊,先要人工“淘洗”一番,查找補正漏字、缺字、亂碼等,而後一股腦兒送進語言信息處理技術平臺,平臺上裝著全切分軟體、自動分詞軟體等。在電腦上輸入“我是學生”,立馬會被切分成我、是、學、生4個字與我、是、學生3個詞。

  把語料統統切分成詞語之後,需借助軟體把它們跟此前幾年的詞語作比對,去舊留新,剩下來的就構成了年度新詞語候選集──候選的詞語有多少?年均幾萬條。侯敏説,每年最終入圍的幾百個新詞語,就是從這幾萬條候選詞中遴選出來的。遴選完全由人工操作,選中的詞語還要逐條釋義,為此幾十名專家得集體工作兩個多月。

  相比新詞語,流行語的“選拔”簡單些。利用電腦軟體,統計出每個詞在365天中的生命週期長短、出現頻次高低等指標,然後對比前一年數據,使用頻率相倣的即刻淘汰,而一旦發現使用頻率“異峰突起”的,就留下。

  “額的神啊”“吊絲”為啥沒選上

  2011年度語言生活報告公佈後,有人對那些熱詞、熱語有意見:“跟我們的感覺不一樣啊?”“有些用得很多的網言網語怎麼沒入選,‘額的神啊’在哪兒?”“今年2月,我們就2011年度的熱詞、熱語向網友徵求意見時,就聽到了各種建議。”侯敏教授説,網友們舉出了不少新鮮的網絡用詞,問報告中怎麼不見蹤影?我跟他們解釋:網絡媒體語料庫在採集語料時以網站的新聞欄目為主,BBS論壇、網友留言與發帖不在其列,“‘額的神啊’僅在論壇裏熱度很高,所以‘落選’了。”

  今年,“吊絲”一詞的去留成了爭論最激烈的一個議題。經過一應前道工序,它也進入了候選集,但專家們犯難:不選吧?確是新詞,徵求意見時網友呼聲極高;選吧?這個詞品位不高,想準確釋義更難。“我們選詞有標準,得是新詞,得有一定使用頻率,得能反映當今社會生活,還得‘乾淨’,要有一定品位。” 文匯報(王樂)

熱詞:

  • 有聲媒體
  • 選拔
  • 侯敏
  • 自動分詞
  • 資源監測
  • 十大
  • 神啊
  • 新詞語
  • 吊絲
  • 網絡媒體