上海廣播電視臺節目資料中心暨上海音像資料館 閔友鋼 顧偉
摘 要:隨著媒體資産的不斷累積膨脹,未來我們需要一種智慧化的基於多媒體內容的跨媒體檢索引擎,從而和文本檢索形成互補。本文介紹了不同模態的多媒體特徵數據的相關度匹配,運用典型相關性理論來建立同構子空間以供其在公共平臺上的相似度比較,同時根據相關性反饋修正子空間中的拓撲關係,提高今後數據檢索的準確性和有效性,並從跨媒體檢索的實際應用角度探討了系統的檢索流程和總體框架結構,為今後系統的實施提供一種思路。
關鍵詞:跨媒體檢索;典型相關性;智慧化檢索
1 引言
經過多年的運營,目前,國內外的大型媒體企業都已累積了相當多的各類媒體資産;例如,上海東方傳媒集團有限公司(簡稱:SMG)經過幾年的數字化、網絡化改造,已建成了新聞媒資系統、財經媒資系統、中心媒資系統、節目管理信息系統、廣播媒資系統、圖書圖片管理系統等一系列的數字化內容管理系統和內容信息管理系統。與此同時,SMG又在進行節目信息應用門戶的建設,為上述各系統提供一個統一的檢索入口,整合了資源,提高了檢索效率,也提高了內容的使用率,而且應用門戶採用的搜索引擎對於檢索內容有較好的模糊語義理解,這對於提高搜索範圍,幫助查找內容提供了良好的途徑。
然而,一般的搜索引擎是基於關鍵詞索引的全文檢索,而檢索的文本內容是人為的對圖片、音頻和視頻等多媒體對象的標引,即全文檢索的結果很大程度上依賴了人工標引的詳細與否,況且不同人對相同圖像和聲音的認知以及描述語句都有差別,所以有時文本檢索的結果並不理想。而基於多媒體內容的檢索技術彌補了傳統基於文本檢索的不足,其利用媒體對象的顏色、紋理、形狀、音頻波形等特徵進行相似度匹配,獲取與媒體對象本質相關的檢索結果[1]。即便如此,我們所能獲取的檢索結果只是單一類型的媒體內容,而我們最終希望的是跨域的檢索。例如通過提交“火車”的畫面,可以檢索到關於“火車”的文字、圖片、音頻、視頻等各種類型的媒體對象,同樣地,可以提交“火車”的音頻來檢索其他有關“火車”的各類型數據。本文希望通過對跨媒體檢索技術的探討和研究,突破傳統檢索方法對多媒體語義的整體理解以及對媒體類型的限制,從而能為以後建設跨媒體的檢索系統,實現更加智慧化的檢索,提供一些新的思路。
2 跨媒體相關理論的介紹
近年來,理論界逐漸地出現了一系列關於跨媒體檢索技術的研究課題,這些研究的結果將為在應用層面上提供了理論基礎。以下將分別介紹幾類主要的跨媒體研究成果。
2.1 圖像與聲音的關聯搜索
通過建立跨媒體檢索中視與聽之間的相互關係[2],可以提供如何學習視音頻內容檢索中視頻特性和音頻特性之間跨媒體相關性的方法:即通過半監督式相關性保持映射方法來構建同構子空間,在此空間中原有視音頻特性的相關性得到保護,並運用交互的方法來優化圖像集合與音頻集合的關聯質量。
2.2 跨媒體檢索的索引結構
對於海量跨媒體檢索[3],可以分析網頁中不同類型媒體對象的鏈結關係,生成交叉參考圖,對查詢實例使用索引快速定位,在交叉參考圖中得到與查詢實例相關的候選對象,並按相似度大小排序。這種檢索的結果較順序檢索結果具有更好的價值,較適合海量跨媒體數據檢索。
2.3 綜合推理的多媒體語義挖掘
綜合推理模型的多媒體語義挖掘和跨媒體檢索技術[4],是根據多媒體對象底層特徵構造推理源,根據共生關係構造影響源場,根據偽相關反饋為檢索實例自適應地選擇不同檢索方法進行跨媒體檢索,同時利用基於日誌的長程反饋學習算法提高性能。
3跨媒體檢索方法的探討
首先讓我們來簡單分析一下不同類型多媒體數據之間檢索的核心難點是什麼。由於不同類型的多媒體數據所能抽取出的特徵向量都不相同,即各種多媒體對象具有不同的模態,所以跨媒體檢索的核心難點在於如何對各式各樣的底層特徵數據進行相關度匹配。因此在本章節中將分別介紹圖片、音頻、視頻的特徵值提取,運用典型相關性理論來建立同構子空間,以供其在公共的平臺上進行相似度比較,同時根據交互反饋的情況來不斷地修正數據集的拓撲關係。
3.1 媒體對象的特徵向量提取
(1)圖片特徵提取
圖片特徵目前用得較多的一般為顏色、紋理和形狀特徵三種,可以分別按照這三個大類來提取相應的數據向量,最後組成圖像的特徵向量集合。
(2)音頻特徵提取
從音頻信號採樣的離散信號中提取時域和頻域特徵,這些特徵組合在一起形成的特徵向量能夠互補,提取這幾類特徵後組成音頻特徵向量集合。
(3)視頻特徵提取
視頻包含圖像幀序列、伴音、字幕和語音文本等內容信息。以鏡頭切換處為分割點,將視頻分成若干片段,每個片段都由一系列圖片幀組成,根據(1)中提到的圖像特徵對一組圖片幀進行抽取,再用差值法統計每組圖片的特徵值;對於分割後的音頻片段屬於(2)中提到的情況,可做類似處理。
3.2 向量空間的建立
向量空間的建立採用典型相關分析[6],為兩個需要比較的特徵向量尋找一組基礎投影向量,使得投影后兩個向量的相關度與原來最大程度上保持一致。定義兩個變量矩陣
於是,保持相關度問題就歸結為尋找最優的Wx和Wy,使得L與M的相關度最大。也就是説我們要在滿足
按照上述特徵向量的映射方法,給定多個語義類別的圖片和音頻作為訓練數據,對於每個語義類別Zi,手動選擇一些與Zi語義相同的圖片Ai和音頻Bi進行語義標記;分別計算Ai和Bi的質心Ctr Ai,Ctr Bi;對圖片集和音頻集以Ctr Ai,Ctr Bi為初始質心進行聚類;根據聚類結果提取相應的特徵向量,並按照公式①的映射關係求得最優的Wx和Wy,以此作為基向量映射到低維子空間。向量空間的建立過程如圖1所示。
圖1 向量空間建立示意圖
3.3 相似度計算
將多媒體對象的特徵向量映射到多維空間坐標中,我們通過計算此空間中兩點的距離來表示它們之間的相似度,兩個點之間的距離越小,證明這兩個多媒體對象越相似。在這裡給出一種計算相似度的方法如下:
經過3.2節中的Wx和Wy投影變換後,我們可以獲得一組向量坐標,定義為
設兩個多媒體對象經映射後的向量為
用戶可以通過提交多媒體查詢實例R,在子空間中用公式②計算R與其他類型數據的距離,以此來衡量跨媒體相關性大小。
3.4 交互反饋
最終判定多媒體對像是否相似的決定權始終在用戶手中,通過用戶對跨媒體檢索系統中返回的結果作出評判並反饋給系統,系統再根據反饋內容對檢索結果作出調整。我們可以在公式②的基礎上添加一個平滑因子R來修正檢索結果,即
根據反饋結果賦予不同的值給平滑因子,從而再次計算相關度。借助相關反饋技術動態地調整系統特徵向量所佔的權重系數,從而縮小底層特徵和高層語義的鴻溝,同時這也是一個不斷訓練的過程,隨著交互反饋結果的增長,其今後的查找準確率也會越來越高。
4 跨媒體檢索系統的構建
最終我們是希望將跨媒體檢索技術應用到現有的媒體資産管理系統中去,本章節將介紹跨媒體檢索原型系統的結構以及跨媒體節目信息檢索應用門戶的架構,以此來直觀地説明跨媒體檢索的流程和總體的實施思路。
4.1 跨媒體檢索原型系統結構
根據第3章節中論述的跨媒體檢索方法,基本上可以構建出跨媒體檢索原型系統的核心模塊結構,可分為以下五個模塊:多媒體底層特徵數據提取模塊;特徵子空間構建模塊;特徵數據映射模塊;相似度計算檢索模塊;交互反饋模塊。跨媒體檢索的模塊結構如圖2所示。
從圖2中可以看出,該系統總體上包括了基礎數據的訓練和實時檢索兩個部分,而這五個模塊分別在其中擔當重要的職責。
(1)底層特徵數據提取模塊:對多媒體數據進行預處理,根據不同類型媒體對象的情況提取所需的分析數據,並進行存儲。
(2)特徵子空間構建模塊:挖掘多媒體數據在底層內容特徵上的典型相關性,運用第三章節中公式①,對給定的多媒體數據建立關聯並獲取特徵子空間的映射關係。
(3)特徵數據映射模塊:根據事先建立的映射關係對多媒體特徵數據映射成特徵子空間中的向量。
(4)相似度計算檢索模塊:對提交的多媒體對象,使用第三章節中的公式③計算多媒體距離來進行相關度匹配,返回相似的其他各種類型的多媒體結果。
(5)交互反饋模塊:用戶評判檢索結果的質量,系統自動根據反饋結果進行分析,學習並記憶分析結果,並對知識進行更新。
4.2 跨媒體檢索應用門戶的架構
跨媒體檢索目前只是理論和實驗階段,投入生産使用仍有較長的距離,故在此給出初步的應用設計架構,以説明跨媒體檢索技術在現有檢索門戶的擴展方法和工作流程。跨媒體檢索子系統的架構如圖3所示。
圖3 跨媒體檢索在媒資管理檢索門戶中的架構圖
5 總結
隨著不同媒體內容數字化的加速推進,我們能訪問到的不同類型的多媒體資源也越來越多,筆者認為未來多媒體檢索技術將會朝著基於多媒體內容本身的檢索以及不同模態多媒體對象之間的檢索的方向發展。智慧化的媒體資産檢索平臺應以更符合人類感官對外界事物認知的方式去提供搜索服務,而不同模態多媒體對象之間在高層語義上存在著很大的關聯性和補充性,應當充分利用這種資源來進行相關性挖掘,從而獲取更好的用戶體驗。此外,進一步的研究工作將包括:大規模海量多媒體數據檢索,以及無人管理的自動的子空間映射關係的建立。
參考文獻
[1] 孟凡煉. 基於異構特徵統計分析的跨媒體檢索研究. 武漢科技大學. 2010年5月
[2] Hong ZHANG, Yan-yun WANG, Hong PAN, Fei WU. Understanding visual-auditory correlation from heterogeneous features for cross-media retrieval. Journal of
[3] 莊毅,莊越挺,吳飛. 一種支持海量跨媒體檢索的集成索引結構. 軟體學報. 2008年10月
[4] 楊易,郭同強,莊越挺,王文華. 基於綜合推理的多媒體語義挖掘和跨媒體檢索. 計算機輔助設計與圖形學學報. 2009年9期
[5] 劉揚. 基於時空相關性的跨媒體檢索模型研究與應用. 河南大學. 2009年5月
[6] Magnus Borga, Canonical correlation a tutorial. January 12, 2001.
[7] 張鴻,莊越挺,吳飛,陳建勳. 一種基於內容相關性的跨媒體檢索方法. 計算機學報. 2008年05期
作者簡介:
閔友鋼,上海廣播電視臺節目資料中心技術保障部主任,高級工程師。先後從事IT技術、有線電視寬帶網絡技術、數字電視技術、音視頻數字化技術、DRM研究等工作,曾獲得國家廣電總局優秀科技論文一等獎,上海文化廣播影視局科技進步二等獎、三等獎。
顧偉,上海廣播電視臺/上海東方傳媒集團有限公司節目資料中心C級技術支持,本科學歷,信息與計算科學專業。參與數字化視頻資料修復工作、音頻數字化審聽工作等。
責編:張暉