《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 基于Bayes算法實現(xiàn)圖像語義分類
基于Bayes算法實現(xiàn)圖像語義分類
許天兵
濟南山東財政學(xué)院計算機信息工程系(250014)
摘要: 介紹了根據(jù)圖像的邏輯特征和抽象屬性進行檢索的基于語義分類的圖像檢索技術(shù),并用Bayes分類算法設(shè)計了一個語義分類器,該語義分類器通過計算用戶要查詢圖像的后驗概率,對被查詢的圖像進行語義分類。
Abstract:
Key words :

 摘 要: 介紹了根據(jù)圖像的邏輯特征和抽象屬性進行檢索的基于語義分類圖像檢索技術(shù),并用Bayes分類算法設(shè)計了一個語義分類器,該語義分類器通過計算用戶要查詢圖像的后驗概率,對被查詢的圖像進行語義分類。
關(guān)鍵詞: 語義分類  圖像檢索  Bayes算法  特征向量

1  語義圖像檢索
  圖像檢索的傳統(tǒng)方法是基于文本的,使用關(guān)鍵字注釋是最常用的方法。這樣,對圖像的檢索就變成了對關(guān)鍵字的查找。但是,基于文本的檢索存在的主要問題是:由于圖像注解的主觀性和不完備性,因而不能保證檢全率。為了克服基于文本方法的局限性,20世紀(jì)90年代出現(xiàn)了基于內(nèi)容的圖像檢索(Content-Based Image Retrieval,CBIR)。CBIR系統(tǒng)是指直接采用圖像內(nèi)容進行圖像信息查詢的檢索系統(tǒng)[1]。按照圖像檢索復(fù)雜度的遞增,CBIR可以分為以下3個層次上的圖像檢索。
  (1)原始特征。使用顏色、紋理、形狀等視覺特征進行圖像檢索。這些特征是客觀的,是圖像本身的屬性,不需要任何外部知識。在這一層次上的檢索一般應(yīng)用于特定領(lǐng)域的專家系統(tǒng),如商標(biāo)登記、檔案識別等。
  (2)導(dǎo)出特征。導(dǎo)出特征又稱為邏輯特征,是通過對圖像中所描述對象進行某種程度的邏輯推理而得到的。例如,“查詢雙層公共汽車的圖片”,這一層次的檢索需要得到一些外部知識的幫助。目前,報紙、雜志等圖像數(shù)據(jù)庫的檢索主要是在這一層次上進行。
  (3)抽象屬性。該層次的檢索涉及到對圖像中所包含物體的含義和場景的描述進行大量的高層次的推理。例如,“查詢描寫苦難的圖片”,要想檢索成功,需要較復(fù)雜的搜索引擎,運用推理和主觀判斷,在圖像內(nèi)容和抽象概念之間建立聯(lián)系。
  按導(dǎo)出特征和抽象屬性進行檢索又稱為語義圖像檢索[2]。目前,大部分CBIR是按照圖像的原始視覺特征,在第一層次上進行檢索。然而,基于語義的圖像檢索的應(yīng)用范圍更為廣闊,現(xiàn)在已成為基于內(nèi)容的圖像檢索的發(fā)展熱點。
2  基于Bayes算法的圖像語義分類
  特征(即內(nèi)容)的提取是CBIR的基礎(chǔ)。CBIR的特征主要是指視覺特征,包括顏色、紋理、形狀和位置關(guān)系等特征。但是,按照原始視覺特征檢索的CBIR系統(tǒng)存在的主要問題是沒有建立視覺內(nèi)容和圖像語義之間的關(guān)聯(lián),如木紋圖像和水紋圖像的紋理特征向量之間的距離很小,一片楓葉圖像的顏色特征和紅色油漆木門圖像的顏色特征非常相似,但它們的語義卻截然不同。為了填補視覺內(nèi)容和內(nèi)容解釋之間的語義縫隙,本文提出語義圖像檢索,其核心部分是圖像的語義分類[3]。這里,用Bayes分類算法來計算在特征值為[xi1,xi2,……]的條件下,圖像屬于語義類型cj的概率P(cj|[xi1,xi2,……])。
  Bayes分類算法是根據(jù)先驗概率計算出后驗概率。通過訓(xùn)練樣本,可以構(gòu)造出語義分類器,語義分類器根據(jù)用戶要查詢圖像的后驗概率對被查詢圖像進行語義分類。
  圖像的語義,即對圖像內(nèi)容的解釋。簡單語義通常就是圖像的主題詞,復(fù)雜語義則是對圖像內(nèi)容的敘事型描述。本文采用簡單語義的標(biāo)記方式,即:
  圖像語義s∷=圖像標(biāo)識+{主題詞注釋}
  這里,圖像主題詞注釋既包括圖像名稱、圖像中顯示出的物體,也包括圖像的視覺屬性。圖像可以按照語義歸類。
  

  在計算出先驗概率P(c)和條件概率P(x|c)后即可得到后驗概率P(c|x)。
  對于給定的一組訓(xùn)練樣本圖像,若樣本總數(shù)為N,語義類型c中包含的樣本個數(shù)為Nc,則記為:
    

  研究表明,人類的視覺內(nèi)容往往存在一定的偏差。這種偏差可以通過正態(tài)分布擬合給予彌補,即對于任一種語義類型c,首先把同樣的Gaussian內(nèi)核放入它的所有訓(xùn)練樣本的特征向量Xi,然后再把這些Gaussian內(nèi)核累加起來作為條件概率P(x|c)的估計:
    

  這里,G(X-μ,σ)是Gaussian內(nèi)核,μ是平均值,σ是模糊度(即標(biāo)準(zhǔn)差)。模糊度根據(jù)圖像質(zhì)量由用戶指定。
  不同的視覺特征對不同語義的圖像有不同的辯識能力?,F(xiàn)在的問題是:如何從圖像特征向量集合中選擇一類或幾類特征,使得被選擇特征對特定語義類型的圖像具有最強的表達能力。圖像、圖像特征和圖像語義三者的關(guān)系如圖1所示。

  定義3 給定一個語義類型集C,尋找一個從圖像I到圖像特征向量集合X的映射f(I)=X,使MAX(p(I∈ci|f(I)=X),i=1,2,……m)成立,這一過程稱為基于語義分類的圖像檢索。
3  語義分類器
  直接利用圖像的原始視覺特征進行語義分類較困難。常用的方法是:用戶先對一組圖像(訓(xùn)練樣本)進行手工語義分類,設(shè)定好CBIR系統(tǒng)的語義分類器。當(dāng)用戶查詢圖像時,系統(tǒng)根據(jù)查詢圖像的視覺特征識別其語義,把查詢圖像和具有相同語義類型的圖像庫進行比較,按相似性大小返回查詢結(jié)果。對圖像按語義分類的具體流程如圖2所示。

  下面設(shè)計一個語義分類器,其圖像語義層次結(jié)構(gòu)如圖3所示。該語義分類器具有以下特點:
  (1)圖像的語義按層次結(jié)構(gòu)分類。
  (2)圖像的語義為自頂向下分類。
  (3)圖像的語義分類結(jié)構(gòu)為可擴充的體系結(jié)構(gòu)。

  先利用一組訓(xùn)練圖像數(shù)據(jù)進行語義分類,對于訓(xùn)練數(shù)據(jù)中的圖像,按上述語義層次結(jié)構(gòu),用手工方法把圖像歸入一個語義類型中,并給圖像貼上相應(yīng)的語義標(biāo)簽。城市風(fēng)貌可以歸納為具有人工建筑和人造物品,如建筑物、汽車、道路等。自然風(fēng)景沒有這些特征。在自然風(fēng)景下有3個子類:日出、森林和山峰。日出可以用飽和度較高的顏色(紅色、橙黃色、黃色)來表示,森林中綠色為主色調(diào),山峰可以用長距離的山區(qū)景色來標(biāo)識。
  衡量視覺特征對語義類型的區(qū)別能力還很困難。通常認為,如果一個視覺特征使同一語義類型內(nèi)的圖像距離較小,而使不同語義類型中的圖像距離較大,則該視覺特征對語義類型的區(qū)別能力是較強的。通過計算一個語義類型內(nèi)每一對圖像之間的距離,可以得到該語義類型內(nèi)的圖像的距離分布。通過計算不同語義類型(如城市風(fēng)貌和自然風(fēng)景)之間每一對圖像之間的距離,可以得到不同語義類型之間的圖像的距離分布。
在每個語義類型(城市風(fēng)貌和自然風(fēng)景)中選擇k個最相似的圖像,用戶的查詢圖像通過與這k幅圖像的比較,可以判斷查詢圖像屬于哪個語義類型。
  對于本文設(shè)計的語義分類器,經(jīng)過計算發(fā)現(xiàn),形狀特征對城市風(fēng)貌和自然風(fēng)景2種語義類型的區(qū)別能力比其他視覺特征要強。城市風(fēng)貌中的人造物體具有較明顯的水平和垂直邊,而自然風(fēng)景對象的邊緣就比較隨意。因此用形狀特征能夠比較容易地區(qū)別二者。以顏色特征區(qū)別自然風(fēng)景下的日出、森林、山峰更加理想,如草地用綠色表示,天空用藍色表示等。
4  結(jié)束語
  本文根據(jù)Bayes分類方法對圖像語義進行分類,設(shè)計了一個語義分類器。利用訓(xùn)練數(shù)據(jù)定義好語義類型后,就可以根據(jù)圖像的視覺特征找到圖像的語義類型。這樣相似性匹配即可在同一語義類型下進行,因而提高了圖像檢索效率。
參考文獻
1   付巖,王耀威.SVM用于基于內(nèi)容的自然圖像分類和檢索. 計算機學(xué)報,2003;26(10)
2   Smeulders A,Worring M.Content-based Image Retrieval  at the End of the Early Years.IEEE Transactions on  Pattern Analysis and Machine Intelligence,2000;22(12)
3   莊越挺,潘云鶴.基于內(nèi)容的圖像檢索綜述.模式識別與人工智能,1999;12(2)
 

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。