摘 要: 視覺計(jì)算模型集合了人類視覺系統(tǒng)(HVS)的復(fù)雜特征,并模擬了視覺輸入的分層感知表達(dá)。自底向上機(jī)制是現(xiàn)代模型中最常見的特征,是指無意識的注意,所提出的一致計(jì)算方法模擬自底向上視覺注意,并通過一致區(qū)域的計(jì)算來達(dá)到目標(biāo)識別的目的。所提模型主要基于對HVS行為的目前的理解,使用對比敏感度函數(shù)、感知分解、視覺掩蔽形成一個(gè)神經(jīng)性視覺空間,并在此基礎(chǔ)上使用center-surround交互、感知編組和顯著圖的建立來得到最終的顯著圖。所提模型的性能通過使用自然圖像來進(jìn)行評估,并將其結(jié)果與參照的經(jīng)典的自底向上模型進(jìn)行對比,結(jié)果表明該模型實(shí)效性高。
關(guān)鍵詞: 視覺注意;一致模擬;自底向上視覺注意;計(jì)算模型
0 引言
搜索場景中的興趣區(qū)域(RIO)[1]并加以關(guān)注的機(jī)制稱之為視覺注意。視覺注意是人類視覺系統(tǒng)的最重要的特征之一,調(diào)節(jié)包含視覺場景不同方面的競爭力量并選擇最相關(guān)的區(qū)域來去除其他的。然而,環(huán)境提供的信息要比能有效處理的信息多得多。為了保存必要的視覺信息,人類要開發(fā)出特殊機(jī)制來解決這一問題。這一策略中包括兩種機(jī)制。第一種是由環(huán)境事物驅(qū)使的感知注意,一般叫做自底向上或者刺激驅(qū)動;另一種既有內(nèi)部又有外部刺激,一般叫做自上向下或目標(biāo)驅(qū)動。
大部分視覺注意計(jì)算模型可以分為兩類。第一種考慮統(tǒng)計(jì)的基于信號的方法,它由在注意焦點(diǎn)上直接使用圖像統(tǒng)計(jì)學(xué)的自動預(yù)測視覺場景的顯著區(qū)域構(gòu)成;第二種建立于兩種重要的概念:特征說明理論(FIT)[2]和生物合理框架[3]。該模型是基于來自于顯著圖推理的連貫神經(jīng)性視覺空間。這一空間,具有生物學(xué)上的合理性,被用來連接圖像的視覺特征(強(qiáng)度,顏色,方位,空間頻率)且被歸一化到個(gè)人的可見度閾值。本文依次通過特征性處理、center/surround交互、感知編組和顯著圖的建立來得到最終的顯著圖。實(shí)驗(yàn)結(jié)果表明該模型具有切實(shí)可行性和高效性。
1 計(jì)算模型設(shè)計(jì)
1.1 特征性處理
特征性處理模擬的是HVS的有限敏感度。一致歸一化被首先用于量度所有的視覺數(shù)據(jù)。所有的歸一化數(shù)據(jù)組合成一個(gè)神經(jīng)性視覺空間。該空間是從下面的一組基本的機(jī)制確定。
1.1.1 將RGB顏色空間轉(zhuǎn)換到Krauskopf的顏色空間
在視網(wǎng)膜上有兩種不同類型的光感受器:視錐細(xì)胞和視桿細(xì)胞。視錐細(xì)胞有三種類型:L、M和S分別對長、中、短波長敏感。對立顏色空間的主要成分為黑-白、紅-綠、藍(lán)-黃。因?yàn)槁?lián)合不同視錐細(xì)胞的方式不同,從而有各種各樣的對立顏色空間。Krauskopf提出的顏色空間是由實(shí)驗(yàn)確定的。其顏色空間變換如公式(1):
其中,A是純消色差感知分量,Cr1和Cr2為彩色感知分量。
1.1.2 早期視覺特征提取
早期視覺特征的提取是通過感知通道的分解而進(jìn)行的。這一分解由在空間輻射頻率和方向上的二維空間頻域組成。這一分解被應(yīng)用于三個(gè)感知分量。本模型中視覺空間頻率的消色差分量分割成17視覺通道,而僅有5個(gè)通道用來獲得彩色分量[4]。消色差分量被分布在4個(gè)冠,分別標(biāo)記為Ⅰ、Ⅱ、Ⅲ、Ⅳ。彩色分量被分布在2個(gè)冠記為Ⅰ、Ⅱ。這些分解間存在的主要性質(zhì)與被叫做皮層轉(zhuǎn)換的相似變換間的主要不同是,非二進(jìn)制徑向選擇性和隨著徑向提高的方向選擇性[5]。
1.1.3 對比敏感度函數(shù)
對比敏感度函數(shù)(CSF)被廣泛應(yīng)用于測量自然圖像組成的可見性。特殊分量的可見性可以通過在頻域上采用CSF進(jìn)行評估。當(dāng)頻率分量的振幅比閾值CT0大的時(shí)候,頻率分量便可感知。這一閾值叫做可見性閾值,它的倒數(shù)定義了在此空間頻率的CSF的值。CSF被應(yīng)用于每一組分量(A,Cr1,Cr2)。由Daly設(shè)計(jì)的2D各向異性CSF被應(yīng)用在消色差分量上。兩個(gè)彩色視覺分量Cr1和Cr2通過使用正弦顏色光柵進(jìn)行模擬。以下定義了兩個(gè)2D各向異性CSF函數(shù)[6-8],它們是兩個(gè)帶有Cr1和Cr2分量、截止頻率分別為5.5 cpd和4.1 cpd的低通濾波器,如式(2)和式(3),是徑向脈動?棕的函數(shù),?茲為方向角。
1.1.4 視覺掩蔽
掩蔽效應(yīng)指的是由于環(huán)境影響,對刺激的微分可見性閾值CT0進(jìn)行的修改[9]。沒有掩蔽效應(yīng)(DVT)時(shí)的CT0由于掩蔽效應(yīng)被修改為CT,該關(guān)系可以表示為CT=CT0×T,當(dāng)T>1時(shí),閾值的增大意味著掩蔽效應(yīng)的存在。在子帶分解背景下,可以定義通道間掩蔽、通道內(nèi)掩蔽、分量內(nèi)掩蔽三種掩蔽。由于分量內(nèi)掩蔽要比其他兩種掩蔽效應(yīng)弱得多,在這里被忽略掉。
?。?)通道內(nèi)掩蔽:使用Daly[10]設(shè)計(jì)的函數(shù)來模擬消色差分量的通道內(nèi)掩蔽效應(yīng)。可見度閾值的變化為:
其中為來自于感知分解的分波段,(i,j,c)分別代表空間頻率分布、方向索引以及被考慮的成分(A,Cr1,Cr2)。R的上標(biāo)被用來計(jì)數(shù)模型的每一個(gè)處理步驟。(x,y)為被考慮的空間位置,k1=0.015 3,k2=392.5,s和b是每個(gè)分波段的常量。
使用由Callet[6]設(shè)計(jì)的函數(shù)來模擬彩色分量的通道內(nèi)掩蔽效應(yīng)。其分析式如下:
參數(shù)a,b,c是(i,j,Cr)的一個(gè)函數(shù)。例如分量Cr1通道1的掩蔽參數(shù){a,b,c}等于{0.45,0.06,1.22}。
(2)通道間掩蔽:其中包含兩種不同的掩蔽效應(yīng),在一些情況下,依靠其中的分波段來降低DVT,它對應(yīng)下面的模型A,在其他情況下,對應(yīng)模型B。
模型A:
模型B:
其中,參數(shù)a,b,c是(i,j,Cr)的函數(shù),并依賴于模型A或B。最終的DVT由公式CT=CT0×T給出,其中特殊通道(i,j)和特殊分量C的T定義為:
其中表示分量C的(i,j)通道與C′分量的(i′,j′)通道在特殊位置(x,y)產(chǎn)生的一個(gè)特殊的相互作用。DVT的修改是起源于通道內(nèi)掩蔽和通道間掩蔽的可見性閾值的變化。所有的分波段由合適的DVT的調(diào)制量進(jìn)行加權(quán):
其中,C=(A,Cr1,Cr2),這些機(jī)制將圖像轉(zhuǎn)換為完整的神經(jīng)性視覺空間。這一空間由所有的視覺特征組成并歸一化為其自己的微分可見性閾值。
1.2 Center/Surround交互
該部分主要包括Center/Surround一致相互作用。為了處理大量的視覺信息,視覺系統(tǒng)使用注意機(jī)制去選擇相關(guān)區(qū)域并且減少視覺信息的冗余,而皮層細(xì)胞的特定導(dǎo)向Center/Surround組織是至關(guān)重要的。這種細(xì)胞的響應(yīng)可以通過各向異性高斯函數(shù)進(jìn)行有效模擬。這種抑制貢獻(xiàn)是通過歸一化加權(quán)函數(shù)與子帶(i,j)內(nèi)當(dāng)前信號的卷積而獲得。
‖·‖1表示L1的范數(shù),(x′,y′)T是通過(x0,y0)T轉(zhuǎn)換原始坐標(biāo)系并旋轉(zhuǎn)角?茲i,j獲得的:
1.3 感知編組
感知編組是指人類視覺根據(jù)分組和組合視覺特征去組織一個(gè)有意義的高級結(jié)構(gòu)的能力。最常見的就是便利交互,當(dāng)CRF內(nèi)的刺激和周圍區(qū)域的刺激形成輪廓時(shí),細(xì)胞活動就會提高。這種便利交互通常稱為輪廓增強(qiáng)或輪廓分組。輪廓分組通過使用兩個(gè)半蝶式濾波器進(jìn)行模擬,蝶式濾波器通過定向公式Di,j(x,y)和一個(gè)高斯濾波器G(x,y)平滑的圓Cr形成的相近公式而獲得。
1.4 顯著圖的建立
顯著圖S是通過對不同消色差通道的輸出直接求和而得到的。在眼追蹤實(shí)驗(yàn)期間,參與者在刺激開始前不得不關(guān)注屏幕中間。為了處理這種約束條件,顯著圖可以通過帶有標(biāo)準(zhǔn)差(xe,
ye)的各向異性高斯函數(shù)進(jìn)行加權(quán),其中(x0,y0)位于坐標(biāo)系中圖片的中心,結(jié)果顯著圖S′為:
高斯函數(shù)使用了各向異性高斯函數(shù)的優(yōu)勢來提高模型效率。標(biāo)準(zhǔn)差(xe,
ye)由優(yōu)化程序獲得,其中
xe=2.5度,則
ye通過如下公式得到:
Rx和Ry是以視角的度進(jìn)行表示圖像的尺寸(寬和高)。Ind()是指示函數(shù)。
2 實(shí)驗(yàn)結(jié)果
將本文提出模型的結(jié)果圖與傳統(tǒng)的自底向上典型算法Itti的結(jié)果進(jìn)行比較,結(jié)果如圖1所示。
3 結(jié)論
本文描述了用于目標(biāo)識別的一致計(jì)算模型,其模擬了自底向上視覺注意機(jī)制,依次通過使用對比敏感度函數(shù)、感知分解、視覺掩蔽來形成神經(jīng)性視覺空間,并通過Center/Surround交互、感知編組和顯著圖的建立得到了最終的顯著圖,即所有早期視覺特征都被可見性閾值進(jìn)行了歸一化,可見性閾值通過背景進(jìn)行了模擬,這是通過視覺掩蔽模擬而合并的。這種一致歸一化允許根據(jù)可見性的所有視覺特征的表達(dá),且顯著值從精神性視覺空間獲得,其中各個(gè)步驟都具有生物上的合理性。所提模型也可以通過組合更多的早期視覺特征來提高性能。由于所有的早期視覺特征都被一致歸一化,其可能直接實(shí)施其他的聯(lián)合方法。實(shí)驗(yàn)結(jié)果也表明了,該模型能很好地預(yù)測圖像中的顯著區(qū)域,具有高效性。
參考文獻(xiàn)
[1] JUNG C, KIM W, YOO S, et al. Anovel monochromatic cue for detecting regions of visual interest[J]. Image and Vision Computing, 2014(32):405-413.
[2] TREISMAN A M, GELADE G. A feature-integration theory of attention[J]. Cognitive Psychology, 1980,12(1):97-136.
[3] KOCH C, ULLMAN S. Shifts in selection in visual attention: toward the underlying neural circuitry[J]. Human Neurobiology, 1985,4(4):219-27.
[4] SENANE H, SAADANE A, BARBA D. Visual bandwiths estimated by masking[J]. Eighth IEEE Workshop Image and Multidimensional Signal Processing. 1993,7(5):137-151.
[5] WATSON A B. The cortex transform: rapid computation of simulated neural images[J]. Computer Vision, Graphics,and Image Processing, 1987,39(3):311-327.
[6] CALLET P L, SAADANE A, BARBA D. Interactions of chromatic components on the perceptual quantization of the achromatic component[J]. SPIE Human Vision and Electronic Imaging, 1999,11(7):364-370.
[7] CALLET P L, SAADANE A, BARBA D. Frequency and spatial pooling of visual differences for still image quality assessment[J]. SPIE Human Vision and Electronic Imaging,2000,23(7):59-67.
[8] CALLET P L, BARBA D. Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality[J]. PCS,2001.
[9] LE MEUR O, LE CALLET P, BARBA D, et al. Masking Effect in Visual Attention Modeling[M]. Workshop Image Analysis for Multimedia Interactive Services, 2004.
[10] DALY S. A Visual Model for Optimizing the Design of Image Processing Algorithms[J]. IEEE Int′l Conf. Image Processing, 1994,2(10):16-20.