摘 要: 視覺(jué)計(jì)算模型集合了人類視覺(jué)系統(tǒng)(HVS)的復(fù)雜特征,并模擬了視覺(jué)輸入的分層感知表達(dá)。自底向上機(jī)制是現(xiàn)代模型中最常見(jiàn)的特征,是指無(wú)意識(shí)的注意,所提出的一致計(jì)算方法模擬自底向上視覺(jué)注意,并通過(guò)一致區(qū)域的計(jì)算來(lái)達(dá)到目標(biāo)識(shí)別的目的。所提模型主要基于對(duì)HVS行為的目前的理解,使用對(duì)比敏感度函數(shù)、感知分解、視覺(jué)掩蔽形成一個(gè)神經(jīng)性視覺(jué)空間,并在此基礎(chǔ)上使用center-surround交互、感知編組和顯著圖的建立來(lái)得到最終的顯著圖。所提模型的性能通過(guò)使用自然圖像來(lái)進(jìn)行評(píng)估,并將其結(jié)果與參照的經(jīng)典的自底向上模型進(jìn)行對(duì)比,結(jié)果表明該模型實(shí)效性高。
關(guān)鍵詞: 視覺(jué)注意;一致模擬;自底向上視覺(jué)注意;計(jì)算模型
0 引言
搜索場(chǎng)景中的興趣區(qū)域(RIO)[1]并加以關(guān)注的機(jī)制稱之為視覺(jué)注意。視覺(jué)注意是人類視覺(jué)系統(tǒng)的最重要的特征之一,調(diào)節(jié)包含視覺(jué)場(chǎng)景不同方面的競(jìng)爭(zhēng)力量并選擇最相關(guān)的區(qū)域來(lái)去除其他的。然而,環(huán)境提供的信息要比能有效處理的信息多得多。為了保存必要的視覺(jué)信息,人類要開(kāi)發(fā)出特殊機(jī)制來(lái)解決這一問(wèn)題。這一策略中包括兩種機(jī)制。第一種是由環(huán)境事物驅(qū)使的感知注意,一般叫做自底向上或者刺激驅(qū)動(dòng);另一種既有內(nèi)部又有外部刺激,一般叫做自上向下或目標(biāo)驅(qū)動(dòng)。
大部分視覺(jué)注意計(jì)算模型可以分為兩類。第一種考慮統(tǒng)計(jì)的基于信號(hào)的方法,它由在注意焦點(diǎn)上直接使用圖像統(tǒng)計(jì)學(xué)的自動(dòng)預(yù)測(cè)視覺(jué)場(chǎng)景的顯著區(qū)域構(gòu)成;第二種建立于兩種重要的概念:特征說(shuō)明理論(FIT)[2]和生物合理框架[3]。該模型是基于來(lái)自于顯著圖推理的連貫神經(jīng)性視覺(jué)空間。這一空間,具有生物學(xué)上的合理性,被用來(lái)連接圖像的視覺(jué)特征(強(qiáng)度,顏色,方位,空間頻率)且被歸一化到個(gè)人的可見(jiàn)度閾值。本文依次通過(guò)特征性處理、center/surround交互、感知編組和顯著圖的建立來(lái)得到最終的顯著圖。實(shí)驗(yàn)結(jié)果表明該模型具有切實(shí)可行性和高效性。
1 計(jì)算模型設(shè)計(jì)
1.1 特征性處理
特征性處理模擬的是HVS的有限敏感度。一致歸一化被首先用于量度所有的視覺(jué)數(shù)據(jù)。所有的歸一化數(shù)據(jù)組合成一個(gè)神經(jīng)性視覺(jué)空間。該空間是從下面的一組基本的機(jī)制確定。
1.1.1 將RGB顏色空間轉(zhuǎn)換到Krauskopf的顏色空間
在視網(wǎng)膜上有兩種不同類型的光感受器:視錐細(xì)胞和視桿細(xì)胞。視錐細(xì)胞有三種類型:L、M和S分別對(duì)長(zhǎng)、中、短波長(zhǎng)敏感。對(duì)立顏色空間的主要成分為黑-白、紅-綠、藍(lán)-黃。因?yàn)槁?lián)合不同視錐細(xì)胞的方式不同,從而有各種各樣的對(duì)立顏色空間。Krauskopf提出的顏色空間是由實(shí)驗(yàn)確定的。其顏色空間變換如公式(1):
其中,A是純消色差感知分量,Cr1和Cr2為彩色感知分量。
1.1.2 早期視覺(jué)特征提取
早期視覺(jué)特征的提取是通過(guò)感知通道的分解而進(jìn)行的。這一分解由在空間輻射頻率和方向上的二維空間頻域組成。這一分解被應(yīng)用于三個(gè)感知分量。本模型中視覺(jué)空間頻率的消色差分量分割成17視覺(jué)通道,而僅有5個(gè)通道用來(lái)獲得彩色分量[4]。消色差分量被分布在4個(gè)冠,分別標(biāo)記為Ⅰ、Ⅱ、Ⅲ、Ⅳ。彩色分量被分布在2個(gè)冠記為Ⅰ、Ⅱ。這些分解間存在的主要性質(zhì)與被叫做皮層轉(zhuǎn)換的相似變換間的主要不同是,非二進(jìn)制徑向選擇性和隨著徑向提高的方向選擇性[5]。
1.1.3 對(duì)比敏感度函數(shù)
對(duì)比敏感度函數(shù)(CSF)被廣泛應(yīng)用于測(cè)量自然圖像組成的可見(jiàn)性。特殊分量的可見(jiàn)性可以通過(guò)在頻域上采用CSF進(jìn)行評(píng)估。當(dāng)頻率分量的振幅比閾值CT0大的時(shí)候,頻率分量便可感知。這一閾值叫做可見(jiàn)性閾值,它的倒數(shù)定義了在此空間頻率的CSF的值。CSF被應(yīng)用于每一組分量(A,Cr1,Cr2)。由Daly設(shè)計(jì)的2D各向異性CSF被應(yīng)用在消色差分量上。兩個(gè)彩色視覺(jué)分量Cr1和Cr2通過(guò)使用正弦顏色光柵進(jìn)行模擬。以下定義了兩個(gè)2D各向異性CSF函數(shù)[6-8],它們是兩個(gè)帶有Cr1和Cr2分量、截止頻率分別為5.5 cpd和4.1 cpd的低通濾波器,如式(2)和式(3),是徑向脈動(dòng)?棕的函數(shù),?茲為方向角。
1.1.4 視覺(jué)掩蔽
掩蔽效應(yīng)指的是由于環(huán)境影響,對(duì)刺激的微分可見(jiàn)性閾值CT0進(jìn)行的修改[9]。沒(méi)有掩蔽效應(yīng)(DVT)時(shí)的CT0由于掩蔽效應(yīng)被修改為CT,該關(guān)系可以表示為CT=CT0×T,當(dāng)T>1時(shí),閾值的增大意味著掩蔽效應(yīng)的存在。在子帶分解背景下,可以定義通道間掩蔽、通道內(nèi)掩蔽、分量?jī)?nèi)掩蔽三種掩蔽。由于分量?jī)?nèi)掩蔽要比其他兩種掩蔽效應(yīng)弱得多,在這里被忽略掉。
?。?)通道內(nèi)掩蔽:使用Daly[10]設(shè)計(jì)的函數(shù)來(lái)模擬消色差分量的通道內(nèi)掩蔽效應(yīng)??梢?jiàn)度閾值的變化為:
其中為來(lái)自于感知分解的分波段,(i,j,c)分別代表空間頻率分布、方向索引以及被考慮的成分(A,Cr1,Cr2)。R的上標(biāo)被用來(lái)計(jì)數(shù)模型的每一個(gè)處理步驟。(x,y)為被考慮的空間位置,k1=0.015 3,k2=392.5,s和b是每個(gè)分波段的常量。
使用由Callet[6]設(shè)計(jì)的函數(shù)來(lái)模擬彩色分量的通道內(nèi)掩蔽效應(yīng)。其分析式如下:
參數(shù)a,b,c是(i,j,Cr)的一個(gè)函數(shù)。例如分量Cr1通道1的掩蔽參數(shù){a,b,c}等于{0.45,0.06,1.22}。
?。?)通道間掩蔽:其中包含兩種不同的掩蔽效應(yīng),在一些情況下,依靠其中的分波段來(lái)降低DVT,它對(duì)應(yīng)下面的模型A,在其他情況下,對(duì)應(yīng)模型B。
模型A:
模型B:
其中,參數(shù)a,b,c是(i,j,Cr)的函數(shù),并依賴于模型A或B。最終的DVT由公式CT=CT0×T給出,其中特殊通道(i,j)和特殊分量C的T定義為:
其中表示分量C的(i,j)通道與C′分量的(i′,j′)通道在特殊位置(x,y)產(chǎn)生的一個(gè)特殊的相互作用。DVT的修改是起源于通道內(nèi)掩蔽和通道間掩蔽的可見(jiàn)性閾值的變化。所有的分波段由合適的DVT的調(diào)制量進(jìn)行加權(quán):
其中,C=(A,Cr1,Cr2),這些機(jī)制將圖像轉(zhuǎn)換為完整的神經(jīng)性視覺(jué)空間。這一空間由所有的視覺(jué)特征組成并歸一化為其自己的微分可見(jiàn)性閾值。
1.2 Center/Surround交互
該部分主要包括Center/Surround一致相互作用。為了處理大量的視覺(jué)信息,視覺(jué)系統(tǒng)使用注意機(jī)制去選擇相關(guān)區(qū)域并且減少視覺(jué)信息的冗余,而皮層細(xì)胞的特定導(dǎo)向Center/Surround組織是至關(guān)重要的。這種細(xì)胞的響應(yīng)可以通過(guò)各向異性高斯函數(shù)進(jìn)行有效模擬。這種抑制貢獻(xiàn)是通過(guò)歸一化加權(quán)函數(shù)與子帶(i,j)內(nèi)當(dāng)前信號(hào)的卷積而獲得。
‖·‖1表示L1的范數(shù),(x′,y′)T是通過(guò)(x0,y0)T轉(zhuǎn)換原始坐標(biāo)系并旋轉(zhuǎn)角?茲i,j獲得的:
1.3 感知編組
感知編組是指人類視覺(jué)根據(jù)分組和組合視覺(jué)特征去組織一個(gè)有意義的高級(jí)結(jié)構(gòu)的能力。最常見(jiàn)的就是便利交互,當(dāng)CRF內(nèi)的刺激和周圍區(qū)域的刺激形成輪廓時(shí),細(xì)胞活動(dòng)就會(huì)提高。這種便利交互通常稱為輪廓增強(qiáng)或輪廓分組。輪廓分組通過(guò)使用兩個(gè)半蝶式濾波器進(jìn)行模擬,蝶式濾波器通過(guò)定向公式Di,j(x,y)和一個(gè)高斯濾波器G(x,y)平滑的圓Cr形成的相近公式而獲得。
1.4 顯著圖的建立
顯著圖S是通過(guò)對(duì)不同消色差通道的輸出直接求和而得到的。在眼追蹤實(shí)驗(yàn)期間,參與者在刺激開(kāi)始前不得不關(guān)注屏幕中間。為了處理這種約束條件,顯著圖可以通過(guò)帶有標(biāo)準(zhǔn)差(xe,ye)的各向異性高斯函數(shù)進(jìn)行加權(quán),其中(x0,y0)位于坐標(biāo)系中圖片的中心,結(jié)果顯著圖S′為:
高斯函數(shù)使用了各向異性高斯函數(shù)的優(yōu)勢(shì)來(lái)提高模型效率。標(biāo)準(zhǔn)差(xe,ye)由優(yōu)化程序獲得,其中xe=2.5度,則ye通過(guò)如下公式得到:
Rx和Ry是以視角的度進(jìn)行表示圖像的尺寸(寬和高)。Ind()是指示函數(shù)。
2 實(shí)驗(yàn)結(jié)果
將本文提出模型的結(jié)果圖與傳統(tǒng)的自底向上典型算法Itti的結(jié)果進(jìn)行比較,結(jié)果如圖1所示。
3 結(jié)論
本文描述了用于目標(biāo)識(shí)別的一致計(jì)算模型,其模擬了自底向上視覺(jué)注意機(jī)制,依次通過(guò)使用對(duì)比敏感度函數(shù)、感知分解、視覺(jué)掩蔽來(lái)形成神經(jīng)性視覺(jué)空間,并通過(guò)Center/Surround交互、感知編組和顯著圖的建立得到了最終的顯著圖,即所有早期視覺(jué)特征都被可見(jiàn)性閾值進(jìn)行了歸一化,可見(jiàn)性閾值通過(guò)背景進(jìn)行了模擬,這是通過(guò)視覺(jué)掩蔽模擬而合并的。這種一致歸一化允許根據(jù)可見(jiàn)性的所有視覺(jué)特征的表達(dá),且顯著值從精神性視覺(jué)空間獲得,其中各個(gè)步驟都具有生物上的合理性。所提模型也可以通過(guò)組合更多的早期視覺(jué)特征來(lái)提高性能。由于所有的早期視覺(jué)特征都被一致歸一化,其可能直接實(shí)施其他的聯(lián)合方法。實(shí)驗(yàn)結(jié)果也表明了,該模型能很好地預(yù)測(cè)圖像中的顯著區(qū)域,具有高效性。
參考文獻(xiàn)
[1] JUNG C, KIM W, YOO S, et al. Anovel monochromatic cue for detecting regions of visual interest[J]. Image and Vision Computing, 2014(32):405-413.
[2] TREISMAN A M, GELADE G. A feature-integration theory of attention[J]. Cognitive Psychology, 1980,12(1):97-136.
[3] KOCH C, ULLMAN S. Shifts in selection in visual attention: toward the underlying neural circuitry[J]. Human Neurobiology, 1985,4(4):219-27.
[4] SENANE H, SAADANE A, BARBA D. Visual bandwiths estimated by masking[J]. Eighth IEEE Workshop Image and Multidimensional Signal Processing. 1993,7(5):137-151.
[5] WATSON A B. The cortex transform: rapid computation of simulated neural images[J]. Computer Vision, Graphics,and Image Processing, 1987,39(3):311-327.
[6] CALLET P L, SAADANE A, BARBA D. Interactions of chromatic components on the perceptual quantization of the achromatic component[J]. SPIE Human Vision and Electronic Imaging, 1999,11(7):364-370.
[7] CALLET P L, SAADANE A, BARBA D. Frequency and spatial pooling of visual differences for still image quality assessment[J]. SPIE Human Vision and Electronic Imaging,2000,23(7):59-67.
[8] CALLET P L, BARBA D. Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality[J]. PCS,2001.
[9] LE MEUR O, LE CALLET P, BARBA D, et al. Masking Effect in Visual Attention Modeling[M]. Workshop Image Analysis for Multimedia Interactive Services, 2004.
[10] DALY S. A Visual Model for Optimizing the Design of Image Processing Algorithms[J]. IEEE Int′l Conf. Image Processing, 1994,2(10):16-20.