顧志航,陳淑榮
?。ㄉ虾:J麓髮W(xué) 信息工程學(xué)院,上海 201511)
摘要:針對(duì)傳統(tǒng)HOG特征的行人檢測(cè)方法中因遮擋及復(fù)雜環(huán)境存在較高漏檢誤檢情況,建立了一種基于HOG和局部自相似(LSS)特征融合的行人檢測(cè)算法。利用LSS反映圖像內(nèi)在幾何布局和形狀屬性的特性,用主成分分析(PCA)將HOG和LSS兩類特征在實(shí)數(shù)域降維,再將兩種特征組合成新特征,結(jié)合線性SVM分類器進(jìn)行行人檢測(cè)。實(shí)驗(yàn)采用INRIA數(shù)據(jù)庫和Daimler數(shù)據(jù)庫作為訓(xùn)練集訓(xùn)練SVM,用730幅監(jiān)控視頻幀圖片作測(cè)試集,將該方法與基于傳統(tǒng)HOG特征的行人檢測(cè)方法做對(duì)比,結(jié)果表明該方法平均漏檢誤檢率降低16%,檢測(cè)效果優(yōu)于基于傳統(tǒng)HOG特征的行人檢測(cè)方法。
關(guān)鍵詞:行人檢測(cè);主成分分析;梯度直方圖;局部自相似
0引言
隨著視頻監(jiān)控和智能分析應(yīng)用的普及,行人檢測(cè)已成為一個(gè)重要的研究方向。目前行人檢測(cè)算法常用特征主要有Haar特征[1]、尺度不變特征(SIFT)[2]、加速魯棒特征(SURF)[3]、方向梯度直方圖(HOG)[45]、局部二進(jìn)制模式(LBP)[6]、局部自相似(LSS)[7]等,Haar特征適用于有固定結(jié)構(gòu)的目標(biāo)。SIFT/SURF的特征具有強(qiáng)烈方向及亮度性,適合檢測(cè)圖像幾何和光學(xué)變化微弱的目標(biāo)。LBP特征最初被引入人臉識(shí)別,但直接提取灰度圖LBP特征會(huì)引入噪聲信息,增加特征判別的難度。LSS特征則是通過捕捉顏色自相似性、邊緣特征、重復(fù)模板以及復(fù)雜紋理計(jì)算兩幅圖像的相似性,更多用于圖像匹配。本文選用HOG特征作為行人檢測(cè)主要方法。HOG是在圖像的局部單元格上操作,因此它對(duì)行人細(xì)微肢體動(dòng)作和光照變化有很好的適應(yīng)性。但HOG特征計(jì)算量大;由于梯度自身的性質(zhì),該特征對(duì)噪聲敏感;行人遮擋、樣本數(shù)量及類型限制,導(dǎo)致HOG特征在最后分類時(shí)出現(xiàn)漏檢,若將漏檢的樣本加入訓(xùn)練樣本集,又會(huì)出現(xiàn)大量的誤檢。針對(duì)這一問題,本文結(jié)合LSS特征計(jì)算圖像相似性的特性,建立了一種基于融合LSS和HOG特征的行人檢測(cè)算法。首先輸入待檢測(cè)視頻幀圖像,歸一化處理和高斯去噪,然后分別提取圖像的HOG特圖1算法流程圖征和LSS特征,再對(duì)HOG和LSS特征進(jìn)行PCA降維并融合,最后用線性SVM進(jìn)行行人檢測(cè)。算法原理如圖1所示。
1算法理論
1.1行人HOG特征提取
HOG特征是一種在計(jì)算機(jī)視覺和圖像處理中進(jìn)行物體檢測(cè)的特征描述子。首先將圖像分成小的連通區(qū)域cell,然后采集cell中各像素點(diǎn)的梯度構(gòu)成方向直方圖,再將直方圖組合成特征描述器。流程圖如圖2所示。
圖像中每一個(gè)像素點(diǎn)梯度為:
Gx(x,y)=H(x+1,y)-H(x-1,y)x,y(1)
Gy(x,y)=H(x,y+1)-H(x,y-1)x,y(2)
Gx(x,y)、Gy(x,y)、H(x,y)分別表示圖像像素點(diǎn)(x,y)處的水平、垂直方向梯度和像素值。像素點(diǎn)(x,y)處的梯度幅值和方向?yàn)椋?/p>
實(shí)驗(yàn)中取16×16像素為一個(gè)cell,2×2 cell為一個(gè)block,將梯度角度[0,π]分為9個(gè)區(qū)間bin,對(duì)每個(gè)cell內(nèi)所有像素的梯度值在各個(gè)bin區(qū)間進(jìn)行直方圖統(tǒng)計(jì),得到9維的特征向量,一個(gè)block就有36維特征向量,利用L2范數(shù)對(duì)整個(gè)block歸一化,得到block的特征向量;收集檢測(cè)窗口中所有重疊塊的特征,構(gòu)建最終HOG特征向量供分類使用。實(shí)驗(yàn)中一張64×128的圖片可以生成幾千維的特征向量,過高的特征維度會(huì)增加算法后期計(jì)算量。
1.2LSS特征提取
LSS特征用于捕捉本地圖像間自相似性。當(dāng)存在局部小規(guī)模變形時(shí),LSS特征通過捕捉顏色、邊緣、重復(fù)圖樣和復(fù)雜紋理的自相似性,從而匹配圖像。本文利用這一特性,結(jié)合HOG特征,輔助區(qū)分行人和非行人目標(biāo),以此降低漏檢誤檢率。LSS特征計(jì)算過程如下。
1.2.1計(jì)算相關(guān)面
假定計(jì)算中心像素p(x,y)處的LSS特征,以p點(diǎn)為中心構(gòu)建兩個(gè)環(huán)繞圖像塊,內(nèi)外環(huán)圖像塊的半徑為r1和r2,計(jì)算環(huán)繞塊內(nèi)像素點(diǎn)亮度差值平方和(Sum of Square Differences,SSD),結(jié)果記為SSD(p)。再將SSD(p)歸一化為相關(guān)面S(p),公式為:
S(p)=exp (-SSD(p)/max(vn,va(p)))(5)
其中,vn為常量,是顏色或光照上的噪聲;va(p)為點(diǎn)p與其相鄰點(diǎn)的最大距離。
1.2.2提取特征值
S(p)計(jì)算完成后,轉(zhuǎn)換為以點(diǎn)p為中心的極坐標(biāo)表示, 再根據(jù)半徑和角度的量化級(jí)數(shù)將S(p)上的各像素點(diǎn)按坐標(biāo)劃入到對(duì)應(yīng)的量化級(jí),取每個(gè)量化級(jí)最大值作為最終特征矢量分量,構(gòu)成LSS特征值。
本文實(shí)驗(yàn)過程如圖3所示。圖3(a)為一幅64×128像素的圖像,取r1=7×7為中心子窗口,q為中心點(diǎn),再以q為中心選取r2=21×21為一個(gè)patch;從patch左上角開始,取5×5的子窗口,上下步進(jìn)7,計(jì)算所有子窗口與中心子窗口的SSD,結(jié)果如圖3(b)所示;然后從圖像的左上角patch開始以17為步進(jìn),得到32個(gè)patch;將SSD轉(zhuǎn)化到對(duì)數(shù)極坐標(biāo)系,角度和徑向上劃分為20份和4份,如圖3(c)所示;在每個(gè)角度區(qū)域選擇最大“相關(guān)值”作為特征值,形成80維LSS描述子,如圖3(d)所示;最終生成4×8×80=2 560維LSS特征,高維度LSS特征向量同樣會(huì)增加算法的計(jì)算量。
1.3PCA降維
圖像提取的兩種特征向量維度都很高,兩種特征融合后,新特征維度更大,大量冗余信息會(huì)降低識(shí)別精度,減緩分類速度,故需要降維。參考文獻(xiàn)[45]證明PCA降維分別在基于HOG特征的行人檢測(cè)算法和基于LSS特征的圖像匹配算法中對(duì)降低計(jì)算量效果較好。本文采用PCA對(duì)兩種特征降維。用式(6)計(jì)算特征主成分:
y=UT(xi-x-)(6)
其中,y為主成分特征,x-為訓(xùn)練樣本的特征均值,xi為第i個(gè)樣本,UT為協(xié)方差矩陣公式。
式(7)、(8)中,N為樣本數(shù)量,n為樣本維數(shù),T為矩陣轉(zhuǎn)置符號(hào)。對(duì)于具體的降維維數(shù)k,通過下式主成分貢獻(xiàn)率來確定:
式(9)中,λi為式(8)中∑的特征值,δ為主成分貢獻(xiàn)率。
本文實(shí)驗(yàn)中HOG和LSS特征的降維步驟如下:
(1)計(jì)算訓(xùn)練樣本集中HOG特征均值x1-和LSS特征均值x2-。
(2)根據(jù)式(7)計(jì)算特征值、特征向量及協(xié)方差矩陣U1、U2,其中U1的矩陣為3 780維,U2的矩陣為2 560維。
(3)取協(xié)方差矩陣前p個(gè)主成分,對(duì)每個(gè)HOG及LSS特征,通過式(6)進(jìn)行特征降維,分別得到降維的HOG和LSS特征,向量維數(shù)k1、k2的值根據(jù)式(6)~式(9)的實(shí)驗(yàn)結(jié)果確定。
1.4特征融合
由于兩種特征原理不同,本文采用串行特征組合方法,如式(10)所示:
C={(α,β),α∈A,β∈B}(10)
α和β代表HOG及LSS特征。本文將LSS特征作為輔助檢測(cè),與HOG特征在降維后融合,在不增加計(jì)算量的基礎(chǔ)上能降低傳統(tǒng)算法的漏檢誤檢率。
1.5行人檢測(cè)分類器
SVM通過核函數(shù)將樣本映射到線性可分的高維空間,進(jìn)行點(diǎn)積運(yùn)算得到判別結(jié)果,魯棒性較好。而線性核函數(shù)算法簡(jiǎn)單,計(jì)算量小,更適于實(shí)時(shí)監(jiān)控視頻的行人判定。本文采用基于線性核函數(shù)的SVM作為分類器。
2算法描述
本文算法步驟如下:
(1)輸入監(jiān)控視頻,提取幀圖像,轉(zhuǎn)換為灰度圖,并歸一化和高斯去噪。
(2)提取預(yù)處理后圖像的HOG特征及LSS特征,構(gòu)成特征集α、β。
(3)分別計(jì)算兩種特征的特征值、特征向量以及協(xié)方差矩陣U,結(jié)合式(6)~式(9)通過實(shí)驗(yàn)計(jì)算不同維度特征的主成分貢獻(xiàn)率,確定向量維數(shù)k1、k2。
(4)根據(jù)k1、k2對(duì)HOG及LSS特征進(jìn)行PCA降維并級(jí)聯(lián)成特征C。
?。?)將特征C輸入線性SVM,進(jìn)行行人目標(biāo)的判別檢測(cè)。
3實(shí)驗(yàn)結(jié)果及分析
為驗(yàn)證算法有效性,在MATLAB 2014a環(huán)境下進(jìn)行實(shí)驗(yàn),計(jì)算機(jī)配置為2.3 GHz CPU和4 GB內(nèi)存,數(shù)據(jù)庫為INRIA數(shù)據(jù)庫和Daimler數(shù)據(jù)庫。實(shí)驗(yàn)將本文算法與傳統(tǒng)HOG算法和LSS算法進(jìn)行比較,從兩個(gè)數(shù)據(jù)庫中選擇2 300個(gè)包含行人正面和其他姿勢(shì)以及5 000張無行人的圖片作正樣本集和負(fù)樣本集,以訓(xùn)練線性SVM。最后輸入一段監(jiān)控視頻,提取730幅圖像檢測(cè)行人,得出實(shí)驗(yàn)數(shù)據(jù)。
3.1特征PCA維數(shù)選取實(shí)驗(yàn)
分別提取HOGPCA特征和LSSPCA特征級(jí)聯(lián)得到特征C,通過多次實(shí)驗(yàn)確定兩種特征的PCA維數(shù)p,并對(duì)比了它們結(jié)合線性SVM后的分類判別能力。PCA維數(shù)對(duì)識(shí)別率影響的實(shí)驗(yàn)結(jié)果如圖4所示。表1為降維后的組合特征與不降維的組合特征在訓(xùn)練時(shí)間、檢測(cè)時(shí)間和識(shí)別率方面的比較。
實(shí)驗(yàn)結(jié)果表明:圖4中HOG特征在PCA維數(shù)為300時(shí)達(dá)到峰值,而LSS特征則在700維時(shí)達(dá)到峰值;表1中降維后的兩種特征在訓(xùn)練時(shí)間和檢測(cè)時(shí)間上明顯縮短,識(shí)別率得到有效提高。實(shí)驗(yàn)結(jié)果與式(9)吻合,證明了兩種特征的PCA維度可以根據(jù)式(9)進(jìn)行確定。本文HOG特征維度選擇300維,LSS特征維度選擇700維。
3.23種算法實(shí)驗(yàn)對(duì)比
為驗(yàn)證本文算法的性能,將本文算法與基于傳統(tǒng)HOG特征、LSS特征的行人檢測(cè)算法進(jìn)行對(duì)比。圖5(a)在單窗口檢測(cè)情況下比較3種方法的漏檢率(Miss Rate)及誤檢率(False Postive),3條曲線分別代表3種方法?!?/p>
實(shí)驗(yàn)結(jié)果表明,相同F(xiàn)PPW的情況下,本文方法丟失率分別比傳統(tǒng)HOG和LSS方法降低了53%和26%;其中HOG的結(jié)果最不理想,平均漏檢率達(dá)到了11%。圖5(b)在整個(gè)圖片檢測(cè)的情況下比較基于傳統(tǒng)HOG特征的算法與本文算法的漏檢率(Miss Rate)及誤檢率(False Postive),本文算法準(zhǔn)確率達(dá)到93.51%,而傳統(tǒng)HOG算法準(zhǔn)確率只有89%。相同F(xiàn)PPI情況下,本文算法丟失率則比傳統(tǒng)HOG方法降低了15%。圖6為一段視頻處理后,兩種算法的行人檢測(cè)圖片。
圖6(a)、(b)和(c)、(d)分別為不遮擋情況下的視頻幀。其中(a)、(c)基于傳統(tǒng)HOG特征算法,(b)、(d)基于本文算法的行人檢測(cè)結(jié)果;圖(a)、(c)中箭頭為傳統(tǒng)算法漏檢的行人,圖(b)、(d)中用本文算法準(zhǔn)確檢出了漏檢的行人。
4結(jié)論
針對(duì)傳統(tǒng)HOG特征在行人檢測(cè)算法中,因遮擋及復(fù)雜環(huán)境導(dǎo)致的較高誤檢率,建立了一種基于傳統(tǒng)HOG和LSS特征融合的視頻行人檢測(cè)算法。通過選取合適的PCA降維維度,有效減小了計(jì)算量,降低了行人檢測(cè)過程中的誤檢及漏檢率。實(shí)驗(yàn)表明本算法識(shí)別檢測(cè)精度較高,為視頻監(jiān)控系統(tǒng)的實(shí)時(shí)行人檢測(cè)方法提供了理論依據(jù)。
參考文獻(xiàn)
[1] VIOLA P, JONES M J, SNOW D. Detecting pedestrians using patterns of motion and appearance[C]. Proceedings of the Ninth IEEE Conference on Computer Vision, 2003: 734741.[2] LOWE D G. Distinctive image features from scaleinvariant keypoints[J]. Intermational Journal of Computer Vision,2004,60(2):91110.
[3] BAY H, ESS A, TUYTELAARS T, et al. Speeded up robust features (SURF)[J] Computer Vision and Image Understanding,2008,110(3):346359.
[4] 田仙仙,鮑泓,徐成 一種改進(jìn)HOG特征的行人檢測(cè)算法[J].計(jì)算機(jī)科學(xué),2014,41(9):320324.
[5] 郝溪,陳淑榮,尹道素.融合HOG 與顏色特征的粒子濾波行人跟蹤算法[J].微型機(jī)與應(yīng)用,2014,33(6):4043.
[6] 陳銳,王敏,陳肖.基于PCA降維的HOG與LBP融合的行人檢測(cè)[J].信息技術(shù),2015(2):101105.
[7] 劉景能.圖像局部不變特征提取技術(shù)及其應(yīng)用研究[D].上海:上海交通大學(xué),2012.