文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.2017.04.034
中文引用格式: 歐中亞,山田宏尚. 聯(lián)合部件特征與增強(qiáng)SVM的行人檢測(cè)算法[J].電子技術(shù)應(yīng)用,2017,43(4):133-137.
英文引用格式: Ou Zhongya,Hironao Yamada. A pedestrian detection method combining joint components features and boost SVM[J].Application of Electronic Technique,2017,43(4):133-137.
0 引言
行人檢測(cè)技術(shù)的關(guān)鍵是提取人體結(jié)構(gòu)特征和設(shè)計(jì)分類器,常用特征有Haar-like[1]、方向梯度直方圖(Histogram of Oriented Gradients,HOG)[2]等,分類器有Adaboost[3]、支持向量機(jī)(Support Vector Machines,SVM)[4]、深度網(wǎng)絡(luò)[5]等。如文獻(xiàn)[6]采用改進(jìn)的Haar-like特征和Adaboost分類器提高實(shí)現(xiàn)快速可靠的行人檢測(cè),文獻(xiàn)[7]采用優(yōu)化的HOG特征和SVM分類器實(shí)現(xiàn)復(fù)雜交通場(chǎng)景下的多分辨率行人檢測(cè),文獻(xiàn)[8]采用深度學(xué)習(xí)方法降低行人檢測(cè)的虛警率。然而在街道、會(huì)場(chǎng)等監(jiān)控場(chǎng)景,人體部分區(qū)域會(huì)被遮擋,且姿態(tài)也會(huì)變化,導(dǎo)致現(xiàn)有行人檢測(cè)方法的檢測(cè)性能下降。為了提高遮擋、姿態(tài)變化條件下的行人檢測(cè)性能,本文提出一種聯(lián)合部件特征的增強(qiáng)SVM檢測(cè)方法,聯(lián)合人體全局和局部部件提取特征并進(jìn)行分類,提高行人檢測(cè)性能。
1 本文方法
遮擋或姿態(tài)變化只會(huì)對(duì)人體部分部件產(chǎn)生影響,而其他部件特征仍具有行人鑒別功能。基于這一思路,本文對(duì)人體部件進(jìn)行劃分,融合局部部件和全局部件的特征來描述人體,有針對(duì)性地設(shè)計(jì)特征提取與分類方法,目標(biāo)是提高遮擋、姿態(tài)變化條件下的行人檢測(cè)性能。
1.1 人體部件劃分
在監(jiān)控場(chǎng)景中,人體的上肢與軀干部分經(jīng)常存在大面積重合,如圖1(a)所示,故人體的上肢部件可以合并在軀干部件中。軀干部件可能會(huì)存在部分遮擋,故將人體軀干等分為左右兩部分,得到兩個(gè)部件c2和c3,如圖1(b)所示。監(jiān)控場(chǎng)景中人體的頭部部件和兩腿部件非常顯著,故將其劃分出來,如圖1(b)中的c1、c4和c5。通過提取人體局部部件的特征進(jìn)行人體檢測(cè),可以降低遮擋對(duì)全局人體檢測(cè)的影響。但是,人體全局特征仍然是人體檢測(cè)的有效特征,其區(qū)分人體與非人體的能力要優(yōu)于局部部件特征,故本人仍保留人體全局部件,如圖1(b)中的c6。這樣,本文將人體分為6個(gè)部件,分別是頭部、左軀干、右軀干、左腿、右腿和全身部件。綜合利用人體全局和局部部件的特征進(jìn)行人體檢測(cè),可以有效解決遮擋、姿態(tài)變化等引起的人體檢測(cè)性能下降問題。
1.2 聯(lián)合部件特征提取
Haar-like特征和HOG特征是目前人體檢測(cè)領(lǐng)域常用的特征描述子。相對(duì)而言,HOG特征的優(yōu)勢(shì)是區(qū)分能力強(qiáng),而Haar-like特征的優(yōu)勢(shì)是計(jì)算效率高。本文針對(duì)前一節(jié)劃分的人體局部部件,提出一種適應(yīng)姿態(tài)變化的改進(jìn)Haar-like特征。對(duì)于全身部件,本文仍采用HOG特征進(jìn)行描述。通過融合這兩類特征構(gòu)建聯(lián)合部件特征,用于描述人體結(jié)構(gòu)。
(1)局部部件特征提取
當(dāng)人體受到遮擋時(shí),人體的全局特征必然會(huì)受到一定影響,從而引起人體檢測(cè)器的檢測(cè)性能下降。然而,遮擋不可能遮蔽所有人體部件,如圖1(b)中人體局部部件c1~c5不可能都被遮擋,這樣情況下,那些沒有被遮擋的局部部件的特征可以用來檢測(cè)人體。但是,相對(duì)于人體的全局特征,局部特征畢竟僅反映了人體的某一個(gè)局部的特性,其區(qū)分能力不如全局特征。因此,局部特征在人體檢測(cè)過程中僅作為輔助特征,本文以計(jì)算效率高的Haar-like特征為基礎(chǔ)來描述人體的局部部件。
傳統(tǒng)的Haar-like特征計(jì)算效率高的主要原因是采用積分圖方法快速計(jì)算矩形區(qū)域的亮度累加和。但前提是區(qū)域必須是矩形的。然而,人體姿態(tài)的變化很大,矩形區(qū)域難以適應(yīng)各種姿態(tài)的人體部件描述,尤其是腿部部件。為此,本文對(duì)傳統(tǒng)的Haar-like特征進(jìn)行改進(jìn),目標(biāo)是快速提取平行四邊形區(qū)域的人體部件特征。詳細(xì)描述如下。
特征提取階段最耗時(shí)的步驟是計(jì)算每一個(gè)區(qū)域的亮度累加和,因?yàn)檫@一步驟要在不同的尺度圖像上重復(fù)多次。為了提高運(yùn)算效率,關(guān)鍵是避免多尺度上的重復(fù)計(jì)算。為此,首先對(duì)全圖計(jì)算一次亮度累加和,并將一個(gè)平行四邊形區(qū)域的累加和存儲(chǔ)到一個(gè)累加和表(TP)中。然后通過計(jì)算如圖2所示的黑白平行四邊形區(qū)域之間的亮度累加和之差來求取改進(jìn)的Haar-like特征。由圖2可見,本文使用的改進(jìn)Haar-like特征類型與傳統(tǒng)的Haar-like特征類型不同,主要區(qū)別在于采用平行四邊形區(qū)域來代替?zhèn)鹘y(tǒng)的矩形區(qū)域,以便于適應(yīng)人體部件的姿態(tài)變化。
如圖2所示,改進(jìn)的Haar-like特征類型共有4類,每一類的亮度累加和計(jì)算方法不同,對(duì)于圖2(a)所示的第一類Haar-like特征,按從左上角到右下角的順序計(jì)算圖像的亮度累加和TP(1),表示為:
圖2(d)所示的第四種特征類型的亮度累加和TP(4)可以表示為:
其中,H表示圖像的高度。
每一個(gè)TP表中的值用于計(jì)算一個(gè)平行四邊形區(qū)域的亮度累加和。采用TP的優(yōu)點(diǎn)在于,只需要4次遍歷即可計(jì)算出每一個(gè)平行四邊形的改進(jìn)Haar-like特征。譬如,平行四邊形SP的第一類改進(jìn)Haar-like特征的計(jì)算公式為:
其中,(x,y)表示圖像中一個(gè)區(qū)域的左上角位置,w和h分別表示區(qū)域的寬度和高度。
類似地,平行四邊形SP的第二類改進(jìn)Haar-like特征的計(jì)算公式為:
平行四邊形SP的第三類改進(jìn)Haar-like特征的計(jì)算公式為:
平行四邊形SP的第四類改進(jìn)Haar-like特征的計(jì)算公式為:
(2)全局部件特征提取
對(duì)于圖1(b)中的人體全身部件c6,本文仍采用HOG特征來進(jìn)行描述,實(shí)現(xiàn)步驟詳見文獻(xiàn)[2]。
(3)聯(lián)合部件特征構(gòu)建
對(duì)于一幅圖像或一個(gè)圖像塊,為了便于進(jìn)行人體部件分塊,采用圖3所示的簡(jiǎn)單分塊方法,具體地,圖像塊的上1/4區(qū)域用于提取頭部部件c1的局部擴(kuò)展Haar-like特征v1;在接下來的3/4區(qū)域中,左邊一半?yún)^(qū)域用于提取左軀干部件c2的局部擴(kuò)展Haar-like特征v2,右邊一半?yún)^(qū)域用于提取右軀干部件c3的局部擴(kuò)展Haar-like特征v3;在圖像的下半?yún)^(qū)域內(nèi),左邊一半?yún)^(qū)域用于提取左腿部件c4的局部擴(kuò)展Haar-like特征v4,右邊一半?yún)^(qū)域用于提取右腿部件c5的局部擴(kuò)展Haar-like特征v5;最后,提取整個(gè)圖像塊的全局HOG特征v6。這樣,圖像塊的聯(lián)合部件特征向量可以表示為v={v1,v2,v3,v4,v5,v6}。
1.3 增強(qiáng)SVM學(xué)習(xí)
增強(qiáng)學(xué)習(xí)可通過組合弱分類器構(gòu)建區(qū)分能力更強(qiáng)的強(qiáng)分類器。本文在常用的SVM分類器的基礎(chǔ)上,提出一種增強(qiáng)SVM學(xué)習(xí)方法,對(duì)人體的聯(lián)合部件特征進(jìn)行訓(xùn)練和分類。
給定一個(gè)訓(xùn)練集D={(vi,yi)|i=1,…,n},其中,n為樣本總數(shù),vi表示圖像塊i的特征向量,yi表示該特征向量對(duì)應(yīng)的類標(biāo)簽,yi=1表示vi屬于人體,yi=-1表示vi屬于背景。SVM方法訓(xùn)練的目標(biāo)是尋找一個(gè)最優(yōu)的分類超平面。這一過程本文不再贅述,詳見文獻(xiàn)[4]。
對(duì)于第t個(gè)SVM檢測(cè)器,檢測(cè)器的輸出得分可以表示為φt(v)。本文采用增強(qiáng)學(xué)習(xí)的思路,對(duì)各部件的SVM分類得分進(jìn)行加權(quán)求和,組建更強(qiáng)的檢測(cè)器,表示為:
檢測(cè)器訓(xùn)練的偽代碼如下所述。其中,檢測(cè)正確率下限dmin設(shè)為60%。
在特征分類時(shí),依據(jù)聯(lián)合檢測(cè)器存儲(chǔ)的權(quán)重系數(shù)計(jì)算輸入特征的輸出符號(hào),判別特征類別,具體過程詳見文獻(xiàn)[4]。
2 仿真實(shí)驗(yàn)
2.1 實(shí)驗(yàn)數(shù)據(jù)集及性能評(píng)價(jià)指標(biāo)
行人檢測(cè)數(shù)據(jù)集比較多,本文選用常用的INRIA和Caltech數(shù)據(jù)集。INRIA數(shù)據(jù)集包含訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集兩部分,訓(xùn)練數(shù)據(jù)集共包含3 679幅圖像,其中包含行人的圖像為2 416幅。測(cè)試數(shù)據(jù)集共包含圖像1 585幅,其中包含行人的圖像為1 132幅。每幅圖像中僅有一個(gè)行人,且大都為直立人體。Caltech數(shù)據(jù)集源自真實(shí)街區(qū)場(chǎng)景拍攝的視頻,視頻集中的行人都處于自然的狀態(tài),常存在遮擋和姿態(tài)變化,因此行人檢測(cè)難度較大。該視頻集的分辨率為640×480,幀率為30 f/s。其中,標(biāo)記的行人數(shù)量有2 300個(gè)。
本文在INRIA的訓(xùn)練數(shù)據(jù)集上訓(xùn)練分類器,然后分別在INRIA的測(cè)試數(shù)據(jù)集和Caltech數(shù)據(jù)集上進(jìn)行行人檢測(cè)測(cè)試,選用檢測(cè)正確率和虛警率兩個(gè)指標(biāo)來進(jìn)行性能評(píng)價(jià)。其中,檢測(cè)正確率(DR)可以表示為檢測(cè)到的行人數(shù)量與行人總數(shù)的比值;虛警率(FA)可以表示為檢測(cè)到的背景數(shù)量與檢測(cè)到的所有目標(biāo)數(shù)量的比值。同時(shí),本文也對(duì)算法的運(yùn)算效率進(jìn)行定量評(píng)價(jià),評(píng)價(jià)指標(biāo)是平均檢測(cè)耗時(shí)(ADT)。所有對(duì)比實(shí)驗(yàn)都在相同的計(jì)算機(jī)平臺(tái)上進(jìn)行,計(jì)算機(jī)環(huán)境為:Intel Core-i5 CPU 3.20 GHz、16 GB RAM、Visual Studio 2012和OpenCV 2.48開發(fā)平臺(tái)、Windows 7 64位操作系統(tǒng)。
2.2 不同人體部件的檢測(cè)性能分析
本文通過聯(lián)合人體不同部件的特征來提高遮擋、姿態(tài)變化條件下的行人檢測(cè)性能。為了驗(yàn)證聯(lián)合部件特征的有效性,將其與不同部件單獨(dú)的行人檢測(cè)指標(biāo)進(jìn)行對(duì)比。圖4給出了兩個(gè)數(shù)據(jù)庫(kù)下的行人檢測(cè)指標(biāo)對(duì)比結(jié)果。
單獨(dú)分析圖4(a)和圖4(b),很明顯本文使用的聯(lián)合部件的檢測(cè)正確率指標(biāo)高于各獨(dú)立部件,尤其是虛警率指標(biāo)遠(yuǎn)低于獨(dú)立部件。而且,通過對(duì)比圖4(a)和圖4(b)可以發(fā)現(xiàn),當(dāng)人體遮擋、姿態(tài)變化較多時(shí),由于獨(dú)立部件可能被遮擋,導(dǎo)致檢測(cè)正確率指標(biāo)下降嚴(yán)重。而聯(lián)合部件中總有部件不被遮擋,故性能指標(biāo)并沒有太大變化。從圖4中還可以發(fā)現(xiàn),全身部件的獨(dú)立檢測(cè)性能要優(yōu)于局部部件的獨(dú)立檢測(cè)性能,尤其是虛警率指標(biāo)優(yōu)勢(shì)明顯。因?yàn)榫植坎考膮^(qū)分能力不強(qiáng),易將背景誤識(shí)為目標(biāo)。但聯(lián)合部件通過融合局部部件和全身部件的特征,增強(qiáng)了特征的區(qū)分能力,在提高檢測(cè)正確率指標(biāo)的同時(shí)還大幅降低了虛警率指標(biāo)。因此,聯(lián)合部件的檢測(cè)性能要優(yōu)于各獨(dú)立部件。
2.3 不同方法的檢測(cè)性能分析
為了進(jìn)一步驗(yàn)證本文方法的行人檢測(cè)性能,將本文方法與文獻(xiàn)[6,7,8]中所述行人檢測(cè)方法進(jìn)行對(duì)比實(shí)驗(yàn)。圖5給出了對(duì)比實(shí)驗(yàn)結(jié)果。
從圖5可以看出,在兩個(gè)數(shù)據(jù)集上測(cè)試時(shí)本文方法的檢測(cè)正確率指標(biāo)都高于其他3種方法,同時(shí)虛警率指標(biāo)明顯低于其他3種方法。尤其是在Caltech數(shù)據(jù)集上,其他3種方法的檢測(cè)正確率指標(biāo)下降明顯,原因是Caltech數(shù)據(jù)集上的人體存在遮擋和姿態(tài)變化,降低了人體全身特征的區(qū)分能力。而本文方法采用聯(lián)合部件特征和增強(qiáng)SVM學(xué)習(xí)方法來檢測(cè)人體,受遮擋和姿態(tài)變化的影響較小。
表1給出了4種方法的ADT指標(biāo)對(duì)比,可見本文方法的平均檢測(cè)耗時(shí)略高于文獻(xiàn)[6]所述方法,低于其他2種方法。但從DR和FA指標(biāo)來看,本文方法與文獻(xiàn)[6]所述方法相比優(yōu)勢(shì)明顯。綜合評(píng)價(jià),本文方法的行人檢測(cè)性能優(yōu)于其他3種方法。
3 結(jié)束語
本文針對(duì)人體局部特征變化引起的行人檢測(cè)性能下降問題,提出了一種結(jié)合聯(lián)合部件特征與增強(qiáng)SVM的行人檢測(cè)方法。設(shè)計(jì)思路是將人體分成多個(gè)局部部件,這樣,部分局部部件受遮擋、姿態(tài)變化影響時(shí)不會(huì)影響其他局部部件的檢測(cè)性能。實(shí)驗(yàn)結(jié)果表明,采用本文方法進(jìn)行行人檢測(cè)的檢測(cè)正確率高,虛警率低,且受遮擋和姿態(tài)變化的影響小。后續(xù)研究重點(diǎn)是進(jìn)一步提高本文方法的運(yùn)算效率。
參考文獻(xiàn)
[1] HOANG V D,VAVILIN A,JO K H.Pedestrian detection approach based on modified Haar-like features and AdaBoost[C].International Conference on Control,Automation and Systems,2012:614-618.
[2] HOANG V D,LE M H,JO K H.Hybrid cascade boosting machine using variant scale blocks based HOG features for pedestrian detection[J].Neurocomputing,2014,135(8):357-366.
[3] DOLL?魣R P,APPEL R,KIENZLE W.Crosstalk cascades for frame-rate pedestrian detection[M].Computer Vision-ECCV 2012.Springer Berlin Heidelberg,2012:645-659.
[4] OUYANG W,WANG X.Single-pedestrian detection aided by multi-pedestrian detection[C].Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2013:3198-3205.
[5] OUYANG W,ZENG X,WANG X.Modeling mutual visibility relationship in pedestrian detection[C].IEEE Conference on Computer Vision & Pattern Recognition.IEEE,2013:3222-3229.
[6] ZHANG S,BAUCKHAGE C,CREMERS A B.Informed haar-like features improve pedestrian detection[C].IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2014:947-954.
[7] YAN J,ZHANG X,LEI Z,et al.Robust multi-resolution pedestrian detection in traffic scenes[C].2013 IEEE Conference on Computer Vision and Pattern Recognition,2013:3033-3040.
[8] TIAN Y,LUO P,WANG X,et al.Pedestrian detection aided by deep learning semantic tasks[C].Computer Vision and Pattern Recognition.IEEE,2014:5079-5087.
作者信息:
歐中亞1,2,山田宏尚2
(1.河南經(jīng)貿(mào)職業(yè)學(xué)院 信息管理系,河南 鄭州450046;2.日本岐阜大學(xué) 工學(xué)研究科,日本 岐阜5011193)