文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2017.04.034
中文引用格式: 歐中亞,山田宏尚. 聯(lián)合部件特征與增強SVM的行人檢測算法[J].電子技術(shù)應(yīng)用,2017,43(4):133-137.
英文引用格式: Ou Zhongya,Hironao Yamada. A pedestrian detection method combining joint components features and boost SVM[J].Application of Electronic Technique,2017,43(4):133-137.
0 引言
行人檢測技術(shù)的關(guān)鍵是提取人體結(jié)構(gòu)特征和設(shè)計分類器,常用特征有Haar-like[1]、方向梯度直方圖(Histogram of Oriented Gradients,HOG)[2]等,分類器有Adaboost[3]、支持向量機(Support Vector Machines,SVM)[4]、深度網(wǎng)絡(luò)[5]等。如文獻[6]采用改進的Haar-like特征和Adaboost分類器提高實現(xiàn)快速可靠的行人檢測,文獻[7]采用優(yōu)化的HOG特征和SVM分類器實現(xiàn)復(fù)雜交通場景下的多分辨率行人檢測,文獻[8]采用深度學(xué)習(xí)方法降低行人檢測的虛警率。然而在街道、會場等監(jiān)控場景,人體部分區(qū)域會被遮擋,且姿態(tài)也會變化,導(dǎo)致現(xiàn)有行人檢測方法的檢測性能下降。為了提高遮擋、姿態(tài)變化條件下的行人檢測性能,本文提出一種聯(lián)合部件特征的增強SVM檢測方法,聯(lián)合人體全局和局部部件提取特征并進行分類,提高行人檢測性能。
1 本文方法
遮擋或姿態(tài)變化只會對人體部分部件產(chǎn)生影響,而其他部件特征仍具有行人鑒別功能。基于這一思路,本文對人體部件進行劃分,融合局部部件和全局部件的特征來描述人體,有針對性地設(shè)計特征提取與分類方法,目標是提高遮擋、姿態(tài)變化條件下的行人檢測性能。
1.1 人體部件劃分
在監(jiān)控場景中,人體的上肢與軀干部分經(jīng)常存在大面積重合,如圖1(a)所示,故人體的上肢部件可以合并在軀干部件中。軀干部件可能會存在部分遮擋,故將人體軀干等分為左右兩部分,得到兩個部件c2和c3,如圖1(b)所示。監(jiān)控場景中人體的頭部部件和兩腿部件非常顯著,故將其劃分出來,如圖1(b)中的c1、c4和c5。通過提取人體局部部件的特征進行人體檢測,可以降低遮擋對全局人體檢測的影響。但是,人體全局特征仍然是人體檢測的有效特征,其區(qū)分人體與非人體的能力要優(yōu)于局部部件特征,故本人仍保留人體全局部件,如圖1(b)中的c6。這樣,本文將人體分為6個部件,分別是頭部、左軀干、右軀干、左腿、右腿和全身部件。綜合利用人體全局和局部部件的特征進行人體檢測,可以有效解決遮擋、姿態(tài)變化等引起的人體檢測性能下降問題。
1.2 聯(lián)合部件特征提取
Haar-like特征和HOG特征是目前人體檢測領(lǐng)域常用的特征描述子。相對而言,HOG特征的優(yōu)勢是區(qū)分能力強,而Haar-like特征的優(yōu)勢是計算效率高。本文針對前一節(jié)劃分的人體局部部件,提出一種適應(yīng)姿態(tài)變化的改進Haar-like特征。對于全身部件,本文仍采用HOG特征進行描述。通過融合這兩類特征構(gòu)建聯(lián)合部件特征,用于描述人體結(jié)構(gòu)。
(1)局部部件特征提取
當人體受到遮擋時,人體的全局特征必然會受到一定影響,從而引起人體檢測器的檢測性能下降。然而,遮擋不可能遮蔽所有人體部件,如圖1(b)中人體局部部件c1~c5不可能都被遮擋,這樣情況下,那些沒有被遮擋的局部部件的特征可以用來檢測人體。但是,相對于人體的全局特征,局部特征畢竟僅反映了人體的某一個局部的特性,其區(qū)分能力不如全局特征。因此,局部特征在人體檢測過程中僅作為輔助特征,本文以計算效率高的Haar-like特征為基礎(chǔ)來描述人體的局部部件。
傳統(tǒng)的Haar-like特征計算效率高的主要原因是采用積分圖方法快速計算矩形區(qū)域的亮度累加和。但前提是區(qū)域必須是矩形的。然而,人體姿態(tài)的變化很大,矩形區(qū)域難以適應(yīng)各種姿態(tài)的人體部件描述,尤其是腿部部件。為此,本文對傳統(tǒng)的Haar-like特征進行改進,目標是快速提取平行四邊形區(qū)域的人體部件特征。詳細描述如下。
特征提取階段最耗時的步驟是計算每一個區(qū)域的亮度累加和,因為這一步驟要在不同的尺度圖像上重復(fù)多次。為了提高運算效率,關(guān)鍵是避免多尺度上的重復(fù)計算。為此,首先對全圖計算一次亮度累加和,并將一個平行四邊形區(qū)域的累加和存儲到一個累加和表(TP)中。然后通過計算如圖2所示的黑白平行四邊形區(qū)域之間的亮度累加和之差來求取改進的Haar-like特征。由圖2可見,本文使用的改進Haar-like特征類型與傳統(tǒng)的Haar-like特征類型不同,主要區(qū)別在于采用平行四邊形區(qū)域來代替?zhèn)鹘y(tǒng)的矩形區(qū)域,以便于適應(yīng)人體部件的姿態(tài)變化。
如圖2所示,改進的Haar-like特征類型共有4類,每一類的亮度累加和計算方法不同,對于圖2(a)所示的第一類Haar-like特征,按從左上角到右下角的順序計算圖像的亮度累加和TP(1),表示為:
圖2(d)所示的第四種特征類型的亮度累加和TP(4)可以表示為:
其中,H表示圖像的高度。
每一個TP表中的值用于計算一個平行四邊形區(qū)域的亮度累加和。采用TP的優(yōu)點在于,只需要4次遍歷即可計算出每一個平行四邊形的改進Haar-like特征。譬如,平行四邊形SP的第一類改進Haar-like特征的計算公式為:
其中,(x,y)表示圖像中一個區(qū)域的左上角位置,w和h分別表示區(qū)域的寬度和高度。
類似地,平行四邊形SP的第二類改進Haar-like特征的計算公式為:
平行四邊形SP的第三類改進Haar-like特征的計算公式為:
平行四邊形SP的第四類改進Haar-like特征的計算公式為:
(2)全局部件特征提取
對于圖1(b)中的人體全身部件c6,本文仍采用HOG特征來進行描述,實現(xiàn)步驟詳見文獻[2]。
(3)聯(lián)合部件特征構(gòu)建
對于一幅圖像或一個圖像塊,為了便于進行人體部件分塊,采用圖3所示的簡單分塊方法,具體地,圖像塊的上1/4區(qū)域用于提取頭部部件c1的局部擴展Haar-like特征v1;在接下來的3/4區(qū)域中,左邊一半?yún)^(qū)域用于提取左軀干部件c2的局部擴展Haar-like特征v2,右邊一半?yún)^(qū)域用于提取右軀干部件c3的局部擴展Haar-like特征v3;在圖像的下半?yún)^(qū)域內(nèi),左邊一半?yún)^(qū)域用于提取左腿部件c4的局部擴展Haar-like特征v4,右邊一半?yún)^(qū)域用于提取右腿部件c5的局部擴展Haar-like特征v5;最后,提取整個圖像塊的全局HOG特征v6。這樣,圖像塊的聯(lián)合部件特征向量可以表示為v={v1,v2,v3,v4,v5,v6}。
1.3 增強SVM學(xué)習(xí)
增強學(xué)習(xí)可通過組合弱分類器構(gòu)建區(qū)分能力更強的強分類器。本文在常用的SVM分類器的基礎(chǔ)上,提出一種增強SVM學(xué)習(xí)方法,對人體的聯(lián)合部件特征進行訓(xùn)練和分類。
給定一個訓(xùn)練集D={(vi,yi)|i=1,…,n},其中,n為樣本總數(shù),vi表示圖像塊i的特征向量,yi表示該特征向量對應(yīng)的類標簽,yi=1表示vi屬于人體,yi=-1表示vi屬于背景。SVM方法訓(xùn)練的目標是尋找一個最優(yōu)的分類超平面。這一過程本文不再贅述,詳見文獻[4]。
對于第t個SVM檢測器,檢測器的輸出得分可以表示為φt(v)。本文采用增強學(xué)習(xí)的思路,對各部件的SVM分類得分進行加權(quán)求和,組建更強的檢測器,表示為:
檢測器訓(xùn)練的偽代碼如下所述。其中,檢測正確率下限dmin設(shè)為60%。
在特征分類時,依據(jù)聯(lián)合檢測器存儲的權(quán)重系數(shù)計算輸入特征的輸出符號,判別特征類別,具體過程詳見文獻[4]。
2 仿真實驗
2.1 實驗數(shù)據(jù)集及性能評價指標
行人檢測數(shù)據(jù)集比較多,本文選用常用的INRIA和Caltech數(shù)據(jù)集。INRIA數(shù)據(jù)集包含訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集兩部分,訓(xùn)練數(shù)據(jù)集共包含3 679幅圖像,其中包含行人的圖像為2 416幅。測試數(shù)據(jù)集共包含圖像1 585幅,其中包含行人的圖像為1 132幅。每幅圖像中僅有一個行人,且大都為直立人體。Caltech數(shù)據(jù)集源自真實街區(qū)場景拍攝的視頻,視頻集中的行人都處于自然的狀態(tài),常存在遮擋和姿態(tài)變化,因此行人檢測難度較大。該視頻集的分辨率為640×480,幀率為30 f/s。其中,標記的行人數(shù)量有2 300個。
本文在INRIA的訓(xùn)練數(shù)據(jù)集上訓(xùn)練分類器,然后分別在INRIA的測試數(shù)據(jù)集和Caltech數(shù)據(jù)集上進行行人檢測測試,選用檢測正確率和虛警率兩個指標來進行性能評價。其中,檢測正確率(DR)可以表示為檢測到的行人數(shù)量與行人總數(shù)的比值;虛警率(FA)可以表示為檢測到的背景數(shù)量與檢測到的所有目標數(shù)量的比值。同時,本文也對算法的運算效率進行定量評價,評價指標是平均檢測耗時(ADT)。所有對比實驗都在相同的計算機平臺上進行,計算機環(huán)境為:Intel Core-i5 CPU 3.20 GHz、16 GB RAM、Visual Studio 2012和OpenCV 2.48開發(fā)平臺、Windows 7 64位操作系統(tǒng)。
2.2 不同人體部件的檢測性能分析
本文通過聯(lián)合人體不同部件的特征來提高遮擋、姿態(tài)變化條件下的行人檢測性能。為了驗證聯(lián)合部件特征的有效性,將其與不同部件單獨的行人檢測指標進行對比。圖4給出了兩個數(shù)據(jù)庫下的行人檢測指標對比結(jié)果。
單獨分析圖4(a)和圖4(b),很明顯本文使用的聯(lián)合部件的檢測正確率指標高于各獨立部件,尤其是虛警率指標遠低于獨立部件。而且,通過對比圖4(a)和圖4(b)可以發(fā)現(xiàn),當人體遮擋、姿態(tài)變化較多時,由于獨立部件可能被遮擋,導(dǎo)致檢測正確率指標下降嚴重。而聯(lián)合部件中總有部件不被遮擋,故性能指標并沒有太大變化。從圖4中還可以發(fā)現(xiàn),全身部件的獨立檢測性能要優(yōu)于局部部件的獨立檢測性能,尤其是虛警率指標優(yōu)勢明顯。因為局部部件的區(qū)分能力不強,易將背景誤識為目標。但聯(lián)合部件通過融合局部部件和全身部件的特征,增強了特征的區(qū)分能力,在提高檢測正確率指標的同時還大幅降低了虛警率指標。因此,聯(lián)合部件的檢測性能要優(yōu)于各獨立部件。
2.3 不同方法的檢測性能分析
為了進一步驗證本文方法的行人檢測性能,將本文方法與文獻[6,7,8]中所述行人檢測方法進行對比實驗。圖5給出了對比實驗結(jié)果。
從圖5可以看出,在兩個數(shù)據(jù)集上測試時本文方法的檢測正確率指標都高于其他3種方法,同時虛警率指標明顯低于其他3種方法。尤其是在Caltech數(shù)據(jù)集上,其他3種方法的檢測正確率指標下降明顯,原因是Caltech數(shù)據(jù)集上的人體存在遮擋和姿態(tài)變化,降低了人體全身特征的區(qū)分能力。而本文方法采用聯(lián)合部件特征和增強SVM學(xué)習(xí)方法來檢測人體,受遮擋和姿態(tài)變化的影響較小。
表1給出了4種方法的ADT指標對比,可見本文方法的平均檢測耗時略高于文獻[6]所述方法,低于其他2種方法。但從DR和FA指標來看,本文方法與文獻[6]所述方法相比優(yōu)勢明顯。綜合評價,本文方法的行人檢測性能優(yōu)于其他3種方法。
3 結(jié)束語
本文針對人體局部特征變化引起的行人檢測性能下降問題,提出了一種結(jié)合聯(lián)合部件特征與增強SVM的行人檢測方法。設(shè)計思路是將人體分成多個局部部件,這樣,部分局部部件受遮擋、姿態(tài)變化影響時不會影響其他局部部件的檢測性能。實驗結(jié)果表明,采用本文方法進行行人檢測的檢測正確率高,虛警率低,且受遮擋和姿態(tài)變化的影響小。后續(xù)研究重點是進一步提高本文方法的運算效率。
參考文獻
[1] HOANG V D,VAVILIN A,JO K H.Pedestrian detection approach based on modified Haar-like features and AdaBoost[C].International Conference on Control,Automation and Systems,2012:614-618.
[2] HOANG V D,LE M H,JO K H.Hybrid cascade boosting machine using variant scale blocks based HOG features for pedestrian detection[J].Neurocomputing,2014,135(8):357-366.
[3] DOLL?魣R P,APPEL R,KIENZLE W.Crosstalk cascades for frame-rate pedestrian detection[M].Computer Vision-ECCV 2012.Springer Berlin Heidelberg,2012:645-659.
[4] OUYANG W,WANG X.Single-pedestrian detection aided by multi-pedestrian detection[C].Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2013:3198-3205.
[5] OUYANG W,ZENG X,WANG X.Modeling mutual visibility relationship in pedestrian detection[C].IEEE Conference on Computer Vision & Pattern Recognition.IEEE,2013:3222-3229.
[6] ZHANG S,BAUCKHAGE C,CREMERS A B.Informed haar-like features improve pedestrian detection[C].IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2014:947-954.
[7] YAN J,ZHANG X,LEI Z,et al.Robust multi-resolution pedestrian detection in traffic scenes[C].2013 IEEE Conference on Computer Vision and Pattern Recognition,2013:3033-3040.
[8] TIAN Y,LUO P,WANG X,et al.Pedestrian detection aided by deep learning semantic tasks[C].Computer Vision and Pattern Recognition.IEEE,2014:5079-5087.
作者信息:
歐中亞1,2,山田宏尚2
(1.河南經(jīng)貿(mào)職業(yè)學(xué)院 信息管理系,河南 鄭州450046;2.日本岐阜大學(xué) 工學(xué)研究科,日本 岐阜5011193)