張強(qiáng)
(中國(guó)科學(xué)技術(shù)大學(xué) 自動(dòng)化系,安徽 合肥 230027)
摘要:標(biāo)準(zhǔn)HOG模型在行人檢測(cè)領(lǐng)域中最為經(jīng)典,相比于標(biāo)準(zhǔn)模型中整齊劃一的block,不同尺寸的block可以獲得更多的細(xì)節(jié)信息。首先,在去除上下文背景的32×96尺寸模型基礎(chǔ)上設(shè)計(jì)144個(gè)block特征;然后,提出類(lèi)Fisher比計(jì)算block類(lèi)別區(qū)分力;最后,利用NMS方法選出24個(gè)block,串接為1 854維的行人檢測(cè)模型。實(shí)驗(yàn)結(jié)果表明,該利用特征選擇改進(jìn)的行人檢測(cè)模型獲得了顯著的性能提升。
關(guān)鍵詞:行人檢測(cè);特征選擇;線性判別分析;非極大值抑制
0引言
行人檢測(cè)是計(jì)算機(jī)視覺(jué)熱門(mén)研究領(lǐng)域之一。人體的非剛體性、外觀多樣性、復(fù)雜背景、光照變化、尺度變化、遮擋等研究難點(diǎn)給行人檢測(cè)研究提出了巨大的挑戰(zhàn)。另一方面,行人檢測(cè)的市場(chǎng)應(yīng)用前景十分廣闊,典型應(yīng)用有智能視頻監(jiān)控、車(chē)輛輔助駕駛行人保護(hù)系統(tǒng)、智能交通控制等,近年來(lái)也應(yīng)用到航拍圖像、受害者營(yíng)救等新興領(lǐng)域[1]。
本文在32×96尺寸下,設(shè)計(jì)了144個(gè)不盡相同的block特征,然后利用一種新穎的特征選擇方法從中挑選出24個(gè),將這些特征向量串聯(lián)構(gòu)成一個(gè)1 854維的行人檢測(cè)模型,最后用線性支持向量機(jī)進(jìn)行模型訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,利用特征選擇改進(jìn)的行人模型顯著提升了檢測(cè)性能。
1相關(guān)工作
DALAL N和TRIGGS B在2005年CVPR上提出HOG特征[2],3 780維的64×128標(biāo)準(zhǔn)HOG行人模型近乎完美地解決了MIT行人數(shù)據(jù)集[3],文中一并推出更具挑戰(zhàn)性的INRIA Person數(shù)據(jù)集。
針對(duì)標(biāo)準(zhǔn)HOG行人模型內(nèi)部block尺寸單一、簡(jiǎn)單地將block特征串聯(lián)而不能充分發(fā)揮HOG潛力的問(wèn)題,Zhu Qiang等人[4]將block尺寸從典型的16×16中釋放出來(lái),通過(guò)改變block的寬高比例以及block在窗口內(nèi)部的滑動(dòng)步長(zhǎng)等,獲得5 031個(gè)不盡相同的block。每一個(gè)block結(jié)合SVM訓(xùn)練得到一個(gè)弱分類(lèi)器,最終用AdaBoost方法從這些弱分類(lèi)器中選擇構(gòu)建級(jí)聯(lián)結(jié)構(gòu)的分類(lèi)器。該方法不足之處在于:在FPPW(False Positives Per Window)vs漏檢率的評(píng)價(jià)方法下,級(jí)聯(lián)HOG在漏檢率較大時(shí)的性能表現(xiàn)依然不如標(biāo)準(zhǔn)HOG行人模型;盡管可以從5 031個(gè)block中做出隨機(jī)選擇,但是訓(xùn)練數(shù)以百計(jì)弱分類(lèi)器的工作量依然十分巨大。
田仙仙等人[5]在標(biāo)準(zhǔn)HOG行人檢測(cè)模型的基礎(chǔ)上,通過(guò)改變block中cell大小,設(shè)計(jì)了3種不同尺寸共計(jì)21個(gè)block特征,然后利用Fisher準(zhǔn)則給所有特征排序,將類(lèi)間離散度矩陣與類(lèi)內(nèi)離散度矩陣之間行列式比值衡量block特征的區(qū)分能力,比值越大表示block區(qū)分力越強(qiáng),最后挑選block直到滿足設(shè)定的分類(lèi)準(zhǔn)確率要求。作者利用這種方法選擇出10個(gè)block,特征向量合計(jì)360維。但是,作者采用從多種不同渠道獲得的隨機(jī)混合樣本,并沒(méi)有在完整的INRIA Person數(shù)據(jù)集上做出Multi HOG的性能對(duì)比。同時(shí),Zhu Qiang等人[4]和田仙仙等人[5]均沒(méi)有在FPPI vs漏檢率[6]的評(píng)價(jià)方法下做出性能評(píng)價(jià)。
特征選擇是從一系列特征中挑選出最有效的特征以降低特征空間維度的過(guò)程,其目標(biāo)是尋找一個(gè)最小特征子集,該子集以較高程度的正確性代表原始的特征集合。特征選擇算法[78]按照特征集合評(píng)價(jià)策略可以劃分為過(guò)濾式(Filter)和封裝式(Wrapper)兩大類(lèi)。
Filter與Wrapper方法的區(qū)別在于對(duì)特征子集的評(píng)價(jià)是否用到機(jī)器學(xué)習(xí)算法。其中,Wrapper方法將篩選出來(lái)的特征直接進(jìn)行分類(lèi)器訓(xùn)練,然后根據(jù)分類(lèi)器在驗(yàn)證集上的表現(xiàn)來(lái)評(píng)價(jià)該特征子集。這類(lèi)方法的優(yōu)點(diǎn)在于能夠有效地辨識(shí)關(guān)鍵特征,挑選出規(guī)模相對(duì)較小的特征子集,精簡(jiǎn)學(xué)習(xí)機(jī)器的結(jié)構(gòu);缺點(diǎn)同樣明顯,由于需要反復(fù)不斷地訓(xùn)練和測(cè)試分類(lèi)器,這類(lèi)方法一般比較耗時(shí)。Filter方法對(duì)特征子集的評(píng)價(jià)不需要經(jīng)過(guò)機(jī)器學(xué)習(xí)算法的訓(xùn)練,是一類(lèi)計(jì)算效率相對(duì)較高的方法。相對(duì)Wrapper方法,F(xiàn)ilter方法對(duì)關(guān)鍵特征的尋找會(huì)有一些阻礙,但其能夠去除大量非關(guān)鍵性的噪聲特征,可以幫助找到次優(yōu)的特征子集。
本研究的數(shù)據(jù)類(lèi)型與樣本數(shù)量決定了無(wú)法采用代價(jià)過(guò)大的Wrapper方法。Filter方法采用了概率距離和相關(guān)距離法、類(lèi)間與類(lèi)內(nèi)距離測(cè)量法、信息熵法、決策樹(shù)濾波等評(píng)價(jià)方法。結(jié)合本文樣本數(shù)據(jù)特點(diǎn),本文主要考慮類(lèi)間與類(lèi)內(nèi)距離測(cè)量法。
線性判別分析(Linear Discriminant Analysis, LDA)通過(guò)尋找一個(gè)轉(zhuǎn)換矩陣W,將原始數(shù)據(jù)空間轉(zhuǎn)換為維度更低的特征空間,并使得類(lèi)間離散度和類(lèi)內(nèi)離散度的比值最大,離散度測(cè)度用樣本離散度矩陣的行列式值計(jì)算,目標(biāo)函數(shù)如下:
其中,SB表示類(lèi)間離散度矩陣,SW表示類(lèi)內(nèi)離散度矩陣。一般情況下,轉(zhuǎn)換矩陣可以通過(guò)求解S-1WSBW=λW獲得。
崔自峰等人[9]在LDA的基礎(chǔ)上提出受限線性判別分析。受限LDA完成的特征選擇沒(méi)有對(duì)特征進(jìn)行轉(zhuǎn)換或組合,不改變特征語(yǔ)義,保留了原始數(shù)據(jù)的可理解性,其轉(zhuǎn)換矩陣為一個(gè)二值矩陣,轉(zhuǎn)換矩陣的每一列有且僅有一個(gè)非零元素1,表示對(duì)原始特征空間中某一個(gè)維度的選擇。而且針對(duì)類(lèi)內(nèi)離散度矩陣SW奇異,傳統(tǒng)求解特征方程組的方式不再適用,作者將離散度的測(cè)度由行列式值替換為矩陣的跡,目標(biāo)函數(shù)修正為:
結(jié)合二值轉(zhuǎn)換矩陣,參數(shù)文獻(xiàn)[9]用表征相應(yīng)特征的評(píng)價(jià)分?jǐn)?shù),挑選所有比值大于1的特征,或者遵循經(jīng)典的特征選擇,通過(guò)預(yù)先給定k值,只選擇前k個(gè)特征。很明顯,如何確定k值是一個(gè)棘手的問(wèn)題。此外,受限LDA沒(méi)有對(duì)選中的特征之間進(jìn)行去冗余操作,選中的特征中很可能彼此有很高的相似度。
王颯等人[10]針對(duì)高維數(shù)據(jù)提出了一種基于Fisher準(zhǔn)則和特征聚類(lèi)的特征選擇方法。首先利用單個(gè)特征的Fisher比來(lái)衡量特征的類(lèi)別區(qū)分力,并依據(jù)Fisher比對(duì)特征降序排序;然后累加所有特征的Fisher比,設(shè)定預(yù)選累加和占比ρ,預(yù)選出類(lèi)別區(qū)分力較強(qiáng)的特征子集;最后利用相關(guān)系數(shù)度量特征之間的冗余度,在預(yù)選的特征子集上對(duì)特征進(jìn)行分層聚類(lèi),從每一個(gè)聚類(lèi)中選擇Fisher比最大的一維特征加入最終的特征子集,以達(dá)到去冗余的目的。
2改進(jìn)的行人檢測(cè)模型
本文采用在64×128標(biāo)準(zhǔn)HOG行人模型基礎(chǔ)上去除上下文背景的32×96尺寸模型。
2.1特征設(shè)計(jì)
Fast HOG[4]和Multi HOG[5]均延續(xù)了由2×2 cell構(gòu)成block的做法,用9個(gè)方向統(tǒng)計(jì)cell的梯度方向直方圖,所以每個(gè)block特征均為36維??紤]cell尺寸過(guò)大將無(wú)法有效獲取圖片的細(xì)節(jié)信息,于是本文采用與上述不同的設(shè)計(jì)方案:將cell的尺寸保持為8×8,只在block的cell組合上做出變化。
在32×96滑動(dòng)窗口內(nèi),將block寬度限定為16和32,寬高比例從1∶1、1∶2、1∶3、2∶1變化到2:3,相鄰block移動(dòng)步長(zhǎng)為8,如表1所示,設(shè)計(jì)了144個(gè)共9種不同尺寸的block。表1block特征設(shè)計(jì)寬高比例寬×高維度數(shù)量1∶116×16363332×3214491∶216×32722732×6428851∶316×481082132×9643212∶132×1672112∶316×24543032×482167如圖1所示,每一個(gè)方格代表一個(gè)8×8 cell,32×96的滑動(dòng)窗口包含48個(gè)cell。如表2所示,第1個(gè)16×16 block由1/2/5/6這4個(gè)cell組成,第2個(gè)16×16 block由2/3/6/7這4個(gè)cell組成,第1個(gè)32×32 block由1/2/3/4…13/14/15/16這16個(gè)cell組成,依此類(lèi)推。
2.2類(lèi)Fisher比
本文采用Filter方法進(jìn)行特征選擇。但是,F(xiàn)ilter方法一般判斷是否選擇特征向量中的某一維,而本文的特征集合由144個(gè)block組成,如表1所示,這些block特征均不是單一維度。因此黃仙仙等人[5]用Fisher比衡量block的類(lèi)別區(qū)分力,首先計(jì)算訓(xùn)練樣本的類(lèi)間離散度矩陣SB和類(lèi)內(nèi)離散度矩陣SW:
其中,mi表示第i類(lèi)樣本的特征向量均值,m表示兩類(lèi)樣本合在一起的特征向量均值:。
然后計(jì)算block的Fisher比:。
雖然協(xié)方差矩陣為半正定矩陣,所有特征根非負(fù),但是依然存在0值特征根的風(fēng)險(xiǎn),從而導(dǎo)致離散度矩陣行列式為0。事實(shí)上,從本文的實(shí)驗(yàn)過(guò)程來(lái)看,訓(xùn)練樣本的類(lèi)間離散度矩陣SB行列式值為0,是奇異矩陣。而一旦|SB|=0,F(xiàn)isher比將無(wú)法衡量該block的類(lèi)別區(qū)分力。
為了避免0值特征根的風(fēng)險(xiǎn),崔自峰等人[9]和王颯等人[10]在對(duì)單一維度特征進(jìn)行選擇時(shí),用訓(xùn)練樣本集上的類(lèi)間方差和類(lèi)內(nèi)方差的比值來(lái)度量該維特征的類(lèi)別區(qū)分力。結(jié)合本文特征數(shù)據(jù)類(lèi)型,將其擴(kuò)展為樣本類(lèi)間離散度矩陣的跡與類(lèi)內(nèi)離散度矩陣的跡之間的比值,用離散度矩陣特征根的和替代特征根的積,從而得到block特征的類(lèi)別區(qū)分力,稱為類(lèi)Fisher(Fisherlike)比:
類(lèi)Fisher比越大,block的類(lèi)別區(qū)分能力越好。
2.3NMS特征選擇
圖2NMS特征選擇流程依據(jù)各block在訓(xùn)練樣本集上的類(lèi)Fisher比,可以得到有序的全體特征集合。如果遵循傳統(tǒng)的特征選擇方法,只選擇前k個(gè)block,那么存在一個(gè)嚴(yán)重問(wèn)題:訓(xùn)練樣本中目標(biāo)某些部位的cell具有非常顯著的類(lèi)別區(qū)分力,導(dǎo)致包含這些cell的block特征也具有較高的區(qū)分力得分。顯然,對(duì)cell過(guò)多地重復(fù)利用,將造成特征嚴(yán)重冗余。因此,本文提出了一種非極大值抑制(NonMaximum Suppression, NMS)方式的特征選擇方法。
如圖2所示,首先依據(jù)block的類(lèi)Fisher比值進(jìn)行排序,得到有序的全體block特征集合,并且給每一個(gè)block設(shè)置標(biāo)志位,標(biāo)志位為0表示此cell沒(méi)有被block占用,標(biāo)志位為1表示此cell已被占用;然后從類(lèi)Fisher比值最大的block開(kāi)始,標(biāo)記占用的cell,并將其加入特征子集;再輸入下一個(gè)得分較低的block,如果該block占用了未標(biāo)記的cell,那么將該block加入特征子集,并將新占用的cell標(biāo)記為1,如果構(gòu)成該block的所有cell標(biāo)志位均為1,則抑制該block;循環(huán)執(zhí)行上一步,直到全體cell標(biāo)志位均為1停止。最后,輸出特征子集。
與王颯等人[10]特征聚類(lèi)的目的類(lèi)似,本文NMS方法也是為了在保證特征子集類(lèi)別區(qū)分力的基礎(chǔ)上進(jìn)行特征去冗余。
本文提出的結(jié)合類(lèi)Fisher比計(jì)算類(lèi)別區(qū)分力和NMS選擇特征子集的特征選擇方法,既保持了特征語(yǔ)義,又實(shí)現(xiàn)了在合理代價(jià)下獲得次優(yōu)的特征子集。
3實(shí)驗(yàn)分析
本文以INRIA Person數(shù)據(jù)集作為驗(yàn)證平臺(tái),訓(xùn)練集由2 416張裁剪好尺寸的正樣本和1 218張負(fù)樣本圖片組成,測(cè)試集由288張共包含589名行人目標(biāo)的圖片組成。
首先分別在正負(fù)訓(xùn)練樣本中提取全部144個(gè)block特征數(shù)據(jù),隨機(jī)從負(fù)樣本圖片中選擇10個(gè)窗口,組成12 180個(gè)負(fù)樣本。然后計(jì)算各block的類(lèi)間離散度矩陣SB和類(lèi)內(nèi)離散度矩陣SW。如前文所言,從16×16 block開(kāi)始計(jì)算SB的行列式,但33個(gè)block結(jié)果全部為0,而且SW的行列式值也極大,常溢出而被視為正無(wú)窮,這些均會(huì)導(dǎo)致block的Fisher比為0,這也是本文無(wú)法用Fisher比衡量block類(lèi)別區(qū)分力的直接原因。因此提出類(lèi)Fisher比,繼續(xù)利用SB和SW計(jì)算各block的類(lèi)Fisher比值,并將全體block按類(lèi)Fisher比值降序排序。最后利用NMS從144個(gè)block中選擇出24個(gè)特征,如表3所示,涵蓋6種尺寸,合計(jì)1 854維。
值得說(shuō)明的是,本文特征選擇的結(jié)果與訓(xùn)練集正樣本間的對(duì)稱性保持一致:1 208個(gè)目標(biāo)經(jīng)由鏡面對(duì)稱處理得到翻倍的2 416張正樣本,而表3中的block之間也保持了左右對(duì)稱。
明確特征子集之后,從訓(xùn)練樣本中提取這24個(gè)block的特征向量,串接成1 854維。然后利用線性支持向量機(jī)進(jìn)行模型訓(xùn)練,誤分類(lèi)代價(jià)設(shè)為[0,1;1,0],其間搜尋了2輪的困難樣本,并將困難樣本加入初始樣本集中重新訓(xùn)練,得到最終的分類(lèi)器。最后基于FPPI vs漏檢率的評(píng)價(jià)方法,在INRIA Person測(cè)試集上檢驗(yàn)?zāi)P偷男阅堋?/p>
如圖3所示,DET曲線越低表示性能更好[6],上方的性能曲線對(duì)應(yīng)3 780維的標(biāo)準(zhǔn)HOG行人模型;居中的性能曲線對(duì)應(yīng)1 188維去除上下文背景的32×96模型;下面的性能曲圖3DET曲線
線對(duì)應(yīng)本文1 854維的利用特征選擇改進(jìn)的行人檢測(cè)模型。顯而易見(jiàn),上述模型的性能依次遞增,以01FPPI為例,三條曲線的漏檢率分別為6503%、5161%以及4312%。
如圖4示例,(a)、(b)、(c)分別為標(biāo)準(zhǔn)HOG行人模型、去除上下文背景行人模型以及利用特征選擇改進(jìn)的行人檢測(cè)模型對(duì)同一張圖片的檢測(cè)結(jié)果,顯然,檢測(cè)效果是依次遞增的。
4結(jié)論
本文還存在以下問(wèn)題:block設(shè)計(jì)上可以更豐富一些,可以將改變cell尺寸來(lái)設(shè)計(jì)block的方式與本文的方式相結(jié)合;本文的特征選擇方法得到的是一個(gè)次優(yōu)的特征子集,未來(lái)可以繼續(xù)研究具備可行性的尋找最優(yōu)特征子集的方法。
參考文獻(xiàn)
?。?] 蘇松志, 李紹滋, 陳淑媛, 等. 行人檢測(cè)技術(shù)綜述[J]. 電子學(xué)報(bào), 2012, 40(4): 814820.[2] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Diego, CA, USA: IEEE Press, 2005, 1: 886893.
?。?] PAPAGEORGIOU C, POGGIO T. A trainable system for object detection [J]. International Journal of Computer Vision, 2000, 38(1): 1533.
[4] Zhu Qiang, AVIDAN S,YEH M C, et al. Fast human detection using a cascade of histograms of oriented gradients[C].IEEE Computer Society Conference on Computer Vision and Pattern Recognition, New York, NY, USA: IEEE Press, 2006, 2: 14911498.
?。?] 田仙仙, 鮑泓, 徐成. 一種改進(jìn)HOG特征的行人檢測(cè)算法[J]. 計(jì)算機(jī)科學(xué), 2014, 41(9): 320324.
?。?] DOLLáR P, WOJEK C, SCHIELE B, et al. Pedestrian detection: A
benchmark[C]. IEEE Conference on Computer Vision and Pattern Recognition. Miami, Florida, USA: IEEE Press, 2009: 304311.
?。?] 毛勇, 周曉波, 夏錚, 等. 特征選擇算法研究綜述[J]. 模式識(shí)別與人工智能, 2007, 20(2): 211218.
?。?] 姚旭, 王曉丹, 張玉璽, 等. 特征選擇方法綜述[J]. 控制與決策, 2012, 27(2): 161166.
?。?] 崔自峰, 吉小華. 基于線性判別分析的特征選擇[J]. 計(jì)算機(jī)應(yīng)用, 2009, 29(10): 27812785.
[10] 王颯, 鄭鏈. 基于Fisher準(zhǔn)則和特征聚類(lèi)的特征選擇[J]. 計(jì)算機(jī)應(yīng)用, 2008, 27(11): 28122813.