摘 要: 為了進(jìn)一步提高人體部位識(shí)別正確率,考慮人體部位尺寸不一特性,提出了改進(jìn)型深度差分特征。改進(jìn)型深度差分特征根據(jù)人體部位尺寸大小確定特征偏移量取值,然后利用隨機(jī)森林算法訓(xùn)練分類模型,實(shí)現(xiàn)了人體部位識(shí)別。實(shí)驗(yàn)結(jié)果表明,采用改進(jìn)型深度差分特征作為分類模型的訓(xùn)練特征點(diǎn),實(shí)現(xiàn)了人體部位更高、更準(zhǔn)確的識(shí)別率,比原深度差分特征提高了1.95%。
關(guān)鍵詞: 部位識(shí)別;隨機(jī)森林;深度圖像;深度差分特征
0 引言
人體姿態(tài)識(shí)別是計(jì)算機(jī)視覺(jué)中一個(gè)重要的研究方向,對(duì)視頻中運(yùn)動(dòng)人體部位的準(zhǔn)確識(shí)別可為人體姿態(tài)研究奠定基礎(chǔ),也降低了人體行為分析的難度。
人體部位識(shí)別從識(shí)別局部部位發(fā)展到識(shí)別整體部位,其算法主要可分為基于部位模型[1]部位識(shí)別和基于特征分類[2]部位識(shí)別。人部位識(shí)別算法根據(jù)圖像數(shù)據(jù)不同又可分為基于可見(jiàn)光圖像識(shí)別和基于深度圖像識(shí)別。基于可見(jiàn)光圖像識(shí)別人體部位主要利用人體表觀特征,如HOG特征和人體輪廓特征,但是容易受到光照強(qiáng)度、陰影、著衣顏色等因素的影響。為了克服以上問(wèn)題,一些學(xué)者采用深度圖像識(shí)別人體部位,由于深度圖像獲取設(shè)備價(jià)格昂貴且體型龐大,該項(xiàng)技術(shù)一直沒(méi)有突破性的進(jìn)展,直到Kinect傳感器的出現(xiàn),該設(shè)備除了價(jià)格低廉、使用方便外,還能同時(shí)獲取顏色和深度信息。
近幾年,基于深度圖像的人體部位識(shí)別已經(jīng)取得了不少研究成果。SHOTTON J等人[3]采用深度差分特征作為隨機(jī)森林分類模型的特征點(diǎn),實(shí)現(xiàn)了單一深度圖像上人體部位的分類和識(shí)別;殷海艷[4]在低分辨率深度圖像上,采用人體部位合并思想實(shí)現(xiàn)了人體部位關(guān)節(jié)點(diǎn)的較高識(shí)別。但是,以上方法在實(shí)際數(shù)據(jù)中得到的識(shí)別正確率相對(duì)較低。
為了進(jìn)一步提高人體部位識(shí)別正確率,本文采用隨機(jī)森林算法訓(xùn)練分類模型,考慮人體部位尺寸不一特性,改進(jìn)了深度差分特征。其中,改進(jìn)型深度差分特征中的偏移量取值由人體部位大小確定。此外,由于目前沒(méi)有公開的人體部位標(biāo)記樣本庫(kù),本文采用人工標(biāo)記法自行構(gòu)建樣本庫(kù)。實(shí)驗(yàn)結(jié)果表明,采用改進(jìn)型深度差分特征具有更高、更準(zhǔn)確的人體部位識(shí)別率,另外,不同大小的人體部位識(shí)別率也有不同程度的改善。
1 深度圖像人體部位標(biāo)記樣本庫(kù)
由于目前沒(méi)有公開的人體部位標(biāo)記樣本集,本文采用人工標(biāo)記法構(gòu)建樣本集,動(dòng)作序列引用卡內(nèi)基梅隆大學(xué)動(dòng)作捕捉數(shù)據(jù)庫(kù),包括打招呼、談話、走、跑、跳、打籃球、踢足球、洗窗戶等14組??紤]到人體性別、高矮、胖瘦、不同著裝等因素,樣本庫(kù)選取4個(gè)對(duì)象進(jìn)行采集。樣本庫(kù)共計(jì)251組深度圖像和人體部位標(biāo)記圖像,圖像分辨率為640×480。為了便于骨架提取,根據(jù)人體生理結(jié)構(gòu),將人體分割成18個(gè)關(guān)鍵部位,分別是:頭部、頸部、左/右肩膀、左/右上臂、左/右下臂、左/右手部、胸部、臀部、左/右大腿、左/右小腿、左/右腳部,其樣本庫(kù)示例圖如圖1所示。
2 基于改進(jìn)型深度特征人體部位識(shí)別
2.1 深度特征提取
2.1.1深度差分特征
深度差分特征結(jié)合了梯度特征和點(diǎn)特征的優(yōu)點(diǎn),其定義如下:
f(I,x)=dI(x+xu)-dI(x+xv)(1)
其中,I表示深度圖像,x為圖像像素點(diǎn),dI(x)為像素點(diǎn)x的深度值,xu和xv為像素點(diǎn)x經(jīng)偏移向量u和v偏移后的像素點(diǎn),計(jì)算公式如下:
xu=d·uxu=d·v(2)
考慮到人體投影在圖像上的區(qū)域大小會(huì)隨著人體距離傳感器的遠(yuǎn)近而發(fā)生改變,為了得到真實(shí)三維空間偏移量,引入了深度因子d,其計(jì)算公式為:
=(u,v)為深度差分特征偏移向量對(duì),由于偏移向量的值和方向在二維平面空間中具有無(wú)窮大的取值范圍,為了減少計(jì)算成本,本文以平面原點(diǎn)為中心平均8等分,設(shè)α為向量夾角,A為夾角集:
偏移向量取值在實(shí)驗(yàn)部分中討論。本文每個(gè)像素含有8個(gè)偏移向量,包括像素點(diǎn)本身共有9個(gè)深度值,因此可組合36對(duì)偏移向量,圖2為深度差分特征提取示意圖。
2.1.2 改進(jìn)型深度差分特征
與深度差分特征相比,改進(jìn)型深度差分特征主要區(qū)別在于特征中偏移量取值由人體部位的大小確定,即部位越大,偏移量值越大;部位越小,偏移量值越小,其偏移量計(jì)算公式為:
xu=d·p·uxv=d·p·v(5)
其中,p為人體部位尺寸比例因子。
由于人體姿態(tài)多樣性、關(guān)節(jié)點(diǎn)自由度高、部位形狀不規(guī)則,直接計(jì)算人體部位幾何尺寸不僅復(fù)雜度高、時(shí)耗大,而且效果差,不符合實(shí)驗(yàn)要求。為了便于人體部位尺寸計(jì)算,本文首先假設(shè)人體部位為標(biāo)準(zhǔn)正方形,然后統(tǒng)計(jì)各部位在深度圖像中所含像素點(diǎn)數(shù),再以這部分像素點(diǎn)構(gòu)造最大正方形,取最大正方形對(duì)角線作為該部位的幾何尺寸,最后以最大部位尺寸作歸一化處理得到人體部位尺寸比例值。
S={s|s=si},i=1,2,…,18(6)
其中,si表示第i個(gè)人體部位尺寸長(zhǎng)度,S為人體部位尺寸集。
其中,pi為第i個(gè)人體部位經(jīng)歸一化后的部位尺寸比例值,P為人體部位尺寸比例集。
改進(jìn)型深度差分特征除了保留深度差分特征的平移不變性和深度不變性外,還具有偏移量取值自適應(yīng)人體部位大小的特性。此外,改進(jìn)型特征只比深度差分特征多兩次乘法運(yùn)算,因此仍然具有計(jì)算復(fù)雜度低的優(yōu)點(diǎn)。
2.2 隨機(jī)森林分類模型訓(xùn)練
隨機(jī)森林是由多個(gè)弱分類器組合而成的強(qiáng)分類器,分類結(jié)果由所有弱分類器共同投票決定,因此能很好地解決過(guò)擬合現(xiàn)象,其結(jié)構(gòu)圖如圖3所示。與傳統(tǒng)弱分類器組合算法Bagging和Boosting不同,隨機(jī)森林除了訓(xùn)練集隨機(jī)性外,還隨機(jī)選取若干個(gè)特征屬性來(lái)訓(xùn)練弱分類器的每個(gè)分裂節(jié)點(diǎn)。所以,隨機(jī)森林采用隨機(jī)樹作為弱分類器,而不是決策樹。
隨機(jī)森林中每棵隨機(jī)樹的訓(xùn)練過(guò)程如下:
?。?)隨機(jī)選取一組候選屬性,其中
為深度特征的偏移向量對(duì),
為候選分割閾值。
(2)根據(jù)候選屬性?準(zhǔn)將輸入訓(xùn)練數(shù)據(jù)Q={(I,x)}分割成左右子集:
?。?)計(jì)算給定候選屬性中的信息增益,求出最大信息增益對(duì)應(yīng)的屬性?準(zhǔn)*:
?。?)得到最大信息增益后,判斷分裂后子集是否滿足樹生長(zhǎng)終止條件,否則重復(fù)迭代步驟(2)和(3),直到滿足條件為止。其中,隨機(jī)樹生長(zhǎng)終止條件為:達(dá)到樹最大深度或者葉節(jié)點(diǎn)樣本數(shù)少于最小值閾值。
2.3 隨機(jī)森林分類模型測(cè)試
對(duì)于測(cè)試數(shù)據(jù),根據(jù)式(1)計(jì)算深度特征屬性值,然后將屬性值輸入到隨機(jī)森林分類模型中每棵隨機(jī)樹的根節(jié)點(diǎn)中,與隨機(jī)樹中每個(gè)分裂節(jié)點(diǎn)閾值進(jìn)行比較,最終得到目標(biāo)類別的概率分布P(c|I,x)。其中,c表示目標(biāo)類型,即18種人體部位類別,(I,x)為測(cè)試圖像的像素點(diǎn)。由于隨機(jī)森林分類模型中含有若干棵隨機(jī)樹,每棵隨機(jī)樹分類過(guò)程中互不影響。隨機(jī)森林分類模型最終結(jié)果由所有隨機(jī)樹共同投票決定,其值為所有隨機(jī)樹分類結(jié)果的均值,最終由式(12)計(jì)算得到目標(biāo)類別c*。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)環(huán)境與模型參數(shù)設(shè)置
本文實(shí)驗(yàn)環(huán)境配置如下:PC一臺(tái):酷睿2E7500@ 2.93 GHz CPU,2 GB內(nèi)存,64位Windows 7系統(tǒng);深度圖像獲取傳感器為Kinect;編譯環(huán)境為32位MATLAB 7.1。
本文人體部位分類模型由隨機(jī)森林訓(xùn)練得到,通過(guò)多次實(shí)驗(yàn)總結(jié)得出隨機(jī)森林分類模型最佳參數(shù)應(yīng)配置如下:隨機(jī)樹7棵,樹深度為15,訓(xùn)練圖像采樣點(diǎn)為 2 000個(gè),每個(gè)像素點(diǎn)含有36個(gè)特征屬性,每次隨機(jī)選取6個(gè)特征屬性訓(xùn)練隨機(jī)樹中分裂節(jié)點(diǎn)的最佳分類屬性。本文通過(guò)采樣對(duì)象1的樣本數(shù)據(jù)來(lái)驗(yàn)證實(shí)驗(yàn)結(jié)果,訓(xùn)練圖像42張,測(cè)試圖像10張,其中,訓(xùn)練圖像和測(cè)試圖像均含有14組動(dòng)作序列數(shù)據(jù)。此外,人體部位尺寸比例值取訓(xùn)練集所有圖像人體部位尺寸的均值,具體數(shù)據(jù)如表1所示。
3.2 實(shí)驗(yàn)結(jié)果與分析
改進(jìn)型深度差分特征是在深度差分特征的基礎(chǔ)上引入了偏移量值自適應(yīng)人體部位尺寸的特性,即改進(jìn)型特征的偏移量取值由人體部位尺寸大小確定。雖然改進(jìn)型深度差分特征的定義式與深度差分特征并無(wú)兩樣,但是偏移量計(jì)算公式卻不同,這將導(dǎo)致特征最佳偏移量取值也不相同。為了檢測(cè)深度差分特征和改進(jìn)型深度差分特征的最佳偏移量取值,本文將特征偏移量取值范圍設(shè)置在10~180像素之間,間隔為10像素,其實(shí)驗(yàn)結(jié)果對(duì)比曲線圖如圖4所示。
由圖4可知,隨著偏移量取值的不斷增大,深度差分特征和改進(jìn)型深度差分特征對(duì)應(yīng)的測(cè)試集人體部位分類正確率均值都呈現(xiàn)先遞增后遞減的趨勢(shì),但是深度差分特征超過(guò)最佳偏移量取值之后,其測(cè)試集部位分類正確率均值急劇下降,而改進(jìn)型深度差分特征在偏移量超過(guò)80像素后,其部位分類正確率均值變化相對(duì)穩(wěn)定,即便達(dá)到最高人體部位分類正確率后,其下降幅度也不大。深度差分特征的最佳偏移量取值為50像素,改進(jìn)型深度差分特征的最佳偏移量取值為130像素。此外,改進(jìn)型深度差分特征中每個(gè)部位的最佳偏移量為該部位的尺寸比例值與改進(jìn)型特征最佳偏移量(本實(shí)驗(yàn)為130像素)的乘積。
在實(shí)驗(yàn)數(shù)據(jù)與分類模型參數(shù)保持一致的情況下,深度差分特征和改進(jìn)型深度差分特征選取各自最佳偏移量時(shí)的人體部位分類正確率對(duì)比結(jié)果如表2所示。由表2可知,采用改進(jìn)型深度差分特征作為隨機(jī)森林分類模型特征點(diǎn)時(shí),其人體部位分類正確率均值為73.82%,比深度差分特征的分類正確率均值高出了1.95%。由于改進(jìn)型深度差分特征根據(jù)人體部位不同尺寸來(lái)選取特征偏移量,因此,針對(duì)不同尺寸的部位分類正確率也有不同程度的改善。如頭部、頸部、手部和腳部等較小區(qū)域的人體部位平均分類正確率從72.93%提高到76.4%,幅度提高3.47%;較大區(qū)域人體部位如胸部和臀部等也有較大的改善,幅度提高 3.64%;其余人體部位的平均分類正確率總體改善了 0.75%。人體各部位分類正確率對(duì)比圖如圖5所示。
4 結(jié)論
本文采用隨機(jī)森林算法訓(xùn)練分類模型,考慮人體部位尺寸不一特性,改進(jìn)了深度差分特征。改進(jìn)型深度差分特征根據(jù)人體部位尺寸來(lái)確定特征中偏移量的取值,而非統(tǒng)一偏移量值。實(shí)驗(yàn)結(jié)果表明,采用改進(jìn)型深度差分特征作為隨機(jī)森林分類模型訓(xùn)練特征點(diǎn)來(lái)識(shí)別人體部位時(shí)具有更高、更準(zhǔn)確的正確率,并且不同尺寸大小的人體部位識(shí)別正確率均有不同程度的提升。
參考文獻(xiàn)
[1] Lu Xia, CHEN C C, AGGARWAL J K. Human detection using depth information by Kinect[C]. 2011 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops(CVPRW), 2011: 15-22.
[2] YOO B I, KIM W, HAN J J, et al. Randomized decision bush: combining global shape parameters and local scalable descriptors for human body parts recognition[C]. ICIP, 2014: 1560-1564.
[3] SHOTTON J, FITZGIBBON A, COOK M, et al. Real-time human pose recognition in parts from single depth images[J]. 2011 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2011:1297-1304.
[4] 殷海艷.基于深度圖像的人體姿態(tài)識(shí)別[D].北京:北京工業(yè)大學(xué),2013.