《電子技術(shù)應用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設計應用 > 基于局部描述子的人體行為識別
基于局部描述子的人體行為識別
來源:電子技術(shù)應用2012年第7期
齊美彬1,2, 朱啟兵1, 蔣建國1,2
1. 合肥工業(yè)大學 計算機與信息學院, 安徽 合肥 230009; 2. 合肥工業(yè)大學 安全關(guān)鍵工業(yè)測控技術(shù)教育部工程研究中心, 安徽 合肥 230009
摘要: 提出一種新的局部時空特征描述方法對視頻序列進行識別和分類。結(jié)合SURF和光流檢測圖像中的時空興趣點,并利用相應的描述子表示興趣點。用詞袋模型表示視頻數(shù)據(jù),結(jié)合SVM對包含不同行為的視頻進行訓練和分類。為了檢測這種時空特征的有效性,通過UCF YouTube數(shù)據(jù)集進行了測試。實驗結(jié)果表明,提出的算法能夠有效識別各種場景下的人體行為。
中圖分類號: TP391.41
文獻標識碼: A
文章編號: 0258-7998(2012)07-0123-03
Human actions recognition based on local descriptor
Qi Meibin1,2, Zhu Qibing1, Jiang Jianguo1,2
1. School of Computer and Information, Hefei University of Technology, Hefei 230009, China; 2. Engineering Research Center of Safety Critical Industrial Measurement and Control Technology, Ministry of Education, Hefei University of Technology,Hefei 230009, China
Abstract: This paper presents a new local spatial-temporal feature for identifying and classifying video sequences. Spatial-temporal interest points are detected by combining SURF and optical flow. Corresponding descriptors are used to describe the interest points. Video data is represented by famous bag-of-words model. SVM is used to train and classify videos contained various human actions. To verify the efficiency of our descriptor, we test it on UCF YouTube datasheet. Experimental results show that proposed method can efficiently recognize human actions under different scenes.
Key words : actions recognition; optical flow; bag-of-words; spatial-temporal feature; interest point

    視頻監(jiān)控系統(tǒng)存儲了大量數(shù)據(jù),但是大部分情況下需要人工來對監(jiān)控場景中的目標行為和事件做出分析和判斷。隨著監(jiān)控技術(shù)的發(fā)展,人們開始要求計算機能夠自動識別監(jiān)控場景中不同類型的行為。

    人體行為識別面臨諸多困難和挑戰(zhàn)。首先,同一種行為表現(xiàn)各異,沒有固定的運動模式;此外,由于背景和光照等環(huán)境的不斷變化,目標之間經(jīng)常發(fā)生遮擋,使得行為識別非常困難。人體行為識別的本質(zhì)是三維時空數(shù)據(jù)的分類問題,即將待識別的行為序列與預先標記好的代表典型行為的參考序列進行匹配。本文首先檢測圖像中的SURF興趣點,再根據(jù)一定的運動量準則選取能夠代表人體運動的興趣點來描述人體行為。
1 相關(guān)工作
    人體行為識別通常包括兩個步驟:(1)特征提取和圖像表示;(2)行為建模和識別。目前流行的特征提取和圖像表示方法是局部方法。
    局部方法通過許多相互獨立的斑塊集合來描述觀察結(jié)果,在計算時采用自下而上的方式,首先檢測時空興趣點,再計算興趣點周圍的局部斑塊,最后按照一定規(guī)則將斑塊組合起來表示人體的行為。局部方法對噪聲和部分遮擋的敏感性較小,也不要求嚴格的背景減法和跟蹤。
    參考文獻[1]將描述圖像的方向梯度直方圖(HOG)擴展到3D。將積分圖像的思想應用到視頻數(shù)據(jù),計算任意尺度下的3D梯度,并基于規(guī)則正多面體對3D方向進行量化。采用這種類似于HOG的3D描述子對人體行為進行建模和分類。參考文獻[2]采用稱為方向矩形直方圖(HOR)的描述子表示和識別人體行為。參考文獻[3]用局部運動特征的分布以及特征的時空排列表示視頻序列的幀。首先檢測當前幀的運動特征,再檢測該幀的相鄰幀的運動特征,并根據(jù)相鄰幀到當前幀的時間距離對相鄰幀的運動特征進行加權(quán)。
2 局部時空特征描述
2.1 興趣點檢測方法

    圖像配準領(lǐng)域使用的SURF描述子[4]對圖像旋轉(zhuǎn)、平移、縮放具有不變性,本文基于SURF提出一種新的局部特征檢測方法以及特征描述子。局部特征通常是指時空范圍內(nèi)具有某種典型特性的興趣點。本文檢測時空興趣點的方法包括兩個步驟:(1)用SURF算法尋找多尺度空間的極值點,以獲得候選興趣點;(2)計算連續(xù)兩幀圖像的光流,只有超過最小運動量的候選興趣點才是最終的時空興趣點。
    SURF算法使用快速海森檢測器來尋找空間極值點。圖像I在像素點x=(x,y)處的海森矩陣為:

       SURF算法檢測到的興趣點代表了圖像中的典型特征,稱為候選興趣點。視頻中雜亂的靜止背景圖像包含大量的候選興趣點,但這些候選興趣點對于描述圖像中的運動沒有任何作用。為了描述圖像中的運動模式,必須根據(jù)一定準則剔除代表背景的候選興趣點。對于視頻中的第n幀圖像In(n=1…N-1)(N是視頻的幀長度),利用SURF算法檢測到的興趣點集合為S。結(jié)合下一幀圖像In+1可以計算出集合S中每個候選興趣點的光流矢量。如果光流矢量的幅度值小于某個確定的閾值,則認為這樣的候選點為背景像素或者近似于背景的像素,從集合S中剔除代表背景的興趣點之后,就獲得了最終的時空興趣點。本文提取的時空興趣點與其他方法提取的興趣點的對比如圖1所示。

2.2 特征描述子
    為了達到圖像旋轉(zhuǎn)不變性,SURF描述子首先計算每個興趣點的主方向。以檢測到的興趣點為圓心,在6δ(δ是檢測興趣點時確定的尺度)半徑范圍內(nèi)計算所有像素的harr小波響應,并把響應分為沿橫坐標的水平響應和沿縱坐標的垂直響應。用一個覆蓋60°的滑動扇形窗口不斷移動,在其覆蓋的范圍內(nèi)計算水平響應和垂直響應的和。這兩個響應和就產(chǎn)生了一個新的矢量,將其中最長的矢量作為興趣點的主方向。

 

 

3 行為建模和分類
    本文采用著名的詞袋模型BoW來表示人體行為。詞袋模型把一篇文檔表示為一些無序詞匯的集合,不考慮詞匯之間的順序,也不考慮句子中的語法關(guān)系。
    詞袋模型基于詞典對文本進行建模,將每個文本看作是一個裝滿了詞的袋子,文本中的詞來自于詞典。和文本處理的方法類似,可以將一個視頻看作一個文本,將視頻圖像中提取的局部時空特征映射到詞,而局部時空特征就是2.2節(jié)闡述的描述子矢量。假設有M個包含人體行為的視頻,采用本文的方法檢測所有視頻幀中的興趣點,并用描述子對興趣點進行描述,再對所有描述子矢量進行K均值聚類,聚類中心就是詞,所有的詞合并在一起就形成了詞典??紤]單個視頻,根據(jù)視頻中出現(xiàn)的詞以及每個詞出現(xiàn)的次數(shù)可以建立一個反映詞頻分布的直方圖。
    對詞袋模型進行學習和分類的典型方法是支持向量機(SVM)。訓練時將訓練視頻的詞頻直方圖以及視頻的類別標簽輸入SVM,通過訓練建立每種行為的模型;測試時將測試視頻的詞頻直方圖輸入SVM,就會輸出測試視頻的行為類別。
4 實驗結(jié)果分析
    本文選擇更為復雜的UCF YouTube體育活動數(shù)據(jù)集[6]來進行行為識別和分類。該數(shù)據(jù)集有如下特點:(1)攝像機運動;(2)環(huán)境復雜、場景變化;(3)目標尺度不斷變化;(4)視角變化;(5)光照變化。該數(shù)據(jù)集包含11種行為,每種行為在25種不同的場景下完成。其樣例圖像如圖3所示。

    根據(jù)2.1節(jié)所述,需要確定一個光流矢量的幅度閾值。在實驗中,水平方向和垂直方向的光流閾值分別為圖像寬度和高度的0.2%。在進行人體行為的訓練和分類時,對數(shù)據(jù)集中的視頻采用10折交叉驗證:將所有視頻分成10組,其中9組作為訓練集,剩余1組作為測試集,重復這種過程10次,取10次的平均值作為最終的行為分類精度。本文的算法對行為分類的混淆矩陣如圖4所示。

    從混淆矩陣中發(fā)現(xiàn),分類精度最高的行為是tennis-swing,分類精度最低的行為是biking,它與diving、horse-riding、walking、swinging都發(fā)生了混淆。導致混淆的原因是詞袋模型的假設沒有考慮文本中詞的順序。
    本文結(jié)合SURF和光流提出一種新的局部時空特征檢測和描述方法。檢測出的時空興趣點既代表了空間上的顯著特征,也代表了人體運動的模式。在UCF YouTube數(shù)據(jù)集上進行了測試。實驗結(jié)果表明,本文的描述子能夠有效地表征人體運動模式,對背景變化、光照變化、視角變化具有一定的魯棒性。行為分類精度相比高于當前最好的分類方法。
參考文獻
[1] KL SER A, MARSZALEK M, SCHMID C. A spatio-temporal descriptor based on 3d-gradients[C]. Proceedings of the  British Machine Vision Conference (BMVC), 2008, 995-1004.
[2] IKIZLER N, DUYGULU P. Histogram of oriented rectangles:a new pose descriptor for human action recognition[J]. Image and Vision Computing, 2009,27(10):1515-1526.
[3] ZHAO Z P, ELGAMMAL A. Human activity recognition from frame’s spatiotemporal representation[C]. Proceedings of the International Conference on Pattern Recognition(ICPR), 2008.
[4] BAY H, TUYTELAARS T, VAN Gl L. Surf: speeded up robust features[C]. European Conference on Computer Vision, 2006.
[5] LAPTEV I, LINDEBERG T. Space-time interest points[C]. Proceedings of the International Conference on Computer Vision(ICCV), 2003.
[6] LIU J, LUO J, SHAH M. Recognizing realistic actions from videos "in the wild"[C]. Proceedings of the Computer Vision and Pattern Recognition(CVPR),2009.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。