文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.174976
中文引用格式: 陳凡健. 面向特殊人群行為識(shí)別的主動(dòng)學(xué)習(xí)與預(yù)測(cè)方法[J].電子技術(shù)應(yīng)用,2018,44(11):116-120.
英文引用格式: Chen Fanjian. Active learning and prediction method for activity recognition of special populations[J]. Application of Electronic Technique,2018,44(11):116-120.
0 引言
空巢老人的護(hù)理問題是目前社會(huì)的焦點(diǎn)問題之一,針對(duì)這類特殊群體的智能看護(hù)系統(tǒng)需求迫切。基于計(jì)算機(jī)視覺的人體行為識(shí)別技術(shù)可以實(shí)現(xiàn)人體行為的智能識(shí)別,對(duì)于特殊群體的智能看護(hù)有著重要意義。鑒于此,特殊人群的智能護(hù)理成為目前人體行為識(shí)別研究的新方向。人體行為識(shí)別是計(jì)算機(jī)視覺學(xué)科的研究熱點(diǎn),在視頻監(jiān)控、電影分級(jí)、人工智能領(lǐng)域已有廣泛應(yīng)用[1]。人體行為常用一個(gè)特定的時(shí)間和空間模型來描述,行為識(shí)別需要獲取充分的時(shí)空信息來區(qū)分不同的行為類別,同時(shí)還需要處理復(fù)雜的外界環(huán)境因素干擾。然而,人體行為本身極其復(fù)雜,環(huán)境干擾也復(fù)雜多變,因此從視頻中自動(dòng)識(shí)別人體行為還面臨著很大挑戰(zhàn)[2]。目前的人體行為識(shí)別方法主要依據(jù)低層和中層的行為特征來區(qū)分不同行為,譬如全局時(shí)空特征[3-4]、局部時(shí)空特征[5-6]、深度感興趣點(diǎn)特征[7]和梯度直方圖特征[8-9]等。這些方法在KTH、WEIZANN等簡單行為數(shù)據(jù)集上可以達(dá)到較高的識(shí)別率,然而對(duì)特殊群體行為的區(qū)分能力有限[10]。Action Bank[10]是一種高層的行為特征表示方法,該方法采用許多獨(dú)立的行為檢測(cè)子進(jìn)行行為檢測(cè),然后再將檢測(cè)輸出轉(zhuǎn)化為特征向量,采用支持向量機(jī)(Support Vector Machines,SVM)對(duì)其進(jìn)行分類,可以有效提高行為識(shí)別性能。但是,此方法的識(shí)別性能依賴于構(gòu)建的行為模型,而模型構(gòu)建需要人工標(biāo)記大量樣本,人工標(biāo)記難度和工作量很大。詞袋模型(Bag-of-Words,BoW)[11]是目前比較流行的行為識(shí)別方法之一,該方法的主要優(yōu)點(diǎn)是魯棒性強(qiáng),計(jì)算效率高。但是,該模型只關(guān)注行為的局部特征,難以區(qū)分局部行為類似而整體行為差異巨大的人體行為,譬如采用手部向外用力的特征難以區(qū)分用手推門的動(dòng)作和用手推人的動(dòng)作。
為了提高行為識(shí)別算法對(duì)特殊群體行為識(shí)別的識(shí)別率,同時(shí)降低人工標(biāo)記樣本的難度和工作量,本文提出一種主動(dòng)學(xué)習(xí)與預(yù)測(cè)的特殊群體行為識(shí)別方法。在現(xiàn)有采用局部時(shí)空特征描述行為的基礎(chǔ)上,構(gòu)建包含行為類別、行為屬性、目標(biāo)屬性、幀內(nèi)特征和幀間特征的行為圖模型及各條邊的勢(shì)能函數(shù),結(jié)合信任傳播算法進(jìn)行行為的類標(biāo)簽預(yù)測(cè),依據(jù)行為頂點(diǎn)的熵和各行為頂點(diǎn)之間的互信息量進(jìn)行主動(dòng)學(xué)習(xí),可以有效提高行為識(shí)別率和降低人工標(biāo)記樣本的工作量。
1 主動(dòng)學(xué)習(xí)與預(yù)測(cè)方法
本文提出一種面向特殊群體行為識(shí)別的主動(dòng)學(xué)習(xí)與預(yù)測(cè)方法,采用無向圖模型作為行為描述子,依據(jù)信任傳播方法進(jìn)行類標(biāo)簽預(yù)測(cè),依據(jù)信息熵和互信息量構(gòu)建目標(biāo)函數(shù),主動(dòng)學(xué)習(xí)行為樣本集,自動(dòng)生成需要人工標(biāo)記的樣本子集,詳細(xì)描述如下。
1.1 行為描述子
圖模型(Graph Model,GM)[12]是采用圖的形式來描述條件獨(dú)立的概率分布,這樣可以將概率分布表示成多個(gè)因子的乘積形式,從而簡化概率分布的計(jì)算。圖模型包含有向圖和無向圖兩類,有向圖模型中各個(gè)節(jié)點(diǎn)的連接是有方向的,而無向圖模型中各個(gè)節(jié)點(diǎn)的連接沒有方向。在描述行為時(shí),行為各種特征構(gòu)成的節(jié)點(diǎn)之間的連接并沒有明確的方向,故本文采用無圖模型來描述行為,記為G=(V,E)。其中,V表示圖的頂點(diǎn)集合,E表示圖的邊的集合[13]。
在本文中,圖模型的頂點(diǎn)分為五類:
(1)行為類別頂點(diǎn):簡記為C,用于描述行為的類別,如奔跑行為、行走行為;
(2)行為屬性頂點(diǎn):簡記為A,用于描述行為的屬性,可以由行為分類器的分類得分表示;
(3)目標(biāo)屬性頂點(diǎn):簡記為O,用于描述目標(biāo)的屬性,可以由目標(biāo)分類器的分類得分表示;
(4)幀內(nèi)特征頂點(diǎn):簡記為X,用于描述行為的單幀特征,如方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征;
(5)幀間特征頂點(diǎn):簡記為Y,用于描述行為的視頻相關(guān)性特征,如光流直方圖(Histogram of Optical Flow,HOF)特征。
這樣,圖模型的頂點(diǎn)集合可以表示為V={C,A,O,X,Y},如圖1所示。
E表示圖的邊的集合。本文的設(shè)計(jì)思想是,幀內(nèi)特征輸入分類器Px后得到目標(biāo)屬性信息,故幀內(nèi)特征頂點(diǎn)X與目標(biāo)屬性頂點(diǎn)O相連接;幀間特征輸入分類器Py得到行為屬性信息,故幀間特征頂點(diǎn)Y與行為屬性頂點(diǎn)A相連接;行為分類時(shí)需要參考目標(biāo)屬性信息和行為屬性信息,故行為類別頂點(diǎn)C與目標(biāo)屬性頂點(diǎn)O和行為屬性頂點(diǎn)A相連接;另外,考慮到不同行為之間可能存在相關(guān)性,故不同的行為類別頂點(diǎn)C也可以相互連接。于是,行為圖模型邊的集合可以表示為E={C-C,C-A,C-O,A-Y,O-X},如圖1所示。
對(duì)于一個(gè)視頻片段vi,本文提取每一幀圖像中時(shí)空興趣點(diǎn)的HOG特征作為幀內(nèi)特征,提取HOF特征作為幀間特征,具體特征提取過程詳見文獻(xiàn)[6]。特征的訓(xùn)練與分類采用SVM方法,詳見文獻(xiàn)[10],這里不再贅述。本文主要闡述如何采用圖模型對(duì)行為和目標(biāo)屬性之間的內(nèi)在關(guān)系進(jìn)行建模,目的是在判定行為類別時(shí)既利用視頻的相關(guān)性信息,又利用目標(biāo)的屬性信息,這樣可以降低各種干擾目標(biāo)的運(yùn)動(dòng)對(duì)行為判決的影響,從而降低行為識(shí)別的虛警率。譬如,在利用光流的激烈變化屬性確定了可疑的斗毆行為后,如果發(fā)現(xiàn)可疑斗毆區(qū)域中有多個(gè)人體目標(biāo)出現(xiàn),那么此處發(fā)生斗毆行為的可信度很大;但如果在可疑斗毆區(qū)域內(nèi)未發(fā)現(xiàn)人體目標(biāo)出現(xiàn)(譬如只有車輛等其他非人體目標(biāo)),那么該區(qū)域發(fā)生斗毆行為的可信度就降低了,此處的激烈光流變化可能是由車輛、樹葉等其他運(yùn)動(dòng)目標(biāo)的激烈運(yùn)動(dòng)引起的,故可以判定該區(qū)域未發(fā)生斗毆行為。
無向圖模型常采用各條邊的勢(shì)能函數(shù)來描述,對(duì)于本文的行為圖模型G=(V,E),下面定義各條邊的勢(shì)能函數(shù)。
(1)邊O-X的勢(shì)
對(duì)于一個(gè)目標(biāo)屬性頂點(diǎn)oi,對(duì)應(yīng)的HOG特征向量記為xi,HOG特征的SVM分類器記為Px。這樣,目標(biāo)屬性頂點(diǎn)O的勢(shì)可以用相應(yīng)特征分類器的分類得分代替,表示為:
(3)邊C-O的勢(shì)
邊C-O的勢(shì)用于描述行為類別和目標(biāo)屬性的內(nèi)在關(guān)系,可以用行為類別與目標(biāo)屬性同時(shí)出現(xiàn)的頻率(簡記為同現(xiàn)頻率)來表示,為:
其中,α為權(quán)重。為便于計(jì)算,同現(xiàn)頻率可以簡單地用行為類別與目標(biāo)屬性同時(shí)出現(xiàn)的次數(shù)代替,此時(shí)α取值為0.01,且φ(ci,oi)的最大值為1,也即當(dāng)φ(ci,oi)大于1時(shí)將其置為1。同現(xiàn)頻率越高,表明行為類別與目標(biāo)屬性的關(guān)聯(lián)度越大。譬如,對(duì)于騎馬行為常伴隨著人和馬兩類目標(biāo),也即這兩類目標(biāo)與騎馬行為的同現(xiàn)頻率很高。這樣,對(duì)于一個(gè)未知的行為,如果行為分類為騎馬行為的得分較高,同時(shí)又伴隨有人和馬兩類目標(biāo),那么該行為為騎馬行為的可信度很高。
(4)邊C-A的勢(shì)
邊C-A的勢(shì)用于描述行為類別和行為屬性的內(nèi)在關(guān)系,也可以用行為類別與行為屬性的同現(xiàn)頻率來表示,為:
其中,β為權(quán)重。同現(xiàn)頻率也用行為類別與行為屬性同時(shí)出現(xiàn)的次數(shù)代替,此時(shí)β取值為0.02,同樣地,φ(ci,ai)的最大值也為1。需要說明的是,此處權(quán)重β的取值大于權(quán)重α的取值,主要是考慮到與目標(biāo)屬性相比,行為屬性對(duì)行為分類的貢獻(xiàn)更大。
(5)邊C-C的勢(shì)
邊C-C的勢(shì)用于描述兩個(gè)行為類別頂點(diǎn)之間的連通性。假設(shè)在一個(gè)時(shí)空距離上的行為是相互關(guān)聯(lián)的,行為類別頂點(diǎn)之間的勢(shì)主要由時(shí)間和空間上的距離來描述,表示為:
1.2 類標(biāo)簽預(yù)測(cè)
信任傳播(Belief Propagation,BP)算法采用局部消息傳遞來擴(kuò)散信任度,可以很好地解決標(biāo)簽離散情況下的樣本標(biāo)記問題。本文采用BP算法計(jì)算行為類別頂點(diǎn)C的后驗(yàn)概率,預(yù)測(cè)類標(biāo)簽。具體地,在每一次迭代過程中,信任頂點(diǎn)依據(jù)其鄰居頂點(diǎn)收到的消息進(jìn)行更新。對(duì)于任一頂點(diǎn)ci∈C,其鄰居頂點(diǎn)集合記為CN(ci),從頂點(diǎn)ci到其鄰居頂點(diǎn)的消息可以表示為:
其中:
選擇邊緣概率最大的類標(biāo)簽作為頂點(diǎn)ci預(yù)測(cè)的類標(biāo)簽。
1.3 主動(dòng)學(xué)習(xí)與預(yù)測(cè)
考慮到特殊群體行為的多樣性和場(chǎng)景的多變性,在訓(xùn)練階段人工標(biāo)記行為類別是非常困難的。本文采用主動(dòng)學(xué)習(xí)策略來降低人工標(biāo)記的難度。
給定一組已標(biāo)記的樣本集L和一組未標(biāo)記的樣本集U,以及行為類別數(shù)N。為降低人工標(biāo)記難度,已標(biāo)記樣本集中的元素?cái)?shù)量遠(yuǎn)遠(yuǎn)小于未標(biāo)記樣本集中元素?cái)?shù)量。對(duì)于未標(biāo)記樣本集中的元素,結(jié)合圖模型和主動(dòng)學(xué)習(xí)策略從中主動(dòng)選取需要人工標(biāo)記的樣本子集S*?;舅悸肥牵菏紫龋凑涨笆龇椒?gòu)建圖模型G,并計(jì)算任一ci∈U的邊緣分布p(ci);然后,計(jì)算ci的熵,表示為:
在信息論中,熵越大說明信息的不確定性越大,對(duì)應(yīng)的信息量越豐富。很明顯,信息量越豐富的樣本越需要專家進(jìn)行標(biāo)記。因此,本文將熵最大作為選取需人工標(biāo)記的子集S*的依據(jù)之一。
另外,考慮到在許多應(yīng)用中,各行為樣本可能相互關(guān)聯(lián),這樣,ci的邊緣分布可能受鄰居頂點(diǎn)集合中的其他頂點(diǎn)影響。本文采用互信息量來描述兩個(gè)頂點(diǎn)之間的相互影響,表示為:
互信息量越大,說明兩個(gè)頂點(diǎn)之間的相互影響越大。這樣情況下,如果知道其中一個(gè)頂點(diǎn)的標(biāo)簽,另一個(gè)頂點(diǎn)的標(biāo)簽受其影響很大,可以依據(jù)其標(biāo)簽在圖模型上進(jìn)行可靠的預(yù)測(cè)。換言之,不需要同時(shí)人工標(biāo)記兩個(gè)相互影響的頂點(diǎn)。因此,本文將互信息量最小作為選取需人工標(biāo)記的子集S*的另一依據(jù)。
綜合所述,本文依據(jù)熵最大和互信息量最小兩個(gè)準(zhǔn)則選取需人工標(biāo)記的子集S*?;静襟E為:
(1)給定擬選取的S*的元素個(gè)數(shù)K,S*初始為空;
(2)對(duì)任一ci∈U,計(jì)算熵H(ci),并按由大到小的順序進(jìn)行排序,排序后的集合記為As;
(3)如果S*中元素個(gè)數(shù)小于K,選取As中第一位數(shù)據(jù)對(duì)應(yīng)的頂點(diǎn)cx,加入集合S*;否則,結(jié)束S*的搜索過程,輸出S*;
(4)計(jì)算cx與其所有相鄰頂點(diǎn)的互信息量M(cx,cy),選取信息量最小的頂點(diǎn)cy,加入集合S*。
對(duì)于得到的最優(yōu)子集S*,需要專家進(jìn)行標(biāo)記。標(biāo)記之后,再針對(duì)S*上的頂點(diǎn)進(jìn)行類別預(yù)測(cè),這樣與這些頂點(diǎn)相鄰的頂點(diǎn)得到的標(biāo)簽可信度更高。
2 實(shí)驗(yàn)結(jié)果與分析
本節(jié)對(duì)本文方法和目前主流的行為識(shí)別方法進(jìn)行對(duì)比分析,首先介紹實(shí)驗(yàn)數(shù)據(jù)集和對(duì)比算法,然后展示和分析實(shí)驗(yàn)結(jié)果。
2.1 實(shí)驗(yàn)數(shù)據(jù)集與對(duì)比算法
目前公開的行為識(shí)別數(shù)據(jù)集中,與特殊群體智能看護(hù)相關(guān)的行為識(shí)別數(shù)據(jù)集只有一個(gè),是ADL數(shù)據(jù)集[13]。該數(shù)據(jù)集是由Rirsiavash建立的人體日常行為數(shù)據(jù)集,主要用于研究特殊人群的智能輔助系統(tǒng)。該數(shù)據(jù)集包含10個(gè)類別的日常行為,詳見表1。其中,每類行為都由5個(gè)不同的人體完成,且每個(gè)行為重復(fù)進(jìn)行3次。部分行為示例如圖2所示。
目前在該數(shù)據(jù)集下測(cè)試結(jié)果排名靠前的算法見文獻(xiàn)[13]-[17]。本文直接引用相應(yīng)文獻(xiàn)中的識(shí)別率指標(biāo)進(jìn)行對(duì)比分析。
2.2 實(shí)驗(yàn)結(jié)果與分析
本文采用該領(lǐng)域常用的識(shí)別率和分類混淆矩陣來評(píng)價(jià)算法性能。表2展示了ADL數(shù)據(jù)集下不同算法的識(shí)別率指標(biāo),圖3展示了ADL數(shù)據(jù)集下本文算法的分類混淆矩陣。其中,對(duì)比算法的性能指標(biāo)取自相應(yīng)文獻(xiàn)。
需要指出的是,本文算法在訓(xùn)練時(shí),每類行為選擇4個(gè)視頻片段進(jìn)行學(xué)習(xí),主動(dòng)學(xué)習(xí)階段的參數(shù)K取值為2,也即每類行為只選擇2個(gè)視頻片段進(jìn)行人工標(biāo)記,其余視頻片段采用本文的主動(dòng)學(xué)習(xí)方法進(jìn)行訓(xùn)練。
分析以上實(shí)驗(yàn)結(jié)果,可以得出以下結(jié)論:
(1)從表2可以看出,本文算法在ADL行為數(shù)據(jù)集下的識(shí)別率都是最高的,比相應(yīng)數(shù)據(jù)集下現(xiàn)有測(cè)試算法高出一個(gè)百分點(diǎn)以上??梢?,本文方法提高了特殊群體行為識(shí)別的識(shí)別率指標(biāo)。
(2)從圖3可以看出,在ADL數(shù)據(jù)集下的10個(gè)行為類別中,本文方法僅在2個(gè)行為類別上存在錯(cuò)分現(xiàn)象,低于識(shí)別率次高的文獻(xiàn)[16]所述方法??梢?,本文方法區(qū)分不同行為的能力強(qiáng),對(duì)群體復(fù)雜行為的混淆率低。
(3)對(duì)于ADL行為數(shù)據(jù)集,本文方法在識(shí)別率高于其他對(duì)比算法的情況下,人工標(biāo)記的樣本數(shù)量小于其他對(duì)比算法,如識(shí)別率次高的文獻(xiàn)[16]中每類行為需要標(biāo)記16個(gè)樣本。這樣在實(shí)際應(yīng)用過程中,本文方法可以從海量視頻中主動(dòng)學(xué)習(xí)行為類別,大幅降低人工標(biāo)記樣本的難度和工作量。
綜上所述,本文方法不僅提高了特殊群體行為識(shí)別的識(shí)別率,而且增強(qiáng)了不同行為的區(qū)分能力,同時(shí)需要人工標(biāo)記的樣本數(shù)量少。
3 結(jié)束語
本文提出了一種基于主動(dòng)學(xué)習(xí)與預(yù)測(cè)的特殊群體行為識(shí)別方法,主要設(shè)計(jì)思路包括兩個(gè)方面:(1)在行為描述方面,將視頻的幀內(nèi)特征、幀間特征、目標(biāo)屬性、行為屬性和行為類別組合在一起,構(gòu)建成行為的無向圖模型,這樣在行為識(shí)別時(shí)可以綜合利用多層次的關(guān)聯(lián)性特征,減少了單純依靠部分特征引起的虛警現(xiàn)象,增強(qiáng)了特征的區(qū)分能力,提高了行為識(shí)別算法對(duì)特殊群體行為識(shí)別的識(shí)別率;(2)在學(xué)習(xí)過程中采用主動(dòng)學(xué)習(xí)方法,以行為類別頂點(diǎn)的熵最大和行為類別頂點(diǎn)之間的互信息量最小為準(zhǔn)則進(jìn)行主動(dòng)學(xué)習(xí),降低了人工標(biāo)記樣本的數(shù)量和難度。通過在國際上通用的ADL行為數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),證實(shí)本文方法可以提高行為識(shí)別算法對(duì)特殊群體行為識(shí)別的識(shí)別率,降低不同行為間的分類混淆現(xiàn)象,同時(shí)降低了需人工標(biāo)記的樣本數(shù)量。
參考文獻(xiàn)
[1] 楊帥,于忠清,蘇博群,等.基于軌跡分割的老人行為識(shí)別方法[J].青島大學(xué)學(xué)報(bào)(自然科學(xué)版),2017(1):103-107.
[2] 李瑞峰,王亮亮,王珂.人體動(dòng)作行為識(shí)別研究綜述[J].模式識(shí)別與人工智能,2014(1):35-48.
[3] KIHL O,PICARD D,GOSSELIN P H.Local polynomial space-time descriptors for action classification[J].Machine Vision & Applications,2016,27(3):351-361.
[4] MA S,ZHANG J,IKIZLER-CINBIS N,et al.Action recognition and localization by hierarchical space-time segments[C].IEEE International Conference on Computer Vision.IEEE,2014:2744-2751.
[5] 王泰青,王生進(jìn).基于中層時(shí)空特征的人體行為識(shí)別[J].中國圖象圖形學(xué)報(bào),2015,20(4):520-526.
[6] EVERTS I,GEMERT J C V,GEVERS T.Evaluation of color spatio-temporal interest points for human action recognition[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,2014,23(4):1569-1580.
[7] Wang Yangyang,Li Yibo,Ji Xiaofei.Human action recognition based on normalized interest points and super-interest points[J].International Journal of Humanoid Robotics,2014,11(1):145005.
[8] LI Y,YE J,WANG T,et al.Augmenting bag-of-words:a robust contextual representation of spatiotemporal interest points for action recognition[J].Visual Computer,2015,31(10):1383-1394.
[9] WANG P,LI W,GAO Z,et al.Action recognition from depth maps using deep convolutional neural networks[J].IEEE Transactions on Human-Machine Systems,2016,46(4):498-509.
[10] SADANAND S.Action bank:a high-level representation of activity in video[C].IEEE Conference on Computer Vision & Pattern Recognition,2012:1234-1241.
[11] AGUSTI P,TRAVER V J,PLA F.Bag-of-words with aggregated temporal pair-wise word co-occurrence for human action recognition[J].Pattern Recognition Letters,2014,49(49):224-230.
[12] Pu Songtao,Zha Hongbin.Video object segmentation via two-frame graph model[J].Beijing Daxue Xuebao Ziran Kexue Ban/acta Scientiarum Naturalium Universitatis Pekinensis,2015,51(3):409-417.
[13] FEICHTENHOFER C,PINZ A,ZISSERMAN A.Convolutional two-stream network fusion for video action recognition[C].Computer Vision and Pattern Recognition.IEEE,2016:1933-1941.
[14] FERNANDO B,GAVVES E,ORAMAS M J,et al.Modeling video evolution for action recognition[C].Computer Vision and Pattern Recognition.IEEE,2015:5378-5387.
[15] WANG H,DAN O,VERBEEK J,et al.A robust and efficient video representation for action recognition[J].International Journal of Computer Vision,2016,119(3):219-238.
[16] SINGH S,VELASTIN S A,RAGHEB H.MuHAVi:a multicamera human action video dataset for the evaluation of action recognition methods[C].Seventh IEEE International Conference on Advanced Video and Signal Based Surveillance.IEEE,2010:48-55.
[17] GUO K,ISHWAR P,KONRAD J.Action recognition from video using feature covariance matrices[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,2013,22(6):2479-2494.
作者信息:
陳凡健
(茂名職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)工程系,廣東 茂名525000)