文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2097-1788.2023.02.012
引用格式: 馮雨威,吳麗君. 基于時(shí)空注意力金字塔卷積的動(dòng)作識(shí)別[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2023,42(2):76-82,88.
0 引言
動(dòng)作識(shí)別是從視頻片段中提取有效的空間和時(shí)間特征以分辨人的動(dòng)作類型,在視頻檢索、異常檢測(cè)、智能監(jiān)控、人機(jī)交互和自動(dòng)駕駛等領(lǐng)域逐漸興起。早期算法主要依賴人工提取人體關(guān)節(jié)點(diǎn)和時(shí)空興趣點(diǎn)特征。近年來(lái),基于深度學(xué)習(xí)的算法可有效提取特征、實(shí)現(xiàn)端到端訓(xùn)練,極大提升了動(dòng)作識(shí)別精度和速度。根據(jù)提取特征的方式不同,動(dòng)作識(shí)別算法大致可歸納為基于3D CNN、雙/多流網(wǎng)絡(luò)、CNN(2D或3D)與時(shí)間特征聚合模塊的組合三種類型。3D CNN[1-2]可直接提取時(shí)空特征,但是其采用固定大小的3D卷積核,不能充分挖掘時(shí)間粒度特征,并且相比2D卷積核含有更多參數(shù)。雙流網(wǎng)絡(luò)[3]的輸入通常為RGB幀和光流圖像,提取光流較為繁瑣且易造成延遲?;贑NN與時(shí)間特征聚合模塊[4-5]組合的算法通常使用CNN從單幀或視頻片段提取空間特征,然后使用LSTM或時(shí)間池化從多個(gè)幀或片段間提取時(shí)間特征。LSTM隨著時(shí)間跨度增大、網(wǎng)絡(luò)深度增加,計(jì)算成本將急劇增加。
基于2D CNN與時(shí)間池化的S-TPNet[6]提出了空間金字塔模塊,利用CNN固有的平移和尺度不變性充分提取空間特征,并使用不同尺寸的時(shí)間池重復(fù)利用片段級(jí)數(shù)據(jù)以獲得時(shí)間粒度特征。相比于3D CNN的算法,S-TPNet網(wǎng)絡(luò)參數(shù)大大減少,但在動(dòng)作識(shí)別精度上相對(duì)較低。因此,本文在S-TPNet基礎(chǔ)上引入輕量級(jí)的時(shí)空注意力模型,以提高算法精度。
除網(wǎng)絡(luò)結(jié)構(gòu)外,視頻采樣策略也會(huì)影響動(dòng)作識(shí)別精度。為減少輸入信息的冗余數(shù)量,降低運(yùn)算量,一般會(huì)提取原視頻的部分幀來(lái)作為輸入。視頻采樣策略主要分為密集[7]和稀疏采樣兩種。密集采樣對(duì)設(shè)備的計(jì)算和存儲(chǔ)要求都很高。最近,微軟在視頻和語(yǔ)言學(xué)習(xí)任務(wù)研究[8]中提出“少即是多”的稀疏采樣。在每次訓(xùn)練中僅使用單個(gè)或幾個(gè)稀疏采樣片段,獲得了不輸于密集采樣訓(xùn)練所得的網(wǎng)絡(luò)性能。稀疏采樣包含隨機(jī)采樣和預(yù)定義間隔采樣。隨機(jī)采樣易導(dǎo)致采樣后的相鄰幀之間具有不穩(wěn)定的差異,無(wú)法有效表達(dá)原始視頻的語(yǔ)義內(nèi)容。預(yù)定義間隔采樣不適合數(shù)據(jù)集中視頻段持續(xù)時(shí)間差距較大的情況。因此,本文提出了一種自適應(yīng)等間隔采樣策略,根據(jù)每段視頻的總幀數(shù)和指定的最小采樣數(shù)動(dòng)態(tài)調(diào)整采樣間隔,使采樣后序列可以更好地表示原視頻。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000005217
作者信息:
馮雨威,吳麗君
(福州大學(xué) 物理與信息工程學(xué)院,福建 福州350108)