文獻標識碼: A
DOI: 10.19358/j.issn.2097-1788.2023.02.012
引用格式: 馮雨威,吳麗君. 基于時空注意力金字塔卷積的動作識別[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2023,42(2):76-82,88.
0 引言
動作識別是從視頻片段中提取有效的空間和時間特征以分辨人的動作類型,在視頻檢索、異常檢測、智能監(jiān)控、人機交互和自動駕駛等領(lǐng)域逐漸興起。早期算法主要依賴人工提取人體關(guān)節(jié)點和時空興趣點特征。近年來,基于深度學習的算法可有效提取特征、實現(xiàn)端到端訓練,極大提升了動作識別精度和速度。根據(jù)提取特征的方式不同,動作識別算法大致可歸納為基于3D CNN、雙/多流網(wǎng)絡(luò)、CNN(2D或3D)與時間特征聚合模塊的組合三種類型。3D CNN[1-2]可直接提取時空特征,但是其采用固定大小的3D卷積核,不能充分挖掘時間粒度特征,并且相比2D卷積核含有更多參數(shù)。雙流網(wǎng)絡(luò)[3]的輸入通常為RGB幀和光流圖像,提取光流較為繁瑣且易造成延遲?;贑NN與時間特征聚合模塊[4-5]組合的算法通常使用CNN從單幀或視頻片段提取空間特征,然后使用LSTM或時間池化從多個幀或片段間提取時間特征。LSTM隨著時間跨度增大、網(wǎng)絡(luò)深度增加,計算成本將急劇增加。
基于2D CNN與時間池化的S-TPNet[6]提出了空間金字塔模塊,利用CNN固有的平移和尺度不變性充分提取空間特征,并使用不同尺寸的時間池重復(fù)利用片段級數(shù)據(jù)以獲得時間粒度特征。相比于3D CNN的算法,S-TPNet網(wǎng)絡(luò)參數(shù)大大減少,但在動作識別精度上相對較低。因此,本文在S-TPNet基礎(chǔ)上引入輕量級的時空注意力模型,以提高算法精度。
除網(wǎng)絡(luò)結(jié)構(gòu)外,視頻采樣策略也會影響動作識別精度。為減少輸入信息的冗余數(shù)量,降低運算量,一般會提取原視頻的部分幀來作為輸入。視頻采樣策略主要分為密集[7]和稀疏采樣兩種。密集采樣對設(shè)備的計算和存儲要求都很高。最近,微軟在視頻和語言學習任務(wù)研究[8]中提出“少即是多”的稀疏采樣。在每次訓練中僅使用單個或幾個稀疏采樣片段,獲得了不輸于密集采樣訓練所得的網(wǎng)絡(luò)性能。稀疏采樣包含隨機采樣和預(yù)定義間隔采樣。隨機采樣易導(dǎo)致采樣后的相鄰幀之間具有不穩(wěn)定的差異,無法有效表達原始視頻的語義內(nèi)容。預(yù)定義間隔采樣不適合數(shù)據(jù)集中視頻段持續(xù)時間差距較大的情況。因此,本文提出了一種自適應(yīng)等間隔采樣策略,根據(jù)每段視頻的總幀數(shù)和指定的最小采樣數(shù)動態(tài)調(diào)整采樣間隔,使采樣后序列可以更好地表示原視頻。
本文詳細內(nèi)容請下載:http://ihrv.cn/resource/share/2000005217
作者信息:
馮雨威,吳麗君
(福州大學 物理與信息工程學院,福建 福州350108)