中文引用格式: 王亞?wèn)|,秦會(huì)斌. 結(jié)合不確定性估計(jì)的輕量級(jí)人體關(guān)鍵點(diǎn)檢測(cè)算法[J]. 電子技術(shù)應(yīng)用,2023,49(10):40-45.
英文引用格式: Wang Yadong,Qin Huibin. Lightweight human key point detection algorithm with uncertainty[J]. Application of Electronic Technique,2023,49(10):40-45.
0 引言
隨著社會(huì)發(fā)展,監(jiān)控視頻分析正從人工走向智能,從傳統(tǒng)走向現(xiàn)代。人體關(guān)鍵點(diǎn)檢測(cè)是以人為中心的視頻分析中的重要環(huán)節(jié),又稱為人體姿態(tài)估計(jì)[1]。人體關(guān)鍵點(diǎn)是具有明確語(yǔ)義的關(guān)節(jié)點(diǎn)和部位,是行為識(shí)別[2]、人機(jī)交互[3]和動(dòng)作捕捉[4]等應(yīng)用的重要基礎(chǔ)。
隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的發(fā)展,人體關(guān)鍵點(diǎn)檢測(cè)取得顯著進(jìn)步,精度逐漸提升。基于深度卷積神經(jīng)網(wǎng)絡(luò)的人體關(guān)鍵點(diǎn)檢測(cè)算法分為兩類:基于熱圖表示的檢測(cè)方法和基于坐標(biāo)表示的回歸方法。
自從Tompson等人[5]首次提出用熱圖表示關(guān)節(jié)點(diǎn),檢測(cè)方法成為二維姿態(tài)估計(jì)的主流。孫科等人[6]針對(duì)關(guān)鍵點(diǎn)檢測(cè)任務(wù)提出HRNet,整個(gè)網(wǎng)絡(luò)中保持高分辨率的特征圖,通過(guò)并行連接多個(gè)不同分辨率的子網(wǎng)絡(luò),并在它們之間進(jìn)行信息交互和融合,避免了信息的丟失和模糊。檢測(cè)方法具有精度高、訓(xùn)練效率高和空間泛化性好等優(yōu)點(diǎn)。但是熱圖分辨率低于原圖分辨率導(dǎo)致的量化誤差和解碼過(guò)程中argmax操作不可微分,使得檢測(cè)方法依賴高分辨率熱圖,限制了在嵌入式設(shè)備中的使用。
回歸方法在人體姿態(tài)估計(jì)中研究較早,但相關(guān)工作較少?;貧w方法直接端到端產(chǎn)生圖像中關(guān)鍵點(diǎn)的坐標(biāo)。Toshev等人[7]首次提出利用CNN回歸坐標(biāo)進(jìn)行人體姿態(tài)估計(jì)。Carreira等人[8]提出了一個(gè)迭代誤差反饋框架(Iterative Error Feedback,IEF),引入自上而下的反饋,預(yù)測(cè)當(dāng)前估算值的偏移量并進(jìn)行迭代矯正。Nie等人[9]提出了單階段的多人姿態(tài)估計(jì)網(wǎng)絡(luò)(Single-stage Multi-person Pose Machine,SPM),采用根節(jié)點(diǎn)預(yù)測(cè)人體位置,然后預(yù)測(cè)關(guān)節(jié)點(diǎn)的偏移量。回歸方法擁有簡(jiǎn)單靈活高效等優(yōu)點(diǎn),但性能仍遜色于檢測(cè)方法,尤其在遮擋、截?cái)嗪瓦\(yùn)動(dòng)模糊等場(chǎng)景中誤差較大。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000005711
作者信息:
王亞?wèn)|,秦會(huì)斌
(杭州電子科技大學(xué) 新型電子器件與應(yīng)用研究所,浙江 杭州 310018)