激情综合网激情,成人性生生活性生交,久久久天天天天性色综合网

ECCV 2018 | 美圖云聯(lián)合中科院提出基于交互感知注意力機(jī)制神經(jīng)網(wǎng)絡(luò)的行為分類(lèi)技術(shù)

日期： 2018-07-23

關(guān)鍵詞： 機(jī)制模型神經(jīng)網(wǎng)絡(luò) PCA

以往注意機(jī)制模型通過(guò)加權(quán)所有局部特征計(jì)算和提取關(guān)鍵特征，忽略了各局部特征間的強(qiáng)相關(guān)性，特征間存在較強(qiáng)的信息冗余。為解決此問(wèn)題，來(lái)自美圖云視覺(jué)技術(shù)部門(mén)和中科院自動(dòng)化所的研發(fā)人員借鑒 PCA（主成分分析）思想，提出了一種引入局部特征交互感知的自注意機(jī)制模型，并將模型嵌入到 CNN 網(wǎng)絡(luò)中，提出一個(gè)端到端的網(wǎng)絡(luò)結(jié)構(gòu)。該算法在多個(gè)學(xué)術(shù)數(shù)據(jù)集和美圖公司內(nèi)部工業(yè)界視頻數(shù)據(jù)集上的行為分類(lèi)表現(xiàn)都非常出色?；谠撍惴ㄋ枷氲南嚓P(guān)論文「Interaction-aware Spatio-temporal Pyramid Attention Networks for Action Classification」已被 ECCV2018 收錄，下文將從背景、核心思想、效果和應(yīng)用前景幾個(gè)方面進(jìn)行介紹。

一、背景

深度卷積神經(jīng)網(wǎng)絡(luò)中，特征圖里相鄰空間位置的局部通道特征，往往由于它們的感受野重疊而具有很高的相關(guān)性。自注意機(jī)制模型通常利用每個(gè)局部特征內(nèi)部元素的加權(quán)和（或其他函數(shù)）來(lái)獲得其權(quán)重得分，此權(quán)重用于加權(quán)所有局部特征獲取關(guān)鍵特征。盡管局部特征之間具有很高的相關(guān)性，但此權(quán)重計(jì)算并沒(méi)有考慮到它們之間的相互作用。

PCA 可以提取全局特征主要維度的主成分信息，而這些主成分信息可以看作是提取的局部特征，最后降維后的全局特征即是關(guān)鍵局部特征的集合。注意機(jī)制的目的是從局部特征集合中提取關(guān)鍵部分，也就是 PCA 中的局部特征。不同的是注意力機(jī)制使用每個(gè)局部特征對(duì)應(yīng)的加權(quán)得分來(lái)計(jì)算最終的全局特征。PCA 利用協(xié)方差矩陣來(lái)獲得降維（或加權(quán)權(quán)重）的基向量，從而減少特征間的信息冗余和噪聲?；谝陨媳尘埃搱F(tuán)隊(duì)使用 PCA 來(lái)指導(dǎo)提出的注意力模型，并通過(guò)將 PCA 算法轉(zhuǎn)換成損失設(shè)計(jì)實(shí)現(xiàn)。此外，由于深度網(wǎng)絡(luò)中的不同層可以捕獲不同尺度的特征圖，算法使用這些特征圖來(lái)構(gòu)造空間金字塔，利用多尺度信息來(lái)計(jì)算每個(gè)局部通道特征更精確的注意力分?jǐn)?shù)，這些權(quán)重得分用于在所有空間位置中對(duì)局部特征進(jìn)行加權(quán)。

二、核心思想

微信圖片_20180723192054.jpg

本論文定義了一個(gè)新的交互感知時(shí)空金字塔注意力層，以此實(shí)現(xiàn)輸入在深度卷積神經(jīng)網(wǎng)絡(luò)中各個(gè)層的不同尺度局部特征的交互感知和時(shí)空特征融合的功能。它的架構(gòu)如上圖所示，算法首先定義了一個(gè)下采樣函數(shù) R, 將不同層的特征圖統(tǒng)一到一個(gè)尺度。接著對(duì)不同尺度的特征圖的局部通道特征使用注意力機(jī)制進(jìn)行關(guān)鍵特征提取，通過(guò)使用融合函數(shù)對(duì)不同尺度的特征進(jìn)行融合，并計(jì)算每個(gè)局部特征的注意力得分，用于加權(quán)特征。

微信圖片_20180723192116.jpg

在 PCA 中使用協(xié)方差矩陣計(jì)算投影向量并依此進(jìn)行降維，即提取關(guān)鍵的局部特征，本論文將其轉(zhuǎn)化損失函數(shù)的設(shè)計(jì)加入到最終的模型中：

微信圖片_20180723192144.jpg

再對(duì)提出的空間金字塔注意力模型進(jìn)行約束，使其不同尺度層的特征圖盡量關(guān)注到不同的信息，加入分類(lèi)損失得出最終的損失函數(shù)：

微信圖片_20180723192210.jpg

論文提出的模型參數(shù)與輸入特征圖的數(shù)目無(wú)關(guān)，因此，自然地將其拓展到視頻級(jí)端到端訓(xùn)練的時(shí)空網(wǎng)絡(luò)，最終的網(wǎng)絡(luò)結(jié)構(gòu)定義如下圖：

微信圖片_20180723192230.jpg

三、效果

研發(fā)人員將提出的基于交互感知的時(shí)空金字塔注意力機(jī)制神經(jīng)網(wǎng)絡(luò)算法應(yīng)用于美圖公司的視頻相關(guān)業(yè)務(wù)進(jìn)行人物行為分類(lèi)，效果表現(xiàn)優(yōu)異。除此之外在公開(kāi)數(shù)據(jù)集 UCF101、HMDB51 和無(wú)裁剪行為數(shù)據(jù)庫(kù) Charades 上進(jìn)行了評(píng)測(cè)，也取得了領(lǐng)先效果，結(jié)果如下圖所示：

微信圖片_20180723192315.jpg

微信圖片_20180723192347.jpg

此外，該論文對(duì)視頻時(shí)空輸入進(jìn)行了評(píng)測(cè)，評(píng)測(cè)結(jié)果顯示出該模型能夠同時(shí)處理任意數(shù)量的視頻幀輸入，并取得較好的實(shí)驗(yàn)結(jié)果。

微信圖片_20180723192412.jpg

微信圖片_20180723192429.jpg

上圖給出了該算法在進(jìn)行行為分類(lèi)時(shí)的可視化輸出結(jié)果，可以看出該算法能夠?qū)σ曨l中關(guān)鍵的行為進(jìn)行精確定位。

四、展望

實(shí)際應(yīng)用中，業(yè)務(wù)場(chǎng)景對(duì)算法的運(yùn)行時(shí)間要求較嚴(yán)苛。本論文在公開(kāi)數(shù)據(jù)集上的結(jié)果均通過(guò)截取視頻中的多幀得到，時(shí)間復(fù)雜度較高，后續(xù)會(huì)以降低算法時(shí)間復(fù)雜度為目標(biāo)對(duì)核心模塊進(jìn)行優(yōu)化。值得注意的是，本論文提出的空間金字塔注意力模型不受其輸入特征圖數(shù)量的限制，因此它很容易擴(kuò)展到一個(gè)可以兼容任意數(shù)量的輸入幀的時(shí)空版本，在應(yīng)用中可以在分類(lèi)準(zhǔn)確率幾乎不受影響的前提下，通過(guò)減少截幀數(shù)提升處理速度。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話(huà)通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話(huà)：010-82306118；郵箱：aet@chinaaet.com。

ECCV 2018 | 美圖云聯(lián)合中科院提出基于交互感知注意力機(jī)制神經(jīng)網(wǎng)絡(luò)的行為分類(lèi)技術(shù)

日期： 2018-07-23

相關(guān)內(nèi)容