《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 設(shè)計(jì)應(yīng)用 > 一種應(yīng)用于語(yǔ)義分割的新型親和力監(jiān)督方法
一種應(yīng)用于語(yǔ)義分割的新型親和力監(jiān)督方法
信息技術(shù)與網(wǎng)絡(luò)安全
曹露濛,楊周旺
(中國(guó)科學(xué)技術(shù)大學(xué) 大數(shù)據(jù)學(xué)院,安徽 合肥230026)
摘要: 語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域一項(xiàng)基本且具有挑戰(zhàn)性的任務(wù),最近的語(yǔ)義分割研究工作,著力于設(shè)計(jì)注意力機(jī)制和全局性模塊,而在注意力機(jī)制中,親和力矩陣是非常重要的部份。傳統(tǒng)的親和力矩陣是以注意力機(jī)制的一部分嵌入在神經(jīng)網(wǎng)絡(luò)中,通常作為特征融合的權(quán)重來(lái)使用。嘗試直接將親和力矩陣應(yīng)用于注意力機(jī)制之外,與語(yǔ)義標(biāo)簽聯(lián)系起來(lái)。首先定義標(biāo)簽親和力矩陣,再在語(yǔ)義分割網(wǎng)絡(luò)輸出層計(jì)算親和力矩陣,將兩個(gè)矩陣結(jié)合起來(lái),得到一個(gè)輔助的懲罰函數(shù)。標(biāo)簽親和力矩陣可以視為一種結(jié)構(gòu)上的監(jiān)督信息,能輔助訓(xùn)練語(yǔ)義分割網(wǎng)絡(luò)。在NYUv2數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,懲罰函數(shù)有助于提高語(yǔ)義分割網(wǎng)絡(luò)的精度,并且效果顯著。
中圖分類(lèi)號(hào): TP389.1
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.07.011
引用格式: 曹露濛,楊周旺. 一種應(yīng)用于語(yǔ)義分割的新型親和力監(jiān)督方法[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(7):66-71.
A new affinity supervision for semantic segmentation
Cao Lumeng,Yang Zhouwang
(School of Data Science,University of Science and Technology of China,Hefei 230026,China)
Abstract: Semantic segmentation is a basic and non-trivial task in computer vision. Many previous work focus on utilizing attention mechanisms and non-local models. In attention mechanisms, affinity matrix is very important. Traditional affinity matrix is an essential part of attention models embedded into the neural networks, used as feature fusion weights. In this paper, the affinity matrix is directly used out of attention mechanisms, and it is associated with labels. Firstly, the label affinity matrix is defined, and then the feature affinity is computed on the output layer of semantic segmentations. Finally, with such two affinities, a novel loss function is defined, which uses label affinities as a kind of structural supervision to help train segmentation networks. Extensive experiments on NYUv2 datasets demonstrate that the loss is effective in promoting semantic segmentation networks.
Key words : semantic segmentation;convolutional neural network;affinity matrix;self-attention

0 引言

   語(yǔ)義分割是計(jì)算機(jī)視覺(jué)中一項(xiàng)具有挑戰(zhàn)性的任務(wù),在自動(dòng)駕駛、機(jī)器人、衛(wèi)星、農(nóng)業(yè)、醫(yī)療診斷等領(lǐng)域有著廣泛的應(yīng)用。它是一項(xiàng)稠密分類(lèi)任務(wù),旨在對(duì)圖像進(jìn)行像素點(diǎn)級(jí)別的分類(lèi)。由于卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,許多語(yǔ)義分割神經(jīng)網(wǎng)絡(luò)應(yīng)運(yùn)而生。例如,F(xiàn)CN[1]使用卷積層來(lái)代替完全連接層,使得神經(jīng)網(wǎng)絡(luò)能夠適應(yīng)任何輸入大小。Deeplab[2],PSPNet[3]采用空間金字塔池化來(lái)提取不同尺度的特征,然后合并特征來(lái)獲取不同尺度的上下文信息。長(zhǎng)期以來(lái),研究者們致力于特征復(fù)用方法和注意機(jī)制來(lái)設(shè)計(jì)分割網(wǎng)絡(luò)[4-6]。使用殘差和密集的跳躍連接來(lái)聚合和復(fù)用不同層的特征,使得語(yǔ)義分割更加準(zhǔn)確,并使梯度更容易反向傳播。注意力模型[7-9]和非局部模型[10-11]彌補(bǔ)了卷積核的局部局限性,可以捕獲長(zhǎng)程依賴(lài)。最近的研究顯示了像素分組的重要性[12-15]。Zhong Zilong等人[12]提出語(yǔ)義分割可以分為兩個(gè)子任務(wù):顯式像素預(yù)測(cè)和隱式像素分組。Yu Changqian等人[13]使用標(biāo)簽對(duì)類(lèi)別內(nèi)和類(lèi)別間的先驗(yàn)知識(shí)進(jìn)行建模,以指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí)。KE T W等人[14]提出了一種自適應(yīng)親和場(chǎng)(Adaptive Affinity Field,AAF)來(lái)捕獲和匹配標(biāo)簽空間中相鄰像素之間的語(yǔ)義關(guān)系。Jiang Peng等人[15]提出了一種擴(kuò)散分支,它由一個(gè)用于得分圖的種子子分支和一個(gè)用于像素級(jí)相似性的子分支組成。條件隨機(jī)場(chǎng)(Conditional Random Fields,CRFs)[16-18,2]方法用于語(yǔ)義分割,利用上下文信息優(yōu)化網(wǎng)絡(luò)輸出,這是一種統(tǒng)計(jì)方法,用于對(duì)相似像素進(jìn)行分組,并通過(guò)能量函數(shù)優(yōu)化得分圖(score map)。以前的許多CRFs都是對(duì)網(wǎng)絡(luò)輸出的后處理。VEMULAPALLI R等人[17]和CHANDRA S等人[18]在CNN中引入了高斯條件隨機(jī)場(chǎng),并取得了很好的效果。



本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000003680




作者信息:

曹露濛,楊周旺

(中國(guó)科學(xué)技術(shù)大學(xué) 大數(shù)據(jù)學(xué)院,安徽 合肥230026)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。