《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 可編程邏輯 > 業(yè)界動態(tài) > ECCV 2018 | 曠視科技Oral論文解讀:IoU-Net讓目標(biāo)檢測用上定位置信度

ECCV 2018 | 曠視科技Oral論文解讀:IoU-Net讓目標(biāo)檢測用上定位置信度

2018-08-01
關(guān)鍵詞: 目標(biāo)檢測 CNN NMS

目標(biāo)檢測涉及到目標(biāo)分類和目標(biāo)定位,但很多基于 CNN 的目標(biāo)檢測方法都存在分類置信度和定位置信度不匹配的問題。針對這一問題,一種稱之為 IoU-Net 的目標(biāo)檢測新方法被提出,在基準(zhǔn)方法的基礎(chǔ)上實現(xiàn)了顯著的提升。該論文已被將于當(dāng)?shù)貢r間 9 月 8-14 日在德國慕尼黑舉辦的 ECCV 2018 接收為口頭報告。此外,該論文的三位并列一作是在曠視科技實習(xí)期間完成并提交的這篇論文。


論文:Acquisition of Localization Confidence for Accurate Object Detection

微信圖片_20180801153032.jpg


論文地址:https://arxiv.org/abs/1807.11590

代碼地址:https://github.com/vacancy/PreciseRoIPooling


摘要:現(xiàn)代基于 CNN 的目標(biāo)檢測器依靠邊界框回歸和非極大抑制(NMS)來定位目標(biāo),其對類別標(biāo)簽的預(yù)測概率可以天然反映每個框的分類置信度,然而對框的定位置信度卻缺失了。這使得原本定位準(zhǔn)確的邊界框會在迭代回歸的過程中偏離目標(biāo),又或甚至在 NMS 過程中受到抑制。研究者在本文中提出 IoU-Net,可學(xué)習(xí)預(yù)測每個檢測得到的邊界框和與之匹配的目標(biāo)之間的 IoU 作為該框的定位置信度。利用這種定位置信度,檢測器能確保定位更準(zhǔn)確的邊界框在 NMS 過程中被保留下來,從而改進了 NMS 過程。此外,將預(yù)測得到的 IoU 作為優(yōu)化目標(biāo),一種基于優(yōu)化的邊界框修正方法也同時被提出。研究者在 MS-COCO 數(shù)據(jù)集上進行了大量實驗,結(jié)果證明了 IoU-Net 的有效性,并且還表明其能夠輕松地集成并提高包括 Faster R-CNN、FPN、Cascade R-CNN 等多種當(dāng)前最佳的目標(biāo)檢測器。


1 引言


目標(biāo)檢測是很多下游視覺應(yīng)用的前提基礎(chǔ),比如實例分割 [19,20]、人體骨架繪制 [27]、人臉識別 [26] 和高級目標(biāo)推理 [30]。它結(jié)合了目標(biāo)分類和目標(biāo)定位兩個任務(wù)?,F(xiàn)代大多數(shù)目標(biāo)檢測器的框架是 two-stage [9,8,22,16,10],其中目標(biāo)檢測被定義為一個多任務(wù)學(xué)習(xí)問題:1)區(qū)分前景物體框與背景并為它們分配適當(dāng)?shù)念悇e標(biāo)簽;2)回歸一組系數(shù)使得最大化檢測框和目標(biāo)框之間的交并比(IoU)或其它指標(biāo)。最后,通過一個 NMS 過程移除冗余的邊界框(對同一目標(biāo)的重復(fù)檢測)。


在這樣的檢測流程中,分類和定位被用不同的方法解決。具體來說,給定一個提議框(proposal),每個類別標(biāo)簽的概率可自然而然地用作該提議的「分類置信度」,而邊界框回歸模塊卻只是預(yù)測了針對該提議框的變換系數(shù),以擬合目標(biāo)物體的位置。換而言之,在這個流程缺失了「定位置信度」。


定位置信度的缺失帶來了兩個缺點。(1)首先,在抑制重復(fù)檢測時,由于定位置信度的缺失,分類分數(shù)通常被用作給檢測框排名的指標(biāo)。在圖 1(a) 中,研究者展示了一組案例,其中有更高分類置信度的檢測框卻與其對應(yīng)的目標(biāo)物體有更小的重疊。就像 Gresham 著名的「劣幣驅(qū)逐良幣」理論一樣,分類置信度和定位準(zhǔn)確度之間的不匹配可能會導(dǎo)致定位更準(zhǔn)確的邊界框在 NMS 過程中反而被更不準(zhǔn)確的邊界框抑制了。(2)其次,缺乏定位置信度使得被廣泛使用的邊界框回歸方法缺少可解釋性或可預(yù)測性。舉個例子,之前的研究 [3] 報告了迭代式邊界框回歸的非單調(diào)性。也就是說,如果多次應(yīng)用邊界框回歸,可能有損輸入邊界框的定位效果(見圖 1(b))。

微信圖片_20180801153107.jpg

微信圖片_20180801153127.jpg

 

 圖 1:由缺乏定位置信度所造成的兩個缺點的圖示。這些示例選自 MS-COCO minival [17]。(a)分類置信度和定位準(zhǔn)確度不對齊的示例。黃框表示真實目標(biāo)框,紅框和綠框都是 FPN [16] 所得到的檢測結(jié)果。定位置信度是由研究者提出的 IoU-Net 計算得到的。使用分類置信度作為排名指標(biāo),會導(dǎo)致定位更準(zhǔn)確的邊界框(綠框)在傳統(tǒng)的 NMS 流程被錯誤地刪去。2.1 節(jié)提供了定量分析。(b)在迭代式邊界框回歸中非單調(diào)定位的示例。2.2 節(jié)提供了定量分析。


研究者在這篇論文中引入了 IoU-Net,其能預(yù)測檢測到的邊界框和它們對應(yīng)的真實目標(biāo)框之間的 IoU,使得該網(wǎng)絡(luò)能像其分類模塊一樣,對檢測框的定位精確程度有所掌握。這種簡單的預(yù)測 IoU 值能為研究者提供前述問題的新解決方案:


1.IoU 是定位準(zhǔn)確度的一個天然標(biāo)準(zhǔn)。研究者可以使用預(yù)測得到的 IoU 替代分類置信度作為 NMS 中的排名依據(jù)。這種技術(shù)被稱為 IoU 引導(dǎo)式 NMS(IoU-guided NMS),可消除由誤導(dǎo)性的分類置信度所造成的抑制錯誤。


2. 研究者提出了一種基于優(yōu)化的邊界框修正流程,可與傳統(tǒng)的基于回歸的邊界框修正方法分庭抗禮。在推理期間,預(yù)測得到的 IoU 可用作優(yōu)化目標(biāo),也可作為定位置信度的可解釋性指示量。研究者提出的精準(zhǔn) RoI 池化層(Precise RoI Pooling layer)讓研究者可通過梯度上升求解 IoU 優(yōu)化。研究者表明,相比于基于回歸的方法,基于優(yōu)化的邊界框修正方法在實驗中能實現(xiàn)定位準(zhǔn)確度的單調(diào)提升。這種方法完全兼容并可整合進各種不同的基于 CNN 的檢測器 [16,3,10]。

微信圖片_20180801153155.jpg

微信圖片_20180801153235.jpg

邊界框修正示例:上行是傳統(tǒng)方法的結(jié)果,下行是本文提出方法的結(jié)果。


2 深入目標(biāo)定位


2.1 分類準(zhǔn)確度和定位準(zhǔn)確度不匹配

微信圖片_20180801153305.jpg

圖 2:邊界框與其對應(yīng)目標(biāo)框的 IoU 與分類/定位置信度之間的關(guān)系。對那些與目標(biāo)框的 IoU 高于 0.5 的檢測框,其 Pearson 相關(guān)系數(shù)為 (a) 0.217 和 (b) 0.617。(a)分類置信度表示了一個邊界框的類別,但不能被解讀成定位準(zhǔn)確度。(b)為了解決這個問題,研究者提出了 IoU-Net 來預(yù)測每個檢測到的邊界框的定位置信度,即其與對應(yīng)的目標(biāo)框的 IoU。

微信圖片_20180801153329.jpg

圖 3:經(jīng)過 NMS 之后得到的正例邊界框的數(shù)量,根據(jù)它們與對應(yīng)的目標(biāo)框之間的 IoU 分組。在傳統(tǒng) NMS 中(藍色條形圖),定位準(zhǔn)確的邊界框中有很大一部分會被錯誤抑制,這是由分類置信度和定位準(zhǔn)確度之間的不匹配造成的,而 IoU 引導(dǎo)式 NMS(黃色條形圖)則能保留定位更準(zhǔn)確的邊界框。


2.2 非單調(diào)邊界框回歸

微信圖片_20180801153349.jpg

圖 4:基于優(yōu)化的與基于回歸的 BBox 優(yōu)化。(a)在 FPN 中比較。當(dāng)?shù)降貞?yīng)用回歸時,檢測結(jié)果的 AP(平均精度)首先會提升,但會在之后的迭代中快速降低。(b)在 Cascade R-CNN 中比較。迭代 0、1、2 表示 Cascade R-CNN 中的第 1、2、3 個回歸階段。在多輪回歸之后,AP 稍有下降,而基于優(yōu)化的方法則進一步將 AP 提高了 0.8%。


3 IoU-Net


為了定量地分析 IoU 預(yù)測的有效性,研究者首先在 3.1 節(jié)提出了用于訓(xùn)練 IoU 預(yù)測器的方法。在 3.2 和 3.3 節(jié),研究者分別展示了如何將 IoU 預(yù)測器用于 NMS 和邊界框修正的方法。最后在 3.4 節(jié),研究者將 IoU 預(yù)測器整合進了 FPN [16] 等現(xiàn)有的目標(biāo)檢測器中。


3.1 學(xué)習(xí)預(yù)測 IoU

微信圖片_20180801153415.jpg

圖 5:研究者提出的 IoU-Net 的完整架構(gòu),詳見 3.4 節(jié)。輸入圖像首先輸入一個 FPN 骨干網(wǎng)絡(luò)。然后 IoU 預(yù)測器讀取這個 FPN 骨干網(wǎng)絡(luò)的輸出特征。研究者用 PrRoI 池化層替代了 RoI 池化層,詳見 3.3 節(jié)。這個 IoU 預(yù)測器與 R-CNN 分支有相似的結(jié)果。虛線框內(nèi)的模塊能構(gòu)成一個單獨的 IoU-Net。


3.2 IoU 引導(dǎo)式 NMS

微信圖片_20180801153441.jpg

算法 1:IoU 引導(dǎo)式 NMS。在這個算法中,分類置信度和定位置信度是解開的(disentangled)。研究者使用定位置信度(預(yù)測得到的 IoU)來給所有被檢測到的邊界框排名,然后基于一個類似聚類的規(guī)則來更新分類置信度。


3.3 將邊界框修正當(dāng)作是一個優(yōu)化過程

微信圖片_20180801153515.jpg

算法 2:基于優(yōu)化的邊界框修正


精準(zhǔn) RoI 池化(Precise RoI Pooling)


研究者引入了精準(zhǔn) RoI 池化(簡寫成:PrRoI 池化)來助力研究者的邊界框修正。其沒有任何坐標(biāo)量化,而且在邊界框坐標(biāo)上有連續(xù)梯度。給定 RoI/PrRoI 池化前的特征圖 F(比如,來自 ResNet-50 中的 Conv4),設(shè) wi,j 是該特征圖上一個離散位置 (i,j) 處的特征。使用雙線性插值,這個離散的特征圖可以被視為在任意連續(xù)坐標(biāo) (x,y) 處都是連續(xù)的:

微信圖片_20180801153540.jpg


其中,  是插值系數(shù)。然后將 RoI 的一個 bin 表示為 ,其中 (x_1,y_1) 和 (x_2,y_2) 分別是左上角和右下角的連續(xù)坐標(biāo)。給定 bin 和特征圖 F,研究者通過計算一個二階積分來執(zhí)行池化(比如平均池化):

微信圖片_20180801153601.jpg

為更便于理解,研究者在圖 6 中可視化了 RoI 池化、RoI Align [10] 和研究者的 PrRoI 池化:在傳統(tǒng)的 RoI 池化中,連續(xù)坐標(biāo)首先需要被量化(quantization),以計算該 bin 中激活的和;為了消除量化誤差,在 RoI Align 中,會采樣該 bin 中 N=4 個連續(xù)點,表示成 (a_i,b_i),而池化就是在這些采樣的點上執(zhí)行的。RoI Align 中的 N 是預(yù)定義的,而且不能根據(jù) bin 的大小進行調(diào)整;與此不同,研究者提出的 PrRoI 池化是直接基于連續(xù)特征圖計算二階積分。

微信圖片_20180801153619.jpg

 

圖 6:RoI 池化、RoI Align 和 PrRoI 池化的圖示


3.4 聯(lián)合訓(xùn)練


這種 IoU 預(yù)測器可集成到標(biāo)準(zhǔn)的 FPN 流程中,以進行端到端的訓(xùn)練和推理。為了清楚說明,研究者將用于圖像特征提取的 CNN 架構(gòu)稱為骨干(backbone),將應(yīng)用于各個 RoI 的模塊稱為頭(head)。


如圖 5 所示,這個 IoU-Net 使用了 ResNet-FPN [16] 作為骨干網(wǎng)絡(luò),其架構(gòu)是自上而下的,可構(gòu)建特征金字塔(feature pyramid)。FPN 能根據(jù) RoI 的特征的比例從這個特征金字塔的不同層級提取這些 RoI 的特征。其中原來的 RoI 池化層被換成了精準(zhǔn) RoI 池化層。至于該網(wǎng)絡(luò)的頭,這個 IoU 預(yù)測器根據(jù)來自骨干網(wǎng)絡(luò)的同一視覺特征而與 R-CNN 分支(包括分類和邊界框回歸)并行工作。


研究者根據(jù)在 ImageNet [25] 上預(yù)訓(xùn)練的 ResNet 模型初始化了權(quán)重。所有新的層都使用了標(biāo)準(zhǔn)差為 0.01 或 0.001 的零均值高斯分布進行初始化。研究者使用了平滑 L1 損失來訓(xùn)練 IoU 預(yù)測器。IoU 預(yù)測器的訓(xùn)練數(shù)據(jù)是在一個訓(xùn)練批中的圖像中單獨生成的,詳見 3.1 節(jié)。IoU 標(biāo)簽進行了歸一化,因此其值分布在 [-1,1]。


輸入圖像的大小進行了調(diào)節(jié),短邊長度為 800 像素,長邊長度最大為 1200 像素。分類和回歸分支取來自 RPN 的每張圖像 512 RoI。研究者使用了 16 的批大小進行訓(xùn)練。網(wǎng)絡(luò)為 16 萬次迭代進行了優(yōu)化,學(xué)習(xí)率設(shè)置為 0.01,并在 12 萬次迭代后減小 10 倍。研究者還為前 1 萬次迭代設(shè)置了 0.004 的學(xué)習(xí)率以進行預(yù)熱。研究者使用了 1e-4 的權(quán)重衰減和 0.9 的 momentum.


在推理過程中,研究者首先對初始坐標(biāo)應(yīng)用邊界框回歸。為了加快推理速度,研究者首先在所有檢測到的邊界框上應(yīng)用 IoU 引導(dǎo)式 NMS。然后,使用基于優(yōu)化的算法進一步改進 100 個有最高分類置信度的邊界框。研究者設(shè)置步長為 λ=0.5,早停閾值為 Ω1=0.001,定位衰減容限 Ω2=?0.01,迭代次數(shù) T=5。


4 實驗


研究者在有 80 個類別的 MS-COCO 檢測數(shù)據(jù)集 [17] 上進行了實驗。遵照 [1,16],研究者在 8 萬張訓(xùn)練圖像和 3.5 萬張驗證圖像的并集(trainval35k)上訓(xùn)練了模型,并在包含 5000 張驗證圖像的集合(minival)上評估了模型。為驗證該方法,在 4.1 節(jié)和 4.2 節(jié),研究者與目標(biāo)檢測器分開而訓(xùn)練了一個獨立的 IoU-Net(沒有 R-CNN 模塊)。IoU-Net 助力的 IoU 引導(dǎo)式 NMS 和基于優(yōu)化的邊界框修正被應(yīng)用在了檢測結(jié)果上。


4.1 IoU 引導(dǎo)式 NMS


表 1 總結(jié)了不同 NMS 方法的表現(xiàn)。盡管 Soft-NMS 能保留更多邊界框(其中沒有真正的「抑制」),但 IoU 引導(dǎo)式 NMS 還能通過改善檢測到的邊界框的定位來提升結(jié)果。因此,在高 IoU 指標(biāo)(比如 AP_90)上,IoU 引導(dǎo)式 NMS 顯著優(yōu)于基準(zhǔn)方法。

微信圖片_20180801153648.jpg

表 1:IoU 引導(dǎo)式 NMS 與其它 NMS 方法的比較。通過保留定位準(zhǔn)確的邊界框,IoU 引導(dǎo)式 NMS 在具有高匹配 IoU 閾值的 AP(比如 AP_90)上的表現(xiàn)顯著更優(yōu)。

微信圖片_20180801153718.jpg

圖 7:在匹配檢測到的邊界框與真實目標(biāo)框的不同 IoU 閾值下,不同 NMS 方法的召回率曲線。研究者提供了 No-NMS(不抑制邊界框)作為召回率曲線的上限。研究者提出的 IoU-NMS 有更高的召回率,并且在高 IoU 閾值(比如 0.8)下能有效收窄與上限的差距。


4.2 基于優(yōu)化的邊界框修正


研究者提出的基于優(yōu)化的邊界框修正與大多數(shù)基于 CNN 的目標(biāo)檢測器 [16,3,10] 都兼容,如表 2 所示。將這種邊界框修正方法應(yīng)用在原來的使用單獨 IoU-Net 的流程之后還能通過更準(zhǔn)確地定位目標(biāo)而進一步提升表現(xiàn)。即使是對有三級邊界框回歸運算的 Cascade R-CNN,這種改進方法能進一步將 AP_90 提升 2.8%,將整體 AP 提升 0.8%。

微信圖片_20180801153743.jpg

表 2:基于優(yōu)化的邊界框修正能進一步提升多種基于 CNN 的目標(biāo)檢測器的表現(xiàn)。


4.3 聯(lián)合優(yōu)化


IoU-Net 可與目標(biāo)檢測框架一起并行地端到端優(yōu)化。研究者發(fā)現(xiàn),將 IoU 預(yù)測器添加到網(wǎng)絡(luò)中有助于網(wǎng)絡(luò)學(xué)習(xí)更具判別性的特征,這能分別將 ResNet50-FPN 和 ResNet101-FPN 的整體 AP 提升 0.6% 和 0.4%。IoU 引導(dǎo)式 NMS 和邊界框修正還能進一步提升表現(xiàn)。研究者使用 ResNet101-FPN 得到了 40.6% 的 AP,相比而言基準(zhǔn)為 38.5%,提升了 2.1%。表 4 給出了推理速度,表明 IoU-Net 可在計算成本承受范圍之內(nèi)實現(xiàn)檢測水平的提升。

微信圖片_20180801153805.jpg

表 3:在 MS-COCO 上的最終實驗結(jié)果。IoU-Net 表示嵌入 IoU 預(yù)測器的 ResNet-FPN。在這個 FPN 基準(zhǔn)上,研究者實現(xiàn)了約 2% 的 AP 提升。

微信圖片_20180801153827.jpg

表 4:多種目標(biāo)檢測器在單個 TITAN X GPU 上得到的推理速度。這些模型都有一樣的骨干網(wǎng)絡(luò) ResNet50-FPN。輸入分辨率為 1200x800。所有超參數(shù)設(shè)置相同。


5 總結(jié)


本文提出一種用于準(zhǔn)確目標(biāo)定位的全新網(wǎng)絡(luò)架構(gòu) IoU-Net。通過學(xué)習(xí)預(yù)測與對應(yīng)真實目標(biāo)的 IoU,IoU-Net 可檢測到的邊界框的「定位置信度」,實現(xiàn)一種 IoU 引導(dǎo)式 NMS 流程,從而防止定位更準(zhǔn)確的邊界框被抑制。IoU-Net 很直觀,可輕松集成到多種不同的檢測模型中,大幅提升定位準(zhǔn)確度。MS-COCO 實驗結(jié)果表明了該方法的有效性和實際應(yīng)用潛力。


從學(xué)術(shù)研究的角度,本文指出現(xiàn)代檢測流程中存在分類置信度和定位置信度不匹配的問題。更進一步,研究者將邊界框修正問題重定義為一個全新的優(yōu)化問題,并提出優(yōu)于基于回歸方法的解決方案。研究者希望這些新視角可以啟迪未來的目標(biāo)檢測工作。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。