文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.190257
中文引用格式: 孫貴華,陳淑榮. 一種改進(jìn)的RefineDet多尺度人臉檢測(cè)方法[J].電子技術(shù)應(yīng)用,2019,45(8):34-39.
英文引用格式: Sun Guihua,Chen Shurong. An improved RefineDet multi-scale face detection method[J]. Application of Electronic Technique,2019,45(8):34-39.
0 引言
人臉檢測(cè)[1]作為人臉識(shí)別[2-3]、人臉對(duì)齊、人臉驗(yàn)證[4]以及人臉跟蹤[5]等應(yīng)用的關(guān)鍵步驟,其首要任務(wù)是判斷視頻或給定圖像中是否存在人臉,再精確定位出人臉的位置和大小。在一些人臉目標(biāo)尺寸跨度大且小目標(biāo)眾多的應(yīng)用場(chǎng)景,人臉檢測(cè)的效果將直接影響人臉識(shí)別等后續(xù)技術(shù)應(yīng)用的準(zhǔn)確率,因此研究多尺度人臉檢測(cè)具有重要意義。
早期人臉檢測(cè)算法多是人工提取特征,訓(xùn)練分類(lèi)器,再進(jìn)行人臉檢測(cè)。如VIOLA P A和JONES M[6]提出的Haar-Like與AdaBoost級(jí)聯(lián)的方法,其檢測(cè)速度較快,但對(duì)多尺度、姿態(tài)多樣性等情形檢測(cè)效果不理想。隨著深度學(xué)習(xí)在機(jī)器學(xué)習(xí)中的不斷發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取特征更加多樣化、魯棒性更好,在圖像識(shí)別以及目標(biāo)檢測(cè)等領(lǐng)域[7-8]得到廣泛應(yīng)用。其中以Faster R-CNN[9]為代表的算法首先通過(guò)區(qū)域預(yù)測(cè)網(wǎng)絡(luò)(Region Proposal Network,RPN)產(chǎn)生感興趣的候選區(qū)域,再對(duì)該區(qū)域提取尺度不變的CNN特征,最后對(duì)區(qū)域進(jìn)行分類(lèi)和回歸。JIANG H[10]等將Faster R-CNN應(yīng)用于人臉檢測(cè),取得了較好效果,但速度較慢。文獻(xiàn)[11]將人臉檢測(cè)與人臉關(guān)鍵點(diǎn)檢測(cè)結(jié)合,網(wǎng)絡(luò)層數(shù)淺,檢測(cè)速度快但精度較低。HU P[12]等人通過(guò)多尺度模板,利用圖像上下文信息來(lái)解決小尺寸人臉檢測(cè)精度較低的問(wèn)題。
為進(jìn)一步提高人臉檢測(cè)精度,本文通過(guò)改進(jìn)RefineDet[13]網(wǎng)絡(luò)模型結(jié)構(gòu),建立了一種多尺度人臉檢測(cè)模型。首先對(duì)待檢測(cè)圖像歸一化處理,利用CNN提取圖像特征,再通過(guò)特征金字塔網(wǎng)絡(luò)[14](Feature Pyramid Networks,F(xiàn)PN)將更底層的conv3_3特征圖與高層特征圖進(jìn)行融合,以便增強(qiáng)小尺寸人臉的語(yǔ)義信息,提高小目標(biāo)人臉的檢測(cè)精度。然后利用置信度和損失函數(shù)對(duì)檢測(cè)框進(jìn)行二次抑制,緩解類(lèi)別失衡[15]問(wèn)題。最后通過(guò)非極大值抑制算法得到精確回歸后的人臉檢測(cè)框和相應(yīng)的位置信息。根據(jù)人臉區(qū)域特點(diǎn),將人臉候選框的寬高比只設(shè)為1:1,以減少計(jì)算量進(jìn)而提高檢測(cè)精度。
1 多尺度人臉檢測(cè)模型
1.1 改進(jìn)的RefineDet多尺度檢測(cè)模型網(wǎng)絡(luò)結(jié)構(gòu)
RefineDet是基于SSD[16]的改進(jìn)方法,以VGG16[17]作為特征提取的骨干網(wǎng)絡(luò),包含fc6和fc7兩個(gè)全連接層轉(zhuǎn)換成的conv_fc6、conv_fc7以及擴(kuò)展的conv6_1、conv6_2。其檢測(cè)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1中虛線框部分所示,采用conv4_3、conv5_3、conv_fc7和conv6_2作為檢測(cè)層。
在CNN提取圖像特征的過(guò)程中,感受野[18]用來(lái)表示卷積神經(jīng)網(wǎng)絡(luò)每一層輸出的特征圖上的像素點(diǎn)在原始圖像上映射區(qū)域的大小。輸入RefineDet網(wǎng)絡(luò)的圖像,由于卷積層與池化層之間均為局部連接,神經(jīng)元無(wú)法對(duì)原始圖像的所有信息進(jìn)行感知,且每經(jīng)過(guò)一次2×2的最大池化層處理,特征圖變?yōu)樵瓉?lái)的一半。隨著網(wǎng)絡(luò)層加深,特征圖會(huì)越來(lái)越小,小尺寸人臉的信息也會(huì)逐步丟失,提取的特征也更抽象。因此,越高層的特征圖對(duì)應(yīng)原始圖像的范圍越大,包含語(yǔ)義層次更高的特征;越低層的特征圖對(duì)應(yīng)原始圖像的范圍越小,包含的特征更趨向于局部細(xì)節(jié)。可見(jiàn),對(duì)于近景下的較大人臉需要更高層的特征圖進(jìn)行檢測(cè),而遠(yuǎn)景下的小尺寸人臉可以在更低層的特征圖上檢測(cè)到。為了提高不同尺度的人臉檢測(cè)精度,進(jìn)一步改善整個(gè)網(wǎng)絡(luò)的檢測(cè)性能,本文在RefineDet特征融合部分加入更低層的conv3_3特征圖,以便檢測(cè)較小尺寸的人臉,并在conv6_2后面添加額外的conv7_1和conv7_2,以便檢測(cè)較大的人臉區(qū)域。改進(jìn)的RefineDet檢測(cè)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示,選取conv3_3、conv4_3、conv5_3、conv_fc7、conv6_2和conv7_2 6個(gè)層的特征圖作為檢測(cè)層。
網(wǎng)絡(luò)模型主要包括區(qū)域優(yōu)化模塊(Anchor Refine Module,ARM)和目標(biāo)檢測(cè)模塊(Object Detect Module,ODM)。對(duì)輸入640像素×640像素的待檢測(cè)圖片,在ARM中經(jīng)過(guò)卷積層特征提取后得到不同大小的特征圖,可粗略預(yù)估人臉的位置和得分,并濾除一些無(wú)效候選區(qū),以減少分類(lèi)器的搜索空間并且粗略地調(diào)整保留區(qū)域的位置和大小。同時(shí),ARM的特征圖通過(guò)連接模塊(Transfer Connection Block,TCB)輸入到ODM中,將高層特征與底層特征進(jìn)行融合,用來(lái)增強(qiáng)底層特征的語(yǔ)義信息,以便檢測(cè)更小的人臉目標(biāo)。本文利用特征圖融合的方式增加不同層之間的聯(lián)系,通過(guò)這樣的連接,檢測(cè)網(wǎng)絡(luò)中的特征圖都融合了不同尺度、不同語(yǔ)義強(qiáng)度的特征,以此保證檢測(cè)層的特征圖可以檢測(cè)不同尺度的人臉。此處以O(shè)DM的高層特征圖CONV4_3和ARM的底層特征圖conv3_3融合為例,其過(guò)程如圖2所示,卷積核大小為3×3,通道數(shù)為256,反卷積核大小為4×4,步長(zhǎng)為2,通道數(shù)為256。核大小為3×3,通道數(shù)為256,反卷積核大小為4×4,步長(zhǎng)為2,通道數(shù)為256。不同層的特征圖大小各不相同,因此,CONV4_3先通過(guò)反卷積操作縮放成與conv3_3特征圖相同的大??;然后通過(guò)element-wise相加進(jìn)行融合,得到CONV3_3;最后ODM對(duì)特征融合后的人臉候選區(qū)域進(jìn)行更精確的回歸,并且通過(guò)非極大值抑制算法得到不同尺度人臉的檢測(cè)結(jié)果。
1.2 檢測(cè)層參數(shù)設(shè)置
RefineDet選擇conv4_3為初始檢測(cè)層,步長(zhǎng)為8,在特征圖上移動(dòng)一點(diǎn)相當(dāng)于在原始圖像上移動(dòng)8個(gè)像素,這種設(shè)置不適合檢測(cè)更小尺寸目標(biāo)。本文將conv3_3作為初始檢測(cè)層,特征圖步長(zhǎng)設(shè)為4,更利于檢測(cè)小尺寸人臉。從conv3_3到conv7_2,寬高比為1:1,檢測(cè)層參數(shù)設(shè)置如表1所示。通過(guò)在6層卷積特征圖上設(shè)置不同大小的人臉檢測(cè)框,能有效提高多尺度人臉的檢測(cè)精度。
1.3 損失函數(shù)
實(shí)驗(yàn)中對(duì)于一張640×640的圖像,人臉?biāo)急壤h(yuǎn)遠(yuǎn)小于背景所占比例,圖像中大部分區(qū)域?yàn)樨?fù)樣本。模型訓(xùn)練過(guò)程中,按照表1在每個(gè)卷積層生成不同數(shù)量的檢測(cè)框,則conv3_3產(chǎn)生25 600個(gè)16×16的檢測(cè)框,占檢測(cè)框總數(shù)的75.02%,如果將全部正負(fù)樣本都用來(lái)訓(xùn)練,這會(huì)引起類(lèi)不平衡的問(wèn)題,導(dǎo)致檢測(cè)精度下降。因此,為了緩解失衡,利用損失函數(shù)對(duì)檢測(cè)框進(jìn)行二次抑制。當(dāng)負(fù)樣本的置信度大于0.99時(shí),直接舍棄該候選區(qū)域,即對(duì)檢測(cè)框進(jìn)行首次抑制。
本文的損失函數(shù)主要包括ARM和ODM兩部分損失,如式(1)所示。
式中,pt為不同類(lèi)別的分類(lèi)概率,pt越大,權(quán)重(1-pt)γ越小,這樣對(duì)于一些很容易區(qū)分的樣本可通過(guò)權(quán)重得到抑制,進(jìn)而減少檢測(cè)框的數(shù)量。αt用來(lái)調(diào)節(jié)正負(fù)樣本的比例,本文采用與文獻(xiàn)[15]相同的參數(shù)設(shè)置,正負(fù)樣本比例為1:3,即αt=0.25,γ=2,實(shí)驗(yàn)表明,該參數(shù)適用于本文模型。
2 實(shí)驗(yàn)過(guò)程與結(jié)果分析
2.1 人臉數(shù)據(jù)集選擇
實(shí)驗(yàn)采用Wider Face數(shù)據(jù)集,包含Easy、Medium、Hard 3個(gè)類(lèi)別子集。該數(shù)據(jù)集共有32 203張圖片,并標(biāo)注了393 703張人臉。其中Easy子集為尺寸大于300像素的人臉,容易檢測(cè);Medium子集人臉尺寸為50~300像素,檢測(cè)難度適中;Hard子集包含尺寸為10~50像素的小目標(biāo)人臉,較難檢測(cè)。該數(shù)據(jù)集適合本文建立的多尺度人臉檢測(cè)模型。
2.2 模型訓(xùn)練過(guò)程
實(shí)驗(yàn)在Win10操作系統(tǒng)下進(jìn)行,計(jì)算機(jī)配置為NVIDIA GeForce GTX 1080Ti顯卡,采用的深度學(xué)習(xí)框架為Caffe。為了使訓(xùn)練所得模型對(duì)不同尺度的人臉有更好的魯棒性,本文采用文獻(xiàn)[16]中的隨機(jī)光照失真以及裁剪原始圖像并反轉(zhuǎn)的方法擴(kuò)充訓(xùn)練樣本集。用ImageNet分類(lèi)任務(wù)上預(yù)訓(xùn)練好的VGG16 卷積神經(jīng)網(wǎng)絡(luò)初始化特征并提取網(wǎng)絡(luò)卷積層權(quán)重,訓(xùn)練過(guò)程采用隨機(jī)梯度下降算法(SGD)優(yōu)化整個(gè)網(wǎng)絡(luò)模型。
本文訓(xùn)練過(guò)程采用SSD的匹配策略,不同的是將檢測(cè)框與真實(shí)框的重疊率閾值由0.5降為0.35,大于0.35的判斷為正樣本,以此來(lái)增大匹配到的檢測(cè)框數(shù)量。另外,網(wǎng)絡(luò)初始學(xué)習(xí)率設(shè)置為0.000 5,8萬(wàn)次迭代后降為0.000 01,12萬(wàn)次迭代后設(shè)置為0.000 002,動(dòng)量為 0.9,權(quán)重衰減為0.000 5,批次大小設(shè)置為4,共進(jìn)行20萬(wàn)次迭代。
2.3 不同尺度的人臉檢測(cè)結(jié)果
為了驗(yàn)證方法的有效性,本文在Wider Face驗(yàn)證集上進(jìn)行實(shí)驗(yàn)驗(yàn)證。首先選擇RefineDet的網(wǎng)絡(luò)模型結(jié)構(gòu),輸入640×640大小的圖像,寬高比設(shè)為1:1,本文將其稱(chēng)之為模型A;其次,以相同的輸入,選擇加入底層特征conv3_3后的6層卷積特征圖作為檢測(cè)層進(jìn)行實(shí)驗(yàn),稱(chēng)之為模型B;最后,本文在模型B的基礎(chǔ)上,采用focal loss作為損失函數(shù)進(jìn)行實(shí)驗(yàn),稱(chēng)之為本文模型。驗(yàn)證結(jié)果如表2所示。
由表2可見(jiàn),在輸入相同的情況下,模型B相比于模型A在Easy、Medium、Hard 3個(gè)子集上的平均檢測(cè)精度(Mean Average Precision,MAP)分別提高了0.1%、0.2%和4.3%,表明加入底層conv3_3的特征融合后可以有效改善小尺寸人臉的語(yǔ)義信息,進(jìn)而提高多尺度人臉檢測(cè)精度。本文模型相比于模型B在3個(gè)子集上的檢測(cè)精度又分別提高了0.6%、0.9%和1.1%,表明改進(jìn)損失函數(shù)能有效緩解類(lèi)別不平衡的問(wèn)題,進(jìn)而提高檢測(cè)精度。
2.4 與其他方法比較
為進(jìn)一步驗(yàn)證模型的性能,將本文方法與近年來(lái)的主流算法ScaleFace[20]、Multitask Cascade CNN[11]、HR[12]在相同實(shí)驗(yàn)環(huán)境和相同數(shù)據(jù)集上進(jìn)行了對(duì)比,采用官方評(píng)估方法進(jìn)行評(píng)估[21]。在Wider Face人臉驗(yàn)證集上得到的P-R曲線如圖3所示。
P-R圖中橫坐標(biāo)表示檢測(cè)框的召回率(Recall),縱坐標(biāo)表示檢測(cè)精度(Precision)。召回率用來(lái)評(píng)估檢測(cè)出來(lái)的人臉占樣本標(biāo)記總?cè)四様?shù)的比例,檢測(cè)精度用來(lái)評(píng)估檢測(cè)出的正確人臉占檢測(cè)出的總?cè)四様?shù)的比例,因此,曲線右上越凸,表示檢測(cè)效果越好。由圖3可見(jiàn),本文方法較其他方法在檢測(cè)精度上均有所提高,尤其在Hard子集上更達(dá)到了84.4%的檢測(cè)精度,表明了方法的有效性,也顯示了該模型檢測(cè)小尺寸人臉的優(yōu)越性。
2.5 檢測(cè)效果
圖4為本文方法與RefineDet的檢測(cè)結(jié)果對(duì)比,矩形框表示檢測(cè)出的人臉位置,圓形框表示兩者的著重對(duì)比區(qū)域。由圖4(a)和圖4(c)可見(jiàn),圖像中的人臉尺寸大小不一,RefineDet對(duì)于檢測(cè)背景中小尺寸人臉存在明顯缺陷,不能有效檢測(cè),而本文方法可以在一張圖片上同時(shí)檢測(cè)不同尺度人臉。圖4(b)和圖4(d)相比,在人臉較小且密集的情景下,RefineDet漏檢而本文方法在檢測(cè)小尺寸人臉上有明顯優(yōu)勢(shì)。
3 結(jié)論
本文建立了一種基于RefineDet多層特征融合的多尺度人臉檢測(cè)方法,網(wǎng)絡(luò)結(jié)構(gòu)為兩級(jí)級(jí)聯(lián)模式,第一級(jí)ARM模塊對(duì)人臉檢測(cè)框進(jìn)行粗略回歸,第二級(jí)ODM模塊經(jīng)與底層特征融合后再對(duì)人臉檢測(cè)框完成精確回歸。檢測(cè)網(wǎng)絡(luò)在6層不同的特征圖上進(jìn)行,能有效檢測(cè)16×16的小尺寸人臉區(qū)域,以及520×520較大的人臉區(qū)域,對(duì)比其他人臉檢測(cè)方法,本文方法能更好地處理人臉尺寸眾多且密集的情況,特別是小尺寸人臉檢測(cè)精度有明顯提高。
參考文獻(xiàn)
[1] 霍芋霖,符意德.基于Zynq的人臉檢測(cè)設(shè)計(jì)[J].計(jì)算機(jī)科學(xué),2016,43(10):322-325.
[2] 李小薪,梁榮華.有遮擋人臉識(shí)別綜述:從子空間回歸到深度學(xué)習(xí)[J].計(jì)算機(jī)學(xué)報(bào),2018,41(1):177-207.
[3] GAO Y,MA J,YUILLE A L,et al.Semi-supervised sparse representation based classification for face recognition with insufficient labeled samples[J].IEEE Transactions on Image Processing,2017,26(5):2545-2560.
[4] MAJUMDAR A,SINGH R,VATS M,et al.Face verification via class sparsity based supervised encoding[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1273-1280.
[5] KHAN M H,MCDONAGH J,TZIMIROPOULOS G,et al.Synergy between face alignment and tracking via discriminative global consensus optimization[C].International Conference on Computer Vision.IEEE,2017:3811-3819.
[6] VIOLA P A,JONES M.Robust real-time face detection[C].Proceedings of IEEE Conference on Computer Vision.IEEE,2001:747.
[7] 黃友文,萬(wàn)超倫.基于深度學(xué)習(xí)的人體行為識(shí)別算法[J].電子技術(shù)應(yīng)用,2018,44(10):1-5.
[8] 周進(jìn)凡,張榮芬,馬治楠,等.基于深度學(xué)習(xí)的胸部X光影像分析系統(tǒng)[J].電子技術(shù)應(yīng)用,2018,44(11):29-32.
[9] REN S,HE K,GIRSHICK R B,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[10] JIANG H,LEARNEDMILLER E G.Face detection with the faster R-CNN[C].IEEE International Conference on Automatic Face Gesture Recognition.IEEE,2017:650-657.
[11] ZHANG K,ZHANG Z,LI Z,et al.Joint face detection and alignment using multitask cascaded convolutional networks[J].IEEE Signal Processing Letters,2016,23(10):1499-1503.
[12] HU P,RAMANAN D.Finding tiny faces[J].Computer Vision and Pattern Recognition,Hawaii,USA,2017:1522-1530.
[13] ZHANG S,WEN L,BIAN X,et al.Single-shot refinement neural network for object detection[C].IEEE Conference on Computer Vision and Pattern Recognition,2018:4203-4212.
[14] LIN T,DOLLAR P,GIRSHICK R B,et al.Feature pyramid networks for object detection[C].IEEE Conference on Computer Vision and Pattern Recognition,2017:936-944.
[15] LIN T,GOYAL P,GIRSHICK R B,et al.Focal loss for dense object detection[C].International Conference on Computer Vision.IEEE,2017:2999-3007.
[16] LIU W,ANGUELOY D,ERHAN D,et al.SSD:single shot multibox detector[C].European Conference on Computer Vision,Amsterdam,Netherlands,2016:21-37.
[17] SIMONYAN K,ZISSERMAN.A very deep convolutional networks for large-scale image recognition[C].International Conference on Learning Representations,2015.
[18] LUO W,LI Y,URTASUN R,et al.Understanding the effective receptive field in deep convolutional neural networks[C].29th Conference on Neural Information Processing Systems,Barcelona,Spain,2016:4898-4906.
[19] DAI J,LI Y,HE K,et al.R-FCN:object detection via region-based fully convolutional networks[C]. 29th Conference on Neural Information Processing Systems,2016:379-387.
[20] YANG S,XIONG Y,LOY C C,et al.Face detection through scale-friendly deep convolutional networks[J].arXiv:Computer Vision and Pattern Recognition,2017.
[21] YANG S,LUO P,LOY C C,et al.Wider face: a face detection benchmark[C].IEEE Conference on Computer Vision and Pattern Recognition,2016:5525-5533.
作者信息:
孫貴華,陳淑榮
(上海海事大學(xué) 信息工程學(xué)院,上海201306)