文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.190082
中文引用格式: 張杰,隋陽,李強(qiáng),等. 基于卷積神經(jīng)網(wǎng)絡(luò)的火災(zāi)視頻圖像檢測(cè)[J].電子技術(shù)應(yīng)用,2019,45(4):34-38,44.
英文引用格式: Zhang Jie,Sui Yang,Li Qiang,et al. Fire video image detection based on convolutional neural network[J]. Application of Electronic Technique,2019,45(4):34-38,44.
0 引言
在早期火災(zāi)檢測(cè)的過程中,主要是火焰的檢測(cè),火焰主要有以下三大特征:運(yùn)動(dòng)特征、顏色模型和輪廓特征,研究主要通過這些特征來達(dá)到火焰識(shí)別的效果。顏色檢測(cè)是火焰檢測(cè)最早用的方法,目前仍有使用。研究人員為了提高火焰識(shí)別的準(zhǔn)確率,試圖探索用于火焰檢測(cè)的顏色和運(yùn)動(dòng)特征。CHEN T H等人[1]研究了火焰的RGB和HSI顏色空間中的火焰的動(dòng)態(tài)行為和不規(guī)則性檢測(cè)。CELIK T和DEMIREL H[2]使用YCbCr空間色度分量與亮度分離的特性設(shè)計(jì)分類規(guī)則,該方法有可能以較高的精度檢測(cè)火焰,但需要檢測(cè)距離較小,火災(zāi)的尺寸較大。MUELLER M等人[3]研究了火焰的形狀和剛性物體的運(yùn)動(dòng),提出使用光流信息和火焰行為來智能地提取特征向量,基于該特征向量可以區(qū)分火焰和移動(dòng)的剛性對(duì)象。FOGGIA P等人[4]融合了形狀、顏色和運(yùn)動(dòng)屬性,形成了一個(gè)多專家框架進(jìn)行實(shí)時(shí)火焰檢測(cè)。雖然這種方法是目前占主導(dǎo)地位且最先進(jìn)的火焰檢測(cè)算法,但仍然存在誤報(bào)率高的問題。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,設(shè)計(jì)自學(xué)習(xí)分類器,從更深層次自動(dòng)挖掘特征并分析,已經(jīng)成為火災(zāi)視頻檢測(cè)領(lǐng)域的新思路。FRIZZI S[5]等人設(shè)計(jì)了一個(gè)9層卷積神經(jīng)網(wǎng)絡(luò),能分類出火焰、煙霧或無火災(zāi)。ZHANG Q[6]等人設(shè)計(jì)了一種級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò),第一級(jí)為全幅圖像分類,第二級(jí)為疑似火焰區(qū)域分類,這種兩級(jí)結(jié)構(gòu)令火災(zāi)識(shí)別更加精細(xì)。傅天駒[7]等人設(shè)計(jì)了一種用于森林火災(zāi)識(shí)別的12層卷積神經(jīng)網(wǎng)絡(luò),針對(duì)網(wǎng)絡(luò)訓(xùn)練過程中訓(xùn)練樣本較少這一情況,采用替換隨機(jī)初始化參數(shù)方法,獲得了比較好的分類效果。
為了進(jìn)一步提高火災(zāi)檢測(cè)的準(zhǔn)確率并實(shí)現(xiàn)火災(zāi)定位,本文應(yīng)用深度學(xué)習(xí)的方法提出了一種有效的卷積神經(jīng)網(wǎng)絡(luò)火焰檢測(cè)結(jié)構(gòu),避免了特征提取繁瑣而耗時(shí)的過程,自動(dòng)地從原始火災(zāi)數(shù)據(jù)中學(xué)習(xí)豐富的特征。本文利用遷移學(xué)習(xí)的思想,訓(xùn)練并微調(diào)了深度卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重,成功實(shí)現(xiàn)了火災(zāi)的檢測(cè)和定位。本文的方法相對(duì)于單純判斷有無火焰的方法,實(shí)現(xiàn)了火災(zāi)的定位,為后期滅火的定位提供便利條件,針對(duì)識(shí)別過程中類似火災(zāi)場景對(duì)火災(zāi)檢測(cè)產(chǎn)生干擾的問題,利用火災(zāi)的運(yùn)動(dòng)特性,提出結(jié)合火災(zāi)視頻前后幀火災(zāi)坐標(biāo)位置變化,排除燈光等類似火災(zāi)場景對(duì)檢測(cè)的干擾。
1 火災(zāi)視頻圖像檢測(cè)流程
基于卷積神經(jīng)網(wǎng)絡(luò)火災(zāi)視頻檢測(cè)主要分為模型的訓(xùn)練和模型的評(píng)估兩個(gè)主要的部分。首先收集大量的火災(zāi)圖片進(jìn)行模型訓(xùn)練,利用深度卷積神經(jīng)網(wǎng)絡(luò)獲得更深層次的火災(zāi)特征表達(dá),得到大量的火災(zāi)檢測(cè)模型;然后利用測(cè)試數(shù)據(jù)集對(duì)得到的模型進(jìn)行評(píng)估以尋求最優(yōu)模型;最后就可以利用最優(yōu)模型對(duì)新輸入的照片進(jìn)行火災(zāi)和非火的判斷?;诰矸e神經(jīng)網(wǎng)絡(luò)的火災(zāi)視頻圖像檢測(cè)流程圖如圖1所示。
1.1 卷積神經(jīng)網(wǎng)絡(luò)
CNN(Convolutional Neural Networks)是一個(gè)受生物視覺感知機(jī)制啟發(fā)的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)。自從第一個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)LeNet用于手寫的數(shù)字分類,它已顯示出可觀的解決各種問題的能力,包括行動(dòng)識(shí)別[8]、姿態(tài)估計(jì)、圖像分類[9]、視覺顯著性檢測(cè)、對(duì)象跟蹤、圖像分割、場景標(biāo)注、對(duì)象定位[10]。典型的CNN結(jié)構(gòu)如圖2所示。
1.2 火災(zāi)視頻圖像檢測(cè)深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
本文火災(zāi)目標(biāo)檢測(cè)受SSD(Single Shot MultiBox Detector)[11]思想的啟發(fā),使用sigmod激活函數(shù)替換原網(wǎng)絡(luò)softmax的激活函數(shù),以適應(yīng)火災(zāi)識(shí)別的二分類問題,并通過訓(xùn)練獲得所需要的火災(zāi)檢測(cè)模型。本文算法定位方法與滑窗法不同,它使用單個(gè)深度神經(jīng)網(wǎng)絡(luò)即可進(jìn)行圖像檢測(cè),該算法在中間層特征圖的像素點(diǎn)上,基于不同的比例和大小生成一系列默認(rèn)框來進(jìn)行定位。在預(yù)測(cè)的過程中,網(wǎng)絡(luò)會(huì)生成每一個(gè)存在的目標(biāo)類別的分?jǐn)?shù)同時(shí)按定位權(quán)重生成定位框,更加精準(zhǔn)地匹配對(duì)象的形狀。此外,該網(wǎng)絡(luò)將來自具有不同分辨率的多個(gè)特征圖的預(yù)測(cè)組合在一起來處理各種尺寸的物體。本文算法的主要優(yōu)勢(shì)是在不犧牲準(zhǔn)確率的同時(shí),具有相當(dāng)快的處理速度,這為火災(zāi)的及時(shí)識(shí)別提供了有利條件。
本文的火災(zāi)視頻圖像深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,輸入圖像為3通道、寬高為300×300的火災(zāi)圖像。主網(wǎng)絡(luò)結(jié)構(gòu)是VGG16,其中兩個(gè)卷積層是由全連接層改成的,同時(shí)增加了4個(gè)卷積層來獲得特征圖,以便更精準(zhǔn)地定位。此網(wǎng)絡(luò)檢測(cè)火災(zāi)分為兩個(gè)部分,一方面是預(yù)測(cè)輸入圖片的類別以及屬于該類別的得分,另一方面在特征圖上使用小的卷積核,去預(yù)測(cè)一系列默認(rèn)框的默認(rèn)框偏移量。為了得到高精度的檢測(cè)結(jié)果,如圖3所示,在不同層次的特征圖上去預(yù)測(cè)物體以及默認(rèn)框的偏移,檢測(cè)和分類器1輸入特征圖大小為38×38,每個(gè)特征圖元周圍4個(gè)默認(rèn)框,因此默認(rèn)框的數(shù)量為38×38×4,其余默認(rèn)框以此類推。最后經(jīng)過非極大值抑制NMS(Non-Maxinum Suppression)排除冗余的干擾項(xiàng),得出最后的檢測(cè)位置。
在訓(xùn)練過程中,設(shè)置了不同的超參數(shù)訓(xùn)練了大量的模型,這些參數(shù)取決于收集的訓(xùn)練數(shù)據(jù)、數(shù)據(jù)的質(zhì)量以及在訓(xùn)練過程中對(duì)結(jié)果的分析,通過調(diào)節(jié)學(xué)習(xí)率、閾值等超參數(shù)改進(jìn)模型,并在最后使用準(zhǔn)確率最高的模型。訓(xùn)練過程中采用了遷移學(xué)習(xí)策略,因?yàn)轭A(yù)訓(xùn)練模型是由大規(guī)模數(shù)據(jù)集訓(xùn)練得到的,其中各個(gè)層的權(quán)重基本體現(xiàn)了圖像物體的特征選擇,所以通過微調(diào)策略,使用預(yù)訓(xùn)練模型進(jìn)行初始化,準(zhǔn)確率會(huì)上升得更快,并達(dá)到更好的效果。實(shí)驗(yàn)通過運(yùn)行100 000次微調(diào)迭代過程,得到了最終的模型,在檢測(cè)室內(nèi)外火焰方面表現(xiàn)出可觀的準(zhǔn)確率。
2 識(shí)別結(jié)果討論分析
2.1 實(shí)驗(yàn)條件與數(shù)據(jù)生成
本文的實(shí)驗(yàn)操作系統(tǒng)為Ubuntu16.04(Linux),GPU為1080Ti,內(nèi)存為8 GB,CPU為i5-4590,所用的數(shù)據(jù)集來自互聯(lián)網(wǎng)上各大研究機(jī)構(gòu)公開的視頻。從視頻中截取所需圖片創(chuàng)建火災(zāi)圖片數(shù)據(jù)集,之后用labelimg標(biāo)框軟件進(jìn)行標(biāo)框處理,生成xml文件,從標(biāo)記的圖片中隨機(jī)抽取其中的90%組成訓(xùn)練集,剩余的10%組成測(cè)試集,并將訓(xùn)練集和測(cè)試集轉(zhuǎn)換為Caffe框架所支持的lmdb格式。轉(zhuǎn)換過程中將圖片寬高調(diào)整為300×300,并加入了數(shù)據(jù)增強(qiáng)的方法,進(jìn)行了鏡像、翻轉(zhuǎn)等數(shù)據(jù)擴(kuò)充的操作,隨后進(jìn)行預(yù)處理和歸一化。Slover參數(shù)設(shè)置:權(quán)衰量為0.0005,初始學(xué)習(xí)率為0.0001,學(xué)習(xí)率變化的比率為0.1,網(wǎng)絡(luò)沖量為0.9,網(wǎng)絡(luò)優(yōu)化方法為SGD,學(xué)習(xí)率衰減策略為multistep。
2.2 訓(xùn)練曲線及模型性能指標(biāo)對(duì)比分析
對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,并記錄樣本的損失函數(shù)(loss)值,輸出訓(xùn)練過程中總loss曲線以及定位loss曲線分別如圖4、圖5所示。隨著迭代次數(shù)iters的增多,網(wǎng)絡(luò)訓(xùn)練總loss(train_loss)和定位loss(mbox_loss)逐漸收斂,呈現(xiàn)出持續(xù)下降、趨近平穩(wěn)的狀態(tài),符合訓(xùn)練要求,可以達(dá)到學(xué)習(xí)的目標(biāo),在60 000次迭代以后趨于平穩(wěn),訓(xùn)練的損失函數(shù)曲線如圖4、圖5所示。本文算法的損失函數(shù)計(jì)算使用以下公式:
其中,N是匹配的默認(rèn)框個(gè)數(shù),x表示匹配的框是否屬于某個(gè)類別,取值{0,1};l是預(yù)測(cè)框,g是真實(shí)值;c為所框選目標(biāo)屬于某類別的置信度。
火災(zāi)的識(shí)別屬于二分類問題,可將樣例根據(jù)其真實(shí)類別與學(xué)習(xí)器預(yù)測(cè)類別的組合劃分為真正例、假正例、真反例、假反例4種情形,令TP、FP、TN、FN分別表示其對(duì)應(yīng)的樣例數(shù)[12],評(píng)估模型預(yù)測(cè)是否為火的混淆矩陣如表1所示。
漏報(bào)率:
誤報(bào)率:
查準(zhǔn)率:
查全率:
準(zhǔn)確率:
為了測(cè)試本文模型的表現(xiàn),進(jìn)一步豐富了測(cè)試數(shù)據(jù)集,共177張圖片,其中火災(zāi)圖片100張,非火災(zāi)圖片77,檢測(cè)模型在該數(shù)據(jù)集上的表現(xiàn)如表2所示。
2.3 不同場景的火災(zāi)圖片實(shí)驗(yàn)結(jié)果
選取不同場景的火災(zāi)圖片和非火圖片,如圖6所示。對(duì)于火災(zāi)圖片,本文模型成功實(shí)現(xiàn)識(shí)別及定位;對(duì)于類似火災(zāi)圖片,本文模型成功判斷為非火圖片,這些圖像的概率值如表3所示。
2.4 利用火焰運(yùn)動(dòng)特征抗干擾實(shí)驗(yàn)
在應(yīng)用大量的火災(zāi)數(shù)據(jù)集進(jìn)行測(cè)試的過程中,發(fā)現(xiàn)會(huì)有部分燈光較亮的圖片會(huì)對(duì)識(shí)別產(chǎn)生干擾,如圖7(f)所示。針對(duì)這個(gè)問題,本文利用火災(zāi)的運(yùn)動(dòng)特征,計(jì)算視頻前后幀的位置距離d,以區(qū)分幾乎靜止不動(dòng)的干擾源。只有位置坐標(biāo)不為0,且前后兩幀位置坐標(biāo)距離不為0,才判定為有火,這種方法巧妙地排除了靜止類火場景對(duì)火災(zāi)識(shí)別的影響。表4中(xmin,ymin)、(xmax,ymax)分別為矩形框左上角和右下角的坐標(biāo)值。其中d的計(jì)算公式為:
對(duì)不同的數(shù)據(jù)進(jìn)行了測(cè)試的結(jié)果如表4所示,其中圖7(a)、圖7(b)、圖7(c)是連續(xù)3幀有火的圖片輸出位置坐標(biāo),計(jì)算前后兩幀距離,分別為2.41 px和13.15 px。干擾圖片圖7(f)也輸出相應(yīng)位置坐標(biāo)和前后兩幀的距離,前后兩幀的距離為圖7(d)、圖7(e)兩張非火災(zāi)圖片為視頻中運(yùn)動(dòng)的人,檢測(cè)模型直接可以判斷出這兩幀為非火圖片,不生成定位框,因此無坐標(biāo)值,距離為默認(rèn)值0。
3 結(jié)論
隨著智能監(jiān)控的處理能力的提升,在監(jiān)控系統(tǒng)中識(shí)別出火災(zāi)對(duì)于控制火災(zāi)帶來的損失具有積極意義,本文提出了一個(gè)兼顧準(zhǔn)確率和計(jì)算復(fù)雜性的深度學(xué)習(xí)火災(zāi)檢測(cè)模型。該模型的靈感來自SSD算法,針對(duì)火災(zāi)識(shí)別問題對(duì)其進(jìn)行改進(jìn)。通過實(shí)驗(yàn)證明,本文的識(shí)別模型能夠?qū)崿F(xiàn)火災(zāi)圖片的識(shí)別和定位,對(duì)不同的火災(zāi)場景進(jìn)行檢測(cè)都有很好的識(shí)別效果,具有很好的泛化能力。針對(duì)識(shí)別過程中類似火災(zāi)場景對(duì)火災(zāi)檢測(cè)產(chǎn)生干擾的問題,本文利用火災(zāi)的運(yùn)動(dòng)特性,提出結(jié)合火災(zāi)視頻前后幀火災(zāi)坐標(biāo)位置變化的方法,排除了燈光等類似火災(zāi)靜止場景對(duì)檢測(cè)的干擾。在之后的研究中,可以對(duì)當(dāng)前的火焰檢測(cè)模型進(jìn)行進(jìn)一步調(diào)整,以檢測(cè)煙霧和火焰,處理更復(fù)雜的情況。
參考文獻(xiàn)
[1] CHEN T H,WU P H,CHIOU Y C.An early fire-detection method based on image processing[C].International Conference on Image Processing.IEEE,2005,3:1707-1710.
[2] CELIK T,DEMIREL H.Fire detection in video sequences using a generic color model[J].Fire Safety,2009,44(2):147-158.
[3] MUELLER M,KARASEV P,KOLESOV I,et al.Optical flow estimation for flame detection in videos[J].IEEE Trans.Image Process,2013,22(7):2786-2797.
[4] FOGGIA P,SAGGESE A,VENTO M.Real-time fire detection for video-surveillance applications using a combination of experts based on color,shape,and motion[J].IEEE Trans. on Circuits and Syst. for Video Technol.,2015,25(9):1545-1556.
[5] FRIZZI S,KAABI R,BOUCHOUICHA M,et al.Convolutional neural network for video fire and smoke detection[C].Industrial Electtonics Society,IECON 2016 Conference of the IEEE.IEEE,2016:877-882.
[6] ZHANG Q,XU J,XU L,et al.Deep convolutional neural networks for forest fire detection[C].International Forum on Management,Education and Information Technology Application,2016.
[7] 傅天駒,鄭嫦娥,田野,等.復(fù)雜背景下基于深度卷積神經(jīng)網(wǎng)絡(luò)的森林火災(zāi)識(shí)別[J].計(jì)算機(jī)與現(xiàn)代化,2016(3):52-57.
[8] SHAO L,LIU L,LI X.Feature learning for image classification via multiobjective genetic programming[J].IEEE Trans. on Neural Netw. and Learn. Syst.,2014,25(7):1359-1371.
[9] 林付春,劉宇紅,張達(dá)峰,等.基于深度學(xué)習(xí)的智能路牌識(shí)別系統(tǒng)設(shè)計(jì)[J].電子技術(shù)應(yīng)用,2018,44(6):68-71.
[10] 馬治楠,韓云杰,彭琳鈺,等.基于深層卷積神經(jīng)網(wǎng)絡(luò)的剪枝優(yōu)化[J].電子技術(shù)應(yīng)用,2018,44(12):119-122,126.
[11] Liu Wei,ANGUELOV D,ERHAN D.SSD:single shot multibox detector[J].Computer Vision-ECCV,2016,2016,99(5):21-37.
[12] 周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.
作者信息:
張 杰,隋 陽,李 強(qiáng),李 想,董 瑋
(吉林大學(xué) 電子科學(xué)與工程學(xué)院,吉林 長春130012)