文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.190082
中文引用格式: 張杰,隋陽,李強,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的火災(zāi)視頻圖像檢測[J].電子技術(shù)應(yīng)用,2019,45(4):34-38,44.
英文引用格式: Zhang Jie,Sui Yang,Li Qiang,et al. Fire video image detection based on convolutional neural network[J]. Application of Electronic Technique,2019,45(4):34-38,44.
0 引言
在早期火災(zāi)檢測的過程中,主要是火焰的檢測,火焰主要有以下三大特征:運動特征、顏色模型和輪廓特征,研究主要通過這些特征來達到火焰識別的效果。顏色檢測是火焰檢測最早用的方法,目前仍有使用。研究人員為了提高火焰識別的準確率,試圖探索用于火焰檢測的顏色和運動特征。CHEN T H等人[1]研究了火焰的RGB和HSI顏色空間中的火焰的動態(tài)行為和不規(guī)則性檢測。CELIK T和DEMIREL H[2]使用YCbCr空間色度分量與亮度分離的特性設(shè)計分類規(guī)則,該方法有可能以較高的精度檢測火焰,但需要檢測距離較小,火災(zāi)的尺寸較大。MUELLER M等人[3]研究了火焰的形狀和剛性物體的運動,提出使用光流信息和火焰行為來智能地提取特征向量,基于該特征向量可以區(qū)分火焰和移動的剛性對象。FOGGIA P等人[4]融合了形狀、顏色和運動屬性,形成了一個多專家框架進行實時火焰檢測。雖然這種方法是目前占主導地位且最先進的火焰檢測算法,但仍然存在誤報率高的問題。隨著深度學習技術(shù)的不斷發(fā)展,設(shè)計自學習分類器,從更深層次自動挖掘特征并分析,已經(jīng)成為火災(zāi)視頻檢測領(lǐng)域的新思路。FRIZZI S[5]等人設(shè)計了一個9層卷積神經(jīng)網(wǎng)絡(luò),能分類出火焰、煙霧或無火災(zāi)。ZHANG Q[6]等人設(shè)計了一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò),第一級為全幅圖像分類,第二級為疑似火焰區(qū)域分類,這種兩級結(jié)構(gòu)令火災(zāi)識別更加精細。傅天駒[7]等人設(shè)計了一種用于森林火災(zāi)識別的12層卷積神經(jīng)網(wǎng)絡(luò),針對網(wǎng)絡(luò)訓練過程中訓練樣本較少這一情況,采用替換隨機初始化參數(shù)方法,獲得了比較好的分類效果。
為了進一步提高火災(zāi)檢測的準確率并實現(xiàn)火災(zāi)定位,本文應(yīng)用深度學習的方法提出了一種有效的卷積神經(jīng)網(wǎng)絡(luò)火焰檢測結(jié)構(gòu),避免了特征提取繁瑣而耗時的過程,自動地從原始火災(zāi)數(shù)據(jù)中學習豐富的特征。本文利用遷移學習的思想,訓練并微調(diào)了深度卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重,成功實現(xiàn)了火災(zāi)的檢測和定位。本文的方法相對于單純判斷有無火焰的方法,實現(xiàn)了火災(zāi)的定位,為后期滅火的定位提供便利條件,針對識別過程中類似火災(zāi)場景對火災(zāi)檢測產(chǎn)生干擾的問題,利用火災(zāi)的運動特性,提出結(jié)合火災(zāi)視頻前后幀火災(zāi)坐標位置變化,排除燈光等類似火災(zāi)場景對檢測的干擾。
1 火災(zāi)視頻圖像檢測流程
基于卷積神經(jīng)網(wǎng)絡(luò)火災(zāi)視頻檢測主要分為模型的訓練和模型的評估兩個主要的部分。首先收集大量的火災(zāi)圖片進行模型訓練,利用深度卷積神經(jīng)網(wǎng)絡(luò)獲得更深層次的火災(zāi)特征表達,得到大量的火災(zāi)檢測模型;然后利用測試數(shù)據(jù)集對得到的模型進行評估以尋求最優(yōu)模型;最后就可以利用最優(yōu)模型對新輸入的照片進行火災(zāi)和非火的判斷?;诰矸e神經(jīng)網(wǎng)絡(luò)的火災(zāi)視頻圖像檢測流程圖如圖1所示。
1.1 卷積神經(jīng)網(wǎng)絡(luò)
CNN(Convolutional Neural Networks)是一個受生物視覺感知機制啟發(fā)的深度學習網(wǎng)絡(luò)結(jié)構(gòu)。自從第一個深度學習網(wǎng)絡(luò)LeNet用于手寫的數(shù)字分類,它已顯示出可觀的解決各種問題的能力,包括行動識別[8]、姿態(tài)估計、圖像分類[9]、視覺顯著性檢測、對象跟蹤、圖像分割、場景標注、對象定位[10]。典型的CNN結(jié)構(gòu)如圖2所示。
1.2 火災(zāi)視頻圖像檢測深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
本文火災(zāi)目標檢測受SSD(Single Shot MultiBox Detector)[11]思想的啟發(fā),使用sigmod激活函數(shù)替換原網(wǎng)絡(luò)softmax的激活函數(shù),以適應(yīng)火災(zāi)識別的二分類問題,并通過訓練獲得所需要的火災(zāi)檢測模型。本文算法定位方法與滑窗法不同,它使用單個深度神經(jīng)網(wǎng)絡(luò)即可進行圖像檢測,該算法在中間層特征圖的像素點上,基于不同的比例和大小生成一系列默認框來進行定位。在預(yù)測的過程中,網(wǎng)絡(luò)會生成每一個存在的目標類別的分數(shù)同時按定位權(quán)重生成定位框,更加精準地匹配對象的形狀。此外,該網(wǎng)絡(luò)將來自具有不同分辨率的多個特征圖的預(yù)測組合在一起來處理各種尺寸的物體。本文算法的主要優(yōu)勢是在不犧牲準確率的同時,具有相當快的處理速度,這為火災(zāi)的及時識別提供了有利條件。
本文的火災(zāi)視頻圖像深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,輸入圖像為3通道、寬高為300×300的火災(zāi)圖像。主網(wǎng)絡(luò)結(jié)構(gòu)是VGG16,其中兩個卷積層是由全連接層改成的,同時增加了4個卷積層來獲得特征圖,以便更精準地定位。此網(wǎng)絡(luò)檢測火災(zāi)分為兩個部分,一方面是預(yù)測輸入圖片的類別以及屬于該類別的得分,另一方面在特征圖上使用小的卷積核,去預(yù)測一系列默認框的默認框偏移量。為了得到高精度的檢測結(jié)果,如圖3所示,在不同層次的特征圖上去預(yù)測物體以及默認框的偏移,檢測和分類器1輸入特征圖大小為38×38,每個特征圖元周圍4個默認框,因此默認框的數(shù)量為38×38×4,其余默認框以此類推。最后經(jīng)過非極大值抑制NMS(Non-Maxinum Suppression)排除冗余的干擾項,得出最后的檢測位置。
在訓練過程中,設(shè)置了不同的超參數(shù)訓練了大量的模型,這些參數(shù)取決于收集的訓練數(shù)據(jù)、數(shù)據(jù)的質(zhì)量以及在訓練過程中對結(jié)果的分析,通過調(diào)節(jié)學習率、閾值等超參數(shù)改進模型,并在最后使用準確率最高的模型。訓練過程中采用了遷移學習策略,因為預(yù)訓練模型是由大規(guī)模數(shù)據(jù)集訓練得到的,其中各個層的權(quán)重基本體現(xiàn)了圖像物體的特征選擇,所以通過微調(diào)策略,使用預(yù)訓練模型進行初始化,準確率會上升得更快,并達到更好的效果。實驗通過運行100 000次微調(diào)迭代過程,得到了最終的模型,在檢測室內(nèi)外火焰方面表現(xiàn)出可觀的準確率。
2 識別結(jié)果討論分析
2.1 實驗條件與數(shù)據(jù)生成
本文的實驗操作系統(tǒng)為Ubuntu16.04(Linux),GPU為1080Ti,內(nèi)存為8 GB,CPU為i5-4590,所用的數(shù)據(jù)集來自互聯(lián)網(wǎng)上各大研究機構(gòu)公開的視頻。從視頻中截取所需圖片創(chuàng)建火災(zāi)圖片數(shù)據(jù)集,之后用labelimg標框軟件進行標框處理,生成xml文件,從標記的圖片中隨機抽取其中的90%組成訓練集,剩余的10%組成測試集,并將訓練集和測試集轉(zhuǎn)換為Caffe框架所支持的lmdb格式。轉(zhuǎn)換過程中將圖片寬高調(diào)整為300×300,并加入了數(shù)據(jù)增強的方法,進行了鏡像、翻轉(zhuǎn)等數(shù)據(jù)擴充的操作,隨后進行預(yù)處理和歸一化。Slover參數(shù)設(shè)置:權(quán)衰量為0.0005,初始學習率為0.0001,學習率變化的比率為0.1,網(wǎng)絡(luò)沖量為0.9,網(wǎng)絡(luò)優(yōu)化方法為SGD,學習率衰減策略為multistep。
2.2 訓練曲線及模型性能指標對比分析
對訓練數(shù)據(jù)集進行訓練,并記錄樣本的損失函數(shù)(loss)值,輸出訓練過程中總loss曲線以及定位loss曲線分別如圖4、圖5所示。隨著迭代次數(shù)iters的增多,網(wǎng)絡(luò)訓練總loss(train_loss)和定位loss(mbox_loss)逐漸收斂,呈現(xiàn)出持續(xù)下降、趨近平穩(wěn)的狀態(tài),符合訓練要求,可以達到學習的目標,在60 000次迭代以后趨于平穩(wěn),訓練的損失函數(shù)曲線如圖4、圖5所示。本文算法的損失函數(shù)計算使用以下公式:
其中,N是匹配的默認框個數(shù),x表示匹配的框是否屬于某個類別,取值{0,1};l是預(yù)測框,g是真實值;c為所框選目標屬于某類別的置信度。
火災(zāi)的識別屬于二分類問題,可將樣例根據(jù)其真實類別與學習器預(yù)測類別的組合劃分為真正例、假正例、真反例、假反例4種情形,令TP、FP、TN、FN分別表示其對應(yīng)的樣例數(shù)[12],評估模型預(yù)測是否為火的混淆矩陣如表1所示。
漏報率:
誤報率:
查準率:
查全率:
準確率:
為了測試本文模型的表現(xiàn),進一步豐富了測試數(shù)據(jù)集,共177張圖片,其中火災(zāi)圖片100張,非火災(zāi)圖片77,檢測模型在該數(shù)據(jù)集上的表現(xiàn)如表2所示。
2.3 不同場景的火災(zāi)圖片實驗結(jié)果
選取不同場景的火災(zāi)圖片和非火圖片,如圖6所示。對于火災(zāi)圖片,本文模型成功實現(xiàn)識別及定位;對于類似火災(zāi)圖片,本文模型成功判斷為非火圖片,這些圖像的概率值如表3所示。
2.4 利用火焰運動特征抗干擾實驗
在應(yīng)用大量的火災(zāi)數(shù)據(jù)集進行測試的過程中,發(fā)現(xiàn)會有部分燈光較亮的圖片會對識別產(chǎn)生干擾,如圖7(f)所示。針對這個問題,本文利用火災(zāi)的運動特征,計算視頻前后幀的位置距離d,以區(qū)分幾乎靜止不動的干擾源。只有位置坐標不為0,且前后兩幀位置坐標距離不為0,才判定為有火,這種方法巧妙地排除了靜止類火場景對火災(zāi)識別的影響。表4中(xmin,ymin)、(xmax,ymax)分別為矩形框左上角和右下角的坐標值。其中d的計算公式為:
對不同的數(shù)據(jù)進行了測試的結(jié)果如表4所示,其中圖7(a)、圖7(b)、圖7(c)是連續(xù)3幀有火的圖片輸出位置坐標,計算前后兩幀距離,分別為2.41 px和13.15 px。干擾圖片圖7(f)也輸出相應(yīng)位置坐標和前后兩幀的距離,前后兩幀的距離為圖7(d)、圖7(e)兩張非火災(zāi)圖片為視頻中運動的人,檢測模型直接可以判斷出這兩幀為非火圖片,不生成定位框,因此無坐標值,距離為默認值0。
3 結(jié)論
隨著智能監(jiān)控的處理能力的提升,在監(jiān)控系統(tǒng)中識別出火災(zāi)對于控制火災(zāi)帶來的損失具有積極意義,本文提出了一個兼顧準確率和計算復(fù)雜性的深度學習火災(zāi)檢測模型。該模型的靈感來自SSD算法,針對火災(zāi)識別問題對其進行改進。通過實驗證明,本文的識別模型能夠?qū)崿F(xiàn)火災(zāi)圖片的識別和定位,對不同的火災(zāi)場景進行檢測都有很好的識別效果,具有很好的泛化能力。針對識別過程中類似火災(zāi)場景對火災(zāi)檢測產(chǎn)生干擾的問題,本文利用火災(zāi)的運動特性,提出結(jié)合火災(zāi)視頻前后幀火災(zāi)坐標位置變化的方法,排除了燈光等類似火災(zāi)靜止場景對檢測的干擾。在之后的研究中,可以對當前的火焰檢測模型進行進一步調(diào)整,以檢測煙霧和火焰,處理更復(fù)雜的情況。
參考文獻
[1] CHEN T H,WU P H,CHIOU Y C.An early fire-detection method based on image processing[C].International Conference on Image Processing.IEEE,2005,3:1707-1710.
[2] CELIK T,DEMIREL H.Fire detection in video sequences using a generic color model[J].Fire Safety,2009,44(2):147-158.
[3] MUELLER M,KARASEV P,KOLESOV I,et al.Optical flow estimation for flame detection in videos[J].IEEE Trans.Image Process,2013,22(7):2786-2797.
[4] FOGGIA P,SAGGESE A,VENTO M.Real-time fire detection for video-surveillance applications using a combination of experts based on color,shape,and motion[J].IEEE Trans. on Circuits and Syst. for Video Technol.,2015,25(9):1545-1556.
[5] FRIZZI S,KAABI R,BOUCHOUICHA M,et al.Convolutional neural network for video fire and smoke detection[C].Industrial Electtonics Society,IECON 2016 Conference of the IEEE.IEEE,2016:877-882.
[6] ZHANG Q,XU J,XU L,et al.Deep convolutional neural networks for forest fire detection[C].International Forum on Management,Education and Information Technology Application,2016.
[7] 傅天駒,鄭嫦娥,田野,等.復(fù)雜背景下基于深度卷積神經(jīng)網(wǎng)絡(luò)的森林火災(zāi)識別[J].計算機與現(xiàn)代化,2016(3):52-57.
[8] SHAO L,LIU L,LI X.Feature learning for image classification via multiobjective genetic programming[J].IEEE Trans. on Neural Netw. and Learn. Syst.,2014,25(7):1359-1371.
[9] 林付春,劉宇紅,張達峰,等.基于深度學習的智能路牌識別系統(tǒng)設(shè)計[J].電子技術(shù)應(yīng)用,2018,44(6):68-71.
[10] 馬治楠,韓云杰,彭琳鈺,等.基于深層卷積神經(jīng)網(wǎng)絡(luò)的剪枝優(yōu)化[J].電子技術(shù)應(yīng)用,2018,44(12):119-122,126.
[11] Liu Wei,ANGUELOV D,ERHAN D.SSD:single shot multibox detector[J].Computer Vision-ECCV,2016,2016,99(5):21-37.
[12] 周志華.機器學習[M].北京:清華大學出版社,2016.
作者信息:
張 杰,隋 陽,李 強,李 想,董 瑋
(吉林大學 電子科學與工程學院,吉林 長春130012)