文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.200067
中文引用格式: 王林,黃三麗. YOLOv3網(wǎng)絡在車標檢測中的應用[J].電子技術應用,2020,46(9):34-37,42.
英文引用格式: Wang Lin,Huang Sanli. Application of YOLOv3 network in vehicle logo detection[J]. Application of Electronic Technique,2020,46(9):34-37,42.
0 引言
近年來,隨著人工智能技術的不斷發(fā)展,其被廣泛用于公共安全、教育、人機交互等領域,例如:人臉檢測[1]、圖像分類[2]、圖像分割等。同樣的車標檢測技術對于完善智能交通具有重要作用,能夠輔助實現(xiàn)車輛信息的確認。21世紀以來,隨著國民經(jīng)濟快速發(fā)展,汽車數(shù)量在我國的增長速度越來越快。汽車數(shù)量過多帶來交通壓力的同時也會帶來其他問題:套牌車、假車牌事件頻頻發(fā)生。這些事件的發(fā)生意味著僅僅通過車牌來確認車輛準確信息將受到阻礙。同車牌一樣,車標也是車輛的一個重要屬性,在結(jié)合車牌信息后,就能更準確地確認車輛信息。國內(nèi)外學者對車標檢測采用了不同的方法進行研究。一般而言,分為傳統(tǒng)機器學習方法和卷積神經(jīng)網(wǎng)絡方法。
采用傳統(tǒng)機器學習方法在進行車標檢測時繁瑣,需要分為兩個獨立的步驟:首先進行車標定位,然后進行車標識別。文獻[3]-[4]采用傳統(tǒng)機器學習方法在進行車標定位和識別過程中都需要由專業(yè)人員人工設計特定特征,但是這些特征對于光照、陰影、車身傾斜等的變化所表現(xiàn)出來的魯棒性不強,在應用于實際場景下會出現(xiàn)低檢測率和識別率問題。針對傳統(tǒng)機器學習方法的不足,卷積神經(jīng)網(wǎng)絡方法應運而生。
早在20世紀80年代末期,卷積神經(jīng)網(wǎng)絡[5]技術就已經(jīng)應用于視覺任務中,但由于當時設備的運算能力不強和數(shù)據(jù)資源的不足,這一技術并沒有得到研究人員的廣泛研究和長足的發(fā)展。后來得益于GPU(Graphics Processing Unit)強大的計算能力和互聯(lián)網(wǎng)上豐富的數(shù)據(jù)資源,卷積神經(jīng)網(wǎng)絡技術得到了進一步的發(fā)展,而且也取得了突破性的進展。卷積神經(jīng)網(wǎng)絡一般包含卷積層、池化層、全連接層等。借助于卷積神經(jīng)網(wǎng)絡的強表達能力,不需要人工設計特征,在網(wǎng)絡學習車標特征后就能自動進行車標的定位以及分類。2014年,GIRSHICK R等[6]人第一次將卷積神經(jīng)網(wǎng)絡應用于目標檢測上并且獲得了比只使用方向梯度直方圖[7](Histogram of Oriented Gradient,HOG)特征更高的準確率,該網(wǎng)絡稱為區(qū)域卷積神經(jīng)網(wǎng)絡(Region Convlutional Network,R-CNN)。但該網(wǎng)絡存在耗時久的弊端,伴隨著對該網(wǎng)絡框架的不斷改進,其目標檢測的精度不斷提高,運行時間也不斷減少。2015年,HE K[8]等人通過改進R-CNN網(wǎng)絡縮短其檢測時間,但其最大幀率也只能達到5FPS。這對于幀率最小為25FPS的監(jiān)控視頻來說是遠遠不夠的。為了在準確率和時間上得到均衡,YOLO網(wǎng)絡[9]得到了應用,它將物體檢測作為回歸問題來求解,在輸入圖像后經(jīng)過一次前饋就能得到圖像中所有待檢測物體的位置和其所屬的類別以及相應的置信度,進行目標檢測時耗時少。
目前采用卷積神經(jīng)網(wǎng)絡進行車標檢測時遇到兩個問題:(1)公開的車標數(shù)據(jù)集少且包含的車標種類少[10];(2)采用卷積神經(jīng)網(wǎng)絡方法時參數(shù)多,運行耗時。因此,本文提出的采用改進的YOLOv3[11]網(wǎng)絡進行車標檢測主要有以下兩個貢獻:(1)替換YOLOv3中的Darknet-53為層數(shù)少的Darknet-19[12]結(jié)構,減少運算量進而減少車標檢測時間;(2)構建了一個包含46類車標的數(shù)據(jù)集。
本文詳細內(nèi)容請下載:http://ihrv.cn/resource/share/2000002976
作者信息:
王 林,黃三麗
(西安理工大學 自動化與信息工程學院,陜西 西安710048)