文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.190828
中文引用格式: 陳志新,董瑞雪,劉鑫,等. 基于深度學(xué)習(xí)的復(fù)雜分揀圖像快速識(shí)別方法研究[J].電子技術(shù)應(yīng)用,2020,46(2):71-75.
英文引用格式: Chen Zhixin,Dong Ruixue,Liu Xin,et al. Research on rapid recognition of complex sorting images based on deep learning[J]. Application of Electronic Technique,2020,46(2):71-75.
0 引言
物品在出入庫(kù)時(shí)往往會(huì)用到分揀系統(tǒng),而在多品種單元物料自動(dòng)分揀系統(tǒng)中,基于機(jī)器視覺(jué)的智能識(shí)別技術(shù)應(yīng)用比較普遍,相關(guān)領(lǐng)域的核心技術(shù)研究在不斷地深入,其中研究訓(xùn)練速度更快、識(shí)別精準(zhǔn)度更高的智能識(shí)別技術(shù)一直是智能技術(shù)的研究熱點(diǎn)及前沿技術(shù)。張娟[1]提出一種基于稀疏表示算法的三維多媒體視覺(jué)圖像人工智能識(shí)別方法。深度學(xué)習(xí)作為近來(lái)機(jī)器學(xué)習(xí)領(lǐng)域的最新研究成果,在圖像處理領(lǐng)域有著強(qiáng)大的建模與表征能力,取得了突破成果。在各種深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)應(yīng)用最為廣泛,在圖像識(shí)別領(lǐng)域受到極大關(guān)注。它通過(guò)卷積計(jì)算逐層抽象圖片不同層次的語(yǔ)義,通過(guò)數(shù)據(jù)集的訓(xùn)練擬合調(diào)整各個(gè)卷積核的內(nèi)部參數(shù),從而在無(wú)監(jiān)督的條件下實(shí)現(xiàn)分類特征的抓取[2]。此后更深層次的AlexNet網(wǎng)絡(luò)[3]取得成功,此后卷積神經(jīng)網(wǎng)絡(luò)蓬勃發(fā)展,被廣泛用于各個(gè)領(lǐng)域,在很多問(wèn)題上都取得了當(dāng)前最好的性能。白帆[4]利用深度學(xué)習(xí)CNN對(duì)圖像進(jìn)行目標(biāo)識(shí)別;孫平安[5]提出一種融合CNN的改進(jìn)型迭代深度學(xué)習(xí)算法;戴鵬[6]提出基于半監(jiān)督深度學(xué)習(xí)的扣件缺陷圖像識(shí)別方法;王貴槐[7]通過(guò)建立船只單次多重檢測(cè)深度學(xué)習(xí)框架并微調(diào)分類框架實(shí)現(xiàn)較高的內(nèi)河船舶檢測(cè)準(zhǔn)確度;黃宏偉[8]提出一種基于全卷積網(wǎng)絡(luò)的隧道圖像識(shí)別算法;楊天祺[9]通過(guò)批量歸一化、改進(jìn)卷積層結(jié)構(gòu)、添加冗余分類器改進(jìn)了CNN,且增加圖片數(shù)量擴(kuò)增了訓(xùn)練集,從而提高分類精確度和速度;張慧娜[10]研究基于Haar小波變換-CNN的圖像特征提取用于自然場(chǎng)景圖像分類的問(wèn)題;許少尉[11]采用卷積神經(jīng)網(wǎng)絡(luò)提出基于深度學(xué)習(xí)的圖像分類方法;蔣兆軍[12]通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提出一種基于深度學(xué)習(xí)的無(wú)人機(jī)識(shí)別算法;周建凱[13]提出基于TensorFlow框架搭建卷積神經(jīng)網(wǎng)絡(luò)對(duì)電池片電致發(fā)光圖像進(jìn)行缺陷識(shí)別。在實(shí)際應(yīng)用中,2016年6月在京東集團(tuán)固安智能物流中心落地的京東智能分揀中心系統(tǒng),引入了智能分揀機(jī)和龍門架,實(shí)現(xiàn)了可以脫離人工操作的智能收貨和發(fā)貨,保證包裹分揀正確率達(dá)到使用要求。由此可見(jiàn),深度學(xué)習(xí)在分揀圖像快速識(shí)別領(lǐng)域有著很好的應(yīng)用前景。而物流分揀倉(cāng)庫(kù)環(huán)境復(fù)雜、照明度不高以及快遞外包裝區(qū)別不明顯,這些都對(duì)自動(dòng)分揀正確率產(chǎn)生影響,因此有必要研究基于深度學(xué)習(xí)的復(fù)雜分揀圖像快速識(shí)別方法。
1 深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)
CNN是一種改進(jìn)的神經(jīng)網(wǎng)絡(luò),仍然是層級(jí)網(wǎng)絡(luò),但是層的功能和形式有了變化。一個(gè)CNN結(jié)構(gòu)主要由3種類型層級(jí)組成:卷積層、池化層和全連接層。卷積層后緊跟著池化層,最后是全連接層。這些層級(jí)按照?qǐng)D1所示,其中Ci代表卷積層,Si代表池化層。
(1)卷積層:是最重要的層,卷積計(jì)算是通過(guò)稀疏交互、參數(shù)共享、等變表示這3個(gè)重要的思想來(lái)改進(jìn)機(jī)器學(xué)習(xí)的。
(2)池化層:卷積是為了解決前面無(wú)監(jiān)督特征學(xué)習(xí)計(jì)算復(fù)雜度的問(wèn)題,而下采樣則是為了后面有監(jiān)督特征分類器學(xué)習(xí)特征圖中重要的分類特征,忽略無(wú)關(guān)的細(xì)節(jié)。另外也減小了需要訓(xùn)練的特征參數(shù)的個(gè)數(shù),改善結(jié)果(不容易出現(xiàn)過(guò)擬合),使得特征保持旋轉(zhuǎn)、平移、縮放等不變性。在CNN模型中一般常用的下采樣方法包括Mean-pooling和Max-pooling兩種。
(3)全連接層:全連接層通常由sigmodal神經(jīng)元或者RBF神經(jīng)元組成。一般網(wǎng)絡(luò)最后幾層為全連接層。為了降低特征的維度,最后一層的神經(jīng)元個(gè)數(shù)和輸入圖像種類數(shù)量相同。
對(duì)于傳統(tǒng)的標(biāo)定機(jī)器人,機(jī)器人本身位置的變動(dòng)對(duì)智能識(shí)別正確率有很大影響,而且識(shí)別正確率需要進(jìn)一步提高。AlexNet深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)對(duì)被分揀物體進(jìn)行識(shí)別,不僅可以提高識(shí)別正確率和訓(xùn)練速度,對(duì)自身位置的變動(dòng)也具有魯棒性。該網(wǎng)絡(luò)初始學(xué)習(xí)率較低會(huì)降低轉(zhuǎn)移層上的學(xué)習(xí)速度,本研究將完全連接層的學(xué)習(xí)速率因子設(shè)置為更高,以加快所設(shè)計(jì)的新的最終層的學(xué)習(xí),這種組合能更快地對(duì)新的分揀物體進(jìn)行識(shí)別,同時(shí)保持卷積層的架構(gòu)不變。AlexNet深度神經(jīng)網(wǎng)絡(luò)模型具有如圖2所示的8層結(jié)構(gòu):包括5個(gè)卷積層和3個(gè)全連接層,其中每一層又具有不同功能的子層。
2 基于深度學(xué)習(xí)的復(fù)雜分揀圖像快速識(shí)別方法
基于深度學(xué)習(xí)的復(fù)雜分揀圖像快速識(shí)別方法的流程如圖3所示。
2.1 復(fù)雜分揀圖像快速識(shí)別方法
為了針對(duì)物流分揀倉(cāng)庫(kù)環(huán)境復(fù)雜、照明度不高以及噪聲影響大的特點(diǎn),對(duì)采集到的訓(xùn)練圖片數(shù)據(jù)進(jìn)行了一系列圖像預(yù)處理,包括了用對(duì)偶樹(shù)復(fù)小波變換對(duì)其進(jìn)行降噪處理、平滑、灰度化圖像、濾波和銳化等預(yù)處理。
對(duì)于要構(gòu)建一個(gè)卷積神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別圖片,前期大量的訓(xùn)練數(shù)據(jù)是必不可少的,然后是構(gòu)建CNN網(wǎng)絡(luò)。CNN網(wǎng)絡(luò)包含以下圖層:
(1)imageInputLayer:圖像輸入層;
(2)convolutional2dLayer:CNN的2D卷積層;
(3)reluLayer:整流線性單元(ReLU)層;
(4)maxPooling2dLayer:最大池化層;
(5)fullyConnectedLayer:全連接層;
(6)softmaxLayer:Softmax層;
(7)classificationLayer:CNN的分類輸出層。
其中圖像輸入層的大小與訓(xùn)練集的大小相同,隨后定義網(wǎng)絡(luò)的中間層,中間層由重復(fù)的卷積、ReLU(整流線性單位)和池化層組成。這3層構(gòu)成了卷積神經(jīng)網(wǎng)絡(luò)的核心構(gòu)建模塊,卷積層定義了濾波器的權(quán)重集合,在被訓(xùn)練期間是會(huì)隨著訓(xùn)練不斷更新的。
對(duì)卷積層參數(shù)進(jìn)行設(shè)定,第一個(gè)卷積層有32個(gè)5×5×3的濾鏡,添加2個(gè)像素的對(duì)稱填充,以確保處理中包含圖像邊框,這對(duì)于避免在卷積層上過(guò)早消除邊界信息非常重要。其最終設(shè)計(jì)的卷積網(wǎng)絡(luò)如圖4所示。
使用標(biāo)準(zhǔn)偏差為0.000 1的正態(tài)分布隨機(jī)數(shù)初始化第一個(gè)卷積層權(quán)重,然后對(duì)設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練結(jié)束后可以得到第一層的權(quán)重可視化。通過(guò)數(shù)據(jù)集來(lái)對(duì)設(shè)計(jì)好的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,再對(duì)測(cè)試數(shù)據(jù)集進(jìn)行識(shí)別,得到的識(shí)別準(zhǔn)確率為74.56%。當(dāng)改變卷積核的大小時(shí)可以發(fā)現(xiàn)其對(duì)最終的識(shí)別準(zhǔn)確率存在影響,如表1所示。由表可以看出,在測(cè)試數(shù)據(jù)集上分類準(zhǔn)確率隨卷積核的增大而提高而后降低,原因可能是卷積核較大可能引起過(guò)擬合,對(duì)于池化區(qū)域,池化區(qū)域越大,采樣過(guò)程損失的信息就越多。
對(duì)于物流倉(cāng)庫(kù)的特定環(huán)境以及需要識(shí)別的指定物體,對(duì)AlexNet做了修改。對(duì)于一個(gè)新的分類問(wèn)題,AlexNet最后3層net配置為1 000個(gè)類,最后3層是全連接層、Softmax層和輸出分類層。這3層進(jìn)行調(diào)整,從預(yù)培訓(xùn)的網(wǎng)絡(luò)中提取出最后3個(gè)之外的所有層。根據(jù)新的數(shù)據(jù)指定新的完全連接的層的參數(shù)。將完全連接的層的輸出個(gè)數(shù)設(shè)置為與新數(shù)據(jù)中的類別數(shù)量相同。深度學(xué)習(xí)在進(jìn)行訓(xùn)練時(shí),可能會(huì)導(dǎo)致過(guò)擬合狀態(tài)的出現(xiàn)。因此增大訓(xùn)練集,同時(shí)在最后的全連接層添加dropout層,以0.5的概率將每個(gè)隱藏層神經(jīng)元的輸出設(shè)置為零。以這種“dropped out”方式的神經(jīng)元既不參與前向傳播,也不參與反向傳播。對(duì)該網(wǎng)絡(luò)每提出一個(gè)輸入,就對(duì)應(yīng)一個(gè)不同的結(jié)構(gòu),而所有這些結(jié)構(gòu)之間又共享權(quán)重,神經(jīng)元又相對(duì)獨(dú)立,使得這種技術(shù)降低了神經(jīng)元復(fù)雜的互相適應(yīng)關(guān)系,從而避免過(guò)擬合狀態(tài)的出現(xiàn)。
2.2 實(shí)驗(yàn)結(jié)果與分析
利用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)來(lái)適應(yīng)新的網(wǎng)絡(luò)分類任務(wù),當(dāng)面對(duì)不同倉(cāng)庫(kù)或者不同的分揀任務(wù)時(shí),需要大量的數(shù)據(jù)重新進(jìn)行學(xué)習(xí),在針對(duì)新的數(shù)據(jù)訓(xùn)練時(shí)可以使用少量的數(shù)據(jù)訓(xùn)練就能達(dá)到理想的效果。利用原有圖片訓(xùn)練好的網(wǎng)絡(luò)來(lái)檢測(cè)新的分類任務(wù),檢測(cè)被測(cè)試圖片是何種物體。圖5是用來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的新添加的訓(xùn)練圖片。
利用訓(xùn)練的圖片程序在運(yùn)行的過(guò)程中,不斷地學(xué)習(xí)分類圖片中的圖片信息特征。然后利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),并且改變卷積神經(jīng)網(wǎng)絡(luò)的最后分類輸出層,使其只能識(shí)別其輸入圖片類別。
經(jīng)過(guò)學(xué)習(xí)之后,利用測(cè)試集圖片來(lái)測(cè)試訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別效果,并且在圖片中標(biāo)記識(shí)別區(qū)域。利用MATLAB進(jìn)行仿真,結(jié)果如圖6所示。
由圖6結(jié)果可以看出,此深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)能夠有效準(zhǔn)確識(shí)別所規(guī)定的圖片,其識(shí)別準(zhǔn)確率較高,能夠滿足物流中心機(jī)器人識(shí)別分揀物體的效率,達(dá)到了預(yù)期效果。并且在訓(xùn)練數(shù)據(jù)足夠的情況下,準(zhǔn)確率還能再一步提高。本文中由于訓(xùn)練樣本和測(cè)試樣本均較少,只有數(shù)十張圖片,因此本文的測(cè)試結(jié)果均達(dá)到了100%的識(shí)別率。
3 結(jié)論
對(duì)于物流倉(cāng)庫(kù)的特定環(huán)境以及需要識(shí)別的指定物體,本文先用對(duì)偶樹(shù)復(fù)小波變換對(duì)其進(jìn)行降噪等預(yù)處理;然后在基于AlexNet神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,設(shè)計(jì)了一個(gè)適用于物流圖像識(shí)別的卷積神經(jīng)網(wǎng)絡(luò),對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的卷積層、ReLU層和池化層參數(shù)重新進(jìn)行定義來(lái)加快神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速度;最后針對(duì)于新的圖像分類任務(wù),對(duì)神經(jīng)網(wǎng)絡(luò)的最后3層全連接層、Softmax層和分類輸出層進(jìn)行定義來(lái)適應(yīng)新的圖像識(shí)別。該網(wǎng)絡(luò)在面對(duì)較為復(fù)雜的分揀圖像識(shí)別時(shí),有較高的訓(xùn)練速度和識(shí)別準(zhǔn)確率。
參考文獻(xiàn)
[1] 張娟.三維多媒體視覺(jué)圖像人工智能識(shí)別方法仿真[J].計(jì)算機(jī)仿真,2018,35(9):435-438.
[2] HINTON G E,SALAKHUTDINOV R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
[3] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C].NIPS.Curran Associates Inc.,2012.
[4] 白帆,曹昭睿.基于深度學(xué)習(xí)的白光-熱成像雙通道圖像識(shí)別系統(tǒng)設(shè)計(jì)[J].科學(xué)技術(shù)與工程,2018,18(21):264-267.
[5] 孫平安,祁俊,譚秋月.利用卷積神經(jīng)網(wǎng)絡(luò)改進(jìn)迭代深度學(xué)習(xí)算法的圖像識(shí)別方法研究[J].計(jì)算機(jī)應(yīng)用研究,2019,36(7):2223-2227.
[6] 戴鵬,王勝春,杜馨瑜,等.基于半監(jiān)督深度學(xué)習(xí)的無(wú)砟軌道扣件缺陷圖像識(shí)別方法[J].中國(guó)鐵道科學(xué),2018,39(4):43-49.
[7] 王貴槐,謝朔,初秀民,等.基于深度學(xué)習(xí)的水面無(wú)人船前方船只圖像識(shí)別方法[J].船舶工程,2018,40(4):19-22.
[8] 黃宏偉,李慶桐.基于深度學(xué)習(xí)的盾構(gòu)隧道滲漏水病害圖像識(shí)別[J].巖石力學(xué)與工程學(xué)報(bào),2017,36(12):2861-2871.
[9] 楊天祺,黃雙喜.改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)在分類與推薦中的實(shí)例應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2018,35(4):974-977.
[10] 張慧娜,李裕梅,傅鶯鶯.基于Haar-CNN模型的自然場(chǎng)景圖像分類的研究[J].四川師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,40(1):119-126.
[11] 許少尉,陳思宇.基于深度學(xué)習(xí)的圖像分類方法[J].電子技術(shù)應(yīng)用,2018,44(6):116-119.
[12] 蔣兆軍,成孝剛,彭雅琴,等.基于深度學(xué)習(xí)的無(wú)人機(jī)識(shí)別算法研究[J].電子技術(shù)應(yīng)用,2017,43(7):84-87.
[13] 周建凱,許盛之,趙二剛,等.基于深度學(xué)習(xí)的電池片缺陷識(shí)別研究[J].電子技術(shù)應(yīng)用,2019,45(5):66-69,77.
作者信息:
陳志新,董瑞雪,劉 鑫,王毅斌,梁世曉
(北京物資學(xué)院,北京101149)