《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于深度學(xué)習(xí)的復(fù)雜分揀圖像快速識(shí)別方法研究
基于深度學(xué)習(xí)的復(fù)雜分揀圖像快速識(shí)別方法研究
2020年電子技術(shù)應(yīng)用第2期
陳志新,董瑞雪,劉 鑫,王毅斌,梁世曉
北京物資學(xué)院,北京101149
摘要: 訓(xùn)練速度更快、識(shí)別精準(zhǔn)度更高的圖像識(shí)別技術(shù)一直是智能技術(shù)的研究熱點(diǎn)及前沿。針對(duì)物流分揀倉(cāng)庫(kù)環(huán)境復(fù)雜、照明度不高以及快遞外包裝區(qū)別不明顯的特點(diǎn),對(duì)基于深度學(xué)習(xí)的分揀圖像快速識(shí)別進(jìn)行了研究,設(shè)計(jì)了一個(gè)卷積神經(jīng)網(wǎng)絡(luò)。由于倉(cāng)庫(kù)的封閉環(huán)境和光照條件等因素而導(dǎo)致分揀圖像不是很清晰,首先用對(duì)偶樹(shù)復(fù)小波變換對(duì)其進(jìn)行降噪等預(yù)處理;然后在基于AlexNet神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的卷積層、ReLU層和池化層參數(shù)進(jìn)行重新定義來(lái)加快神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速度;最后根據(jù)新的圖像分類任務(wù)對(duì)神經(jīng)網(wǎng)絡(luò)的最后三層全連接層、Softmax層和分類輸出層進(jìn)行定義來(lái)適應(yīng)新的圖像識(shí)別。所提出的基于深度學(xué)習(xí)的快速分揀圖像識(shí)別方法在面對(duì)較為復(fù)雜的分揀圖像識(shí)別時(shí),有較高的訓(xùn)練速度和識(shí)別精準(zhǔn)度,能達(dá)到實(shí)驗(yàn)要求。分揀圖像快速識(shí)別對(duì)于提高無(wú)人倉(cāng)等場(chǎng)合下的物流效率具有重要意義。
中圖分類號(hào): TN919.8;TP391.41
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.190828
中文引用格式: 陳志新,董瑞雪,劉鑫,等. 基于深度學(xué)習(xí)的復(fù)雜分揀圖像快速識(shí)別方法研究[J].電子技術(shù)應(yīng)用,2020,46(2):71-75.
英文引用格式: Chen Zhixin,Dong Ruixue,Liu Xin,et al. Research on rapid recognition of complex sorting images based on deep learning[J]. Application of Electronic Technique,2020,46(2):71-75.
Research on rapid recognition of complex sorting images based on deep learning
Chen Zhixin,Dong Ruixue,Liu Xin,Wang Yibin,Liang Shixiao
Beijing Wuzi University,Beijing 101149,China
Abstract: Image recognition technology with faster training speed and higher recognition accuracy has always been the focus and frontier of intelligent technology research. Sorting image fast recognition is of great significance to improve logistics efficiency in unmanned warehouse and other occasions. The simulation of sorting image fast recognition based on deep learning is studied. A convolution neural network is designed. For the specific environment of logistics warehouse and the specified objects to be identified, the sorting image is not very clear because of the closed environment and illumination conditions of warehouse. Firstly, the dual tree complex wavelet transform is used to denoise the sorting image. Then, on the basis of AlexNet neural network, the convolution layer of convolution neural network is dealt with. ReLU layer and pooling layer parameters are redefined to speed up the learning speed of the neural network. Then, according to the new image classification task, the last three layers of the neural network are defined, which are full connection layer, Softmax layer and classification output layer, to adapt to the new image recognition. The proposed fast sorting image recognition technology based on depth learning has higher training speed and recognition accuracy in the face of more complex sorting image recognition.
Key words : deep learning;convolution neural network;image recognition;sorting

0 引言

    物品在出入庫(kù)時(shí)往往會(huì)用到分揀系統(tǒng),而在多品種單元物料自動(dòng)分揀系統(tǒng)中,基于機(jī)器視覺(jué)的智能識(shí)別技術(shù)應(yīng)用比較普遍,相關(guān)領(lǐng)域的核心技術(shù)研究在不斷地深入,其中研究訓(xùn)練速度更快、識(shí)別精準(zhǔn)度更高的智能識(shí)別技術(shù)一直是智能技術(shù)的研究熱點(diǎn)及前沿技術(shù)。張娟[1]提出一種基于稀疏表示算法的三維多媒體視覺(jué)圖像人工智能識(shí)別方法。深度學(xué)習(xí)作為近來(lái)機(jī)器學(xué)習(xí)領(lǐng)域的最新研究成果,在圖像處理領(lǐng)域有著強(qiáng)大的建模與表征能力,取得了突破成果。在各種深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)應(yīng)用最為廣泛,在圖像識(shí)別領(lǐng)域受到極大關(guān)注。它通過(guò)卷積計(jì)算逐層抽象圖片不同層次的語(yǔ)義,通過(guò)數(shù)據(jù)集的訓(xùn)練擬合調(diào)整各個(gè)卷積核的內(nèi)部參數(shù),從而在無(wú)監(jiān)督的條件下實(shí)現(xiàn)分類特征的抓取[2]。此后更深層次的AlexNet網(wǎng)絡(luò)[3]取得成功,此后卷積神經(jīng)網(wǎng)絡(luò)蓬勃發(fā)展,被廣泛用于各個(gè)領(lǐng)域,在很多問(wèn)題上都取得了當(dāng)前最好的性能。白帆[4]利用深度學(xué)習(xí)CNN對(duì)圖像進(jìn)行目標(biāo)識(shí)別;孫平安[5]提出一種融合CNN的改進(jìn)型迭代深度學(xué)習(xí)算法;戴鵬[6]提出基于半監(jiān)督深度學(xué)習(xí)的扣件缺陷圖像識(shí)別方法;王貴槐[7]通過(guò)建立船只單次多重檢測(cè)深度學(xué)習(xí)框架并微調(diào)分類框架實(shí)現(xiàn)較高的內(nèi)河船舶檢測(cè)準(zhǔn)確度;黃宏偉[8]提出一種基于全卷積網(wǎng)絡(luò)的隧道圖像識(shí)別算法;楊天祺[9]通過(guò)批量歸一化、改進(jìn)卷積層結(jié)構(gòu)、添加冗余分類器改進(jìn)了CNN,且增加圖片數(shù)量擴(kuò)增了訓(xùn)練集,從而提高分類精確度和速度;張慧娜[10]研究基于Haar小波變換-CNN的圖像特征提取用于自然場(chǎng)景圖像分類的問(wèn)題;許少尉[11]采用卷積神經(jīng)網(wǎng)絡(luò)提出基于深度學(xué)習(xí)的圖像分類方法;蔣兆軍[12]通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提出一種基于深度學(xué)習(xí)的無(wú)人機(jī)識(shí)別算法;周建凱[13]提出基于TensorFlow框架搭建卷積神經(jīng)網(wǎng)絡(luò)對(duì)電池片電致發(fā)光圖像進(jìn)行缺陷識(shí)別。在實(shí)際應(yīng)用中,2016年6月在京東集團(tuán)固安智能物流中心落地的京東智能分揀中心系統(tǒng),引入了智能分揀機(jī)和龍門架,實(shí)現(xiàn)了可以脫離人工操作的智能收貨和發(fā)貨,保證包裹分揀正確率達(dá)到使用要求。由此可見(jiàn),深度學(xué)習(xí)在分揀圖像快速識(shí)別領(lǐng)域有著很好的應(yīng)用前景。而物流分揀倉(cāng)庫(kù)環(huán)境復(fù)雜、照明度不高以及快遞外包裝區(qū)別不明顯,這些都對(duì)自動(dòng)分揀正確率產(chǎn)生影響,因此有必要研究基于深度學(xué)習(xí)的復(fù)雜分揀圖像快速識(shí)別方法。

1 深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)

    CNN是一種改進(jìn)的神經(jīng)網(wǎng)絡(luò),仍然是層級(jí)網(wǎng)絡(luò),但是層的功能和形式有了變化。一個(gè)CNN結(jié)構(gòu)主要由3種類型層級(jí)組成:卷積層、池化層和全連接層。卷積層后緊跟著池化層,最后是全連接層。這些層級(jí)按照?qǐng)D1所示,其中Ci代表卷積層,Si代表池化層。

jsj1-t1.gif

    (1)卷積層:是最重要的層,卷積計(jì)算是通過(guò)稀疏交互、參數(shù)共享、等變表示這3個(gè)重要的思想來(lái)改進(jìn)機(jī)器學(xué)習(xí)的。

    (2)池化層:卷積是為了解決前面無(wú)監(jiān)督特征學(xué)習(xí)計(jì)算復(fù)雜度的問(wèn)題,而下采樣則是為了后面有監(jiān)督特征分類器學(xué)習(xí)特征圖中重要的分類特征,忽略無(wú)關(guān)的細(xì)節(jié)。另外也減小了需要訓(xùn)練的特征參數(shù)的個(gè)數(shù),改善結(jié)果(不容易出現(xiàn)過(guò)擬合),使得特征保持旋轉(zhuǎn)、平移、縮放等不變性。在CNN模型中一般常用的下采樣方法包括Mean-pooling和Max-pooling兩種。

    (3)全連接層:全連接層通常由sigmodal神經(jīng)元或者RBF神經(jīng)元組成。一般網(wǎng)絡(luò)最后幾層為全連接層。為了降低特征的維度,最后一層的神經(jīng)元個(gè)數(shù)和輸入圖像種類數(shù)量相同。

    對(duì)于傳統(tǒng)的標(biāo)定機(jī)器人,機(jī)器人本身位置的變動(dòng)對(duì)智能識(shí)別正確率有很大影響,而且識(shí)別正確率需要進(jìn)一步提高。AlexNet深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)對(duì)被分揀物體進(jìn)行識(shí)別,不僅可以提高識(shí)別正確率和訓(xùn)練速度,對(duì)自身位置的變動(dòng)也具有魯棒性。該網(wǎng)絡(luò)初始學(xué)習(xí)率較低會(huì)降低轉(zhuǎn)移層上的學(xué)習(xí)速度,本研究將完全連接層的學(xué)習(xí)速率因子設(shè)置為更高,以加快所設(shè)計(jì)的新的最終層的學(xué)習(xí),這種組合能更快地對(duì)新的分揀物體進(jìn)行識(shí)別,同時(shí)保持卷積層的架構(gòu)不變。AlexNet深度神經(jīng)網(wǎng)絡(luò)模型具有如圖2所示的8層結(jié)構(gòu):包括5個(gè)卷積層和3個(gè)全連接層,其中每一層又具有不同功能的子層。

jsj1-t2.gif

2 基于深度學(xué)習(xí)的復(fù)雜分揀圖像快速識(shí)別方法

    基于深度學(xué)習(xí)的復(fù)雜分揀圖像快速識(shí)別方法的流程如圖3所示。

jsj1-t3.gif

2.1 復(fù)雜分揀圖像快速識(shí)別方法

    為了針對(duì)物流分揀倉(cāng)庫(kù)環(huán)境復(fù)雜、照明度不高以及噪聲影響大的特點(diǎn),對(duì)采集到的訓(xùn)練圖片數(shù)據(jù)進(jìn)行了一系列圖像預(yù)處理,包括了用對(duì)偶樹(shù)復(fù)小波變換對(duì)其進(jìn)行降噪處理、平滑、灰度化圖像、濾波和銳化等預(yù)處理。

    對(duì)于要構(gòu)建一個(gè)卷積神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別圖片,前期大量的訓(xùn)練數(shù)據(jù)是必不可少的,然后是構(gòu)建CNN網(wǎng)絡(luò)。CNN網(wǎng)絡(luò)包含以下圖層:

    (1)imageInputLayer:圖像輸入層;

    (2)convolutional2dLayer:CNN的2D卷積層;

    (3)reluLayer:整流線性單元(ReLU)層;

    (4)maxPooling2dLayer:最大池化層;

    (5)fullyConnectedLayer:全連接層;

    (6)softmaxLayer:Softmax層;

    (7)classificationLayer:CNN的分類輸出層。

    其中圖像輸入層的大小與訓(xùn)練集的大小相同,隨后定義網(wǎng)絡(luò)的中間層,中間層由重復(fù)的卷積、ReLU(整流線性單位)和池化層組成。這3層構(gòu)成了卷積神經(jīng)網(wǎng)絡(luò)的核心構(gòu)建模塊,卷積層定義了濾波器的權(quán)重集合,在被訓(xùn)練期間是會(huì)隨著訓(xùn)練不斷更新的。

    對(duì)卷積層參數(shù)進(jìn)行設(shè)定,第一個(gè)卷積層有32個(gè)5×5×3的濾鏡,添加2個(gè)像素的對(duì)稱填充,以確保處理中包含圖像邊框,這對(duì)于避免在卷積層上過(guò)早消除邊界信息非常重要。其最終設(shè)計(jì)的卷積網(wǎng)絡(luò)如圖4所示。

jsj1-t4.gif

    使用標(biāo)準(zhǔn)偏差為0.000 1的正態(tài)分布隨機(jī)數(shù)初始化第一個(gè)卷積層權(quán)重,然后對(duì)設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練結(jié)束后可以得到第一層的權(quán)重可視化。通過(guò)數(shù)據(jù)集來(lái)對(duì)設(shè)計(jì)好的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,再對(duì)測(cè)試數(shù)據(jù)集進(jìn)行識(shí)別,得到的識(shí)別準(zhǔn)確率為74.56%。當(dāng)改變卷積核的大小時(shí)可以發(fā)現(xiàn)其對(duì)最終的識(shí)別準(zhǔn)確率存在影響,如表1所示。由表可以看出,在測(cè)試數(shù)據(jù)集上分類準(zhǔn)確率隨卷積核的增大而提高而后降低,原因可能是卷積核較大可能引起過(guò)擬合,對(duì)于池化區(qū)域,池化區(qū)域越大,采樣過(guò)程損失的信息就越多。

jsj1-b1.gif

    對(duì)于物流倉(cāng)庫(kù)的特定環(huán)境以及需要識(shí)別的指定物體,對(duì)AlexNet做了修改。對(duì)于一個(gè)新的分類問(wèn)題,AlexNet最后3層net配置為1 000個(gè)類,最后3層是全連接層、Softmax層和輸出分類層。這3層進(jìn)行調(diào)整,從預(yù)培訓(xùn)的網(wǎng)絡(luò)中提取出最后3個(gè)之外的所有層。根據(jù)新的數(shù)據(jù)指定新的完全連接的層的參數(shù)。將完全連接的層的輸出個(gè)數(shù)設(shè)置為與新數(shù)據(jù)中的類別數(shù)量相同。深度學(xué)習(xí)在進(jìn)行訓(xùn)練時(shí),可能會(huì)導(dǎo)致過(guò)擬合狀態(tài)的出現(xiàn)。因此增大訓(xùn)練集,同時(shí)在最后的全連接層添加dropout層,以0.5的概率將每個(gè)隱藏層神經(jīng)元的輸出設(shè)置為零。以這種“dropped out”方式的神經(jīng)元既不參與前向傳播,也不參與反向傳播。對(duì)該網(wǎng)絡(luò)每提出一個(gè)輸入,就對(duì)應(yīng)一個(gè)不同的結(jié)構(gòu),而所有這些結(jié)構(gòu)之間又共享權(quán)重,神經(jīng)元又相對(duì)獨(dú)立,使得這種技術(shù)降低了神經(jīng)元復(fù)雜的互相適應(yīng)關(guān)系,從而避免過(guò)擬合狀態(tài)的出現(xiàn)。

2.2 實(shí)驗(yàn)結(jié)果與分析

    利用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)來(lái)適應(yīng)新的網(wǎng)絡(luò)分類任務(wù),當(dāng)面對(duì)不同倉(cāng)庫(kù)或者不同的分揀任務(wù)時(shí),需要大量的數(shù)據(jù)重新進(jìn)行學(xué)習(xí),在針對(duì)新的數(shù)據(jù)訓(xùn)練時(shí)可以使用少量的數(shù)據(jù)訓(xùn)練就能達(dá)到理想的效果。利用原有圖片訓(xùn)練好的網(wǎng)絡(luò)來(lái)檢測(cè)新的分類任務(wù),檢測(cè)被測(cè)試圖片是何種物體。圖5是用來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的新添加的訓(xùn)練圖片。

jsj1-t5.gif

    利用訓(xùn)練的圖片程序在運(yùn)行的過(guò)程中,不斷地學(xué)習(xí)分類圖片中的圖片信息特征。然后利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),并且改變卷積神經(jīng)網(wǎng)絡(luò)的最后分類輸出層,使其只能識(shí)別其輸入圖片類別。

    經(jīng)過(guò)學(xué)習(xí)之后,利用測(cè)試集圖片來(lái)測(cè)試訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別效果,并且在圖片中標(biāo)記識(shí)別區(qū)域。利用MATLAB進(jìn)行仿真,結(jié)果如圖6所示。

jsj1-t6.gif

    由圖6結(jié)果可以看出,此深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)能夠有效準(zhǔn)確識(shí)別所規(guī)定的圖片,其識(shí)別準(zhǔn)確率較高,能夠滿足物流中心機(jī)器人識(shí)別分揀物體的效率,達(dá)到了預(yù)期效果。并且在訓(xùn)練數(shù)據(jù)足夠的情況下,準(zhǔn)確率還能再一步提高。本文中由于訓(xùn)練樣本和測(cè)試樣本均較少,只有數(shù)十張圖片,因此本文的測(cè)試結(jié)果均達(dá)到了100%的識(shí)別率。

3 結(jié)論

    對(duì)于物流倉(cāng)庫(kù)的特定環(huán)境以及需要識(shí)別的指定物體,本文先用對(duì)偶樹(shù)復(fù)小波變換對(duì)其進(jìn)行降噪等預(yù)處理;然后在基于AlexNet神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,設(shè)計(jì)了一個(gè)適用于物流圖像識(shí)別的卷積神經(jīng)網(wǎng)絡(luò),對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的卷積層、ReLU層和池化層參數(shù)重新進(jìn)行定義來(lái)加快神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速度;最后針對(duì)于新的圖像分類任務(wù),對(duì)神經(jīng)網(wǎng)絡(luò)的最后3層全連接層、Softmax層和分類輸出層進(jìn)行定義來(lái)適應(yīng)新的圖像識(shí)別。該網(wǎng)絡(luò)在面對(duì)較為復(fù)雜的分揀圖像識(shí)別時(shí),有較高的訓(xùn)練速度和識(shí)別準(zhǔn)確率。

參考文獻(xiàn)

[1] 張娟.三維多媒體視覺(jué)圖像人工智能識(shí)別方法仿真[J].計(jì)算機(jī)仿真,2018,35(9):435-438.

[2] HINTON G E,SALAKHUTDINOV R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.

[3] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C].NIPS.Curran Associates Inc.,2012.

[4] 白帆,曹昭睿.基于深度學(xué)習(xí)的白光-熱成像雙通道圖像識(shí)別系統(tǒng)設(shè)計(jì)[J].科學(xué)技術(shù)與工程,2018,18(21):264-267.

[5] 孫平安,祁俊,譚秋月.利用卷積神經(jīng)網(wǎng)絡(luò)改進(jìn)迭代深度學(xué)習(xí)算法的圖像識(shí)別方法研究[J].計(jì)算機(jī)應(yīng)用研究,2019,36(7):2223-2227.

[6] 戴鵬,王勝春,杜馨瑜,等.基于半監(jiān)督深度學(xué)習(xí)的無(wú)砟軌道扣件缺陷圖像識(shí)別方法[J].中國(guó)鐵道科學(xué),2018,39(4):43-49.

[7] 王貴槐,謝朔,初秀民,等.基于深度學(xué)習(xí)的水面無(wú)人船前方船只圖像識(shí)別方法[J].船舶工程,2018,40(4):19-22.

[8] 黃宏偉,李慶桐.基于深度學(xué)習(xí)的盾構(gòu)隧道滲漏水病害圖像識(shí)別[J].巖石力學(xué)與工程學(xué)報(bào),2017,36(12):2861-2871.

[9] 楊天祺,黃雙喜.改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)在分類與推薦中的實(shí)例應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2018,35(4):974-977.

[10] 張慧娜,李裕梅,傅鶯鶯.基于Haar-CNN模型的自然場(chǎng)景圖像分類的研究[J].四川師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,40(1):119-126.

[11] 許少尉,陳思宇.基于深度學(xué)習(xí)的圖像分類方法[J].電子技術(shù)應(yīng)用,2018,44(6):116-119.

[12] 蔣兆軍,成孝剛,彭雅琴,等.基于深度學(xué)習(xí)的無(wú)人機(jī)識(shí)別算法研究[J].電子技術(shù)應(yīng)用,2017,43(7):84-87.

[13] 周建凱,許盛之,趙二剛,等.基于深度學(xué)習(xí)的電池片缺陷識(shí)別研究[J].電子技術(shù)應(yīng)用,2019,45(5):66-69,77.



作者信息:

陳志新,董瑞雪,劉  鑫,王毅斌,梁世曉

(北京物資學(xué)院,北京101149)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。