123,123

基于機器視覺的智能導(dǎo)盲眼鏡設(shè)計

2017年電子技術(shù)應(yīng)用第4期

何騰鵬，張榮芬，劉超，房樂楠，劉宇紅

貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院，貴州貴陽550025

摘要： 提出一種基于機器視覺的智能導(dǎo)盲眼鏡系統(tǒng)的設(shè)計方案。采用三星公司Cortex-A8架構(gòu)的 S5PV210作為中央處理器，搭載Linux系統(tǒng)，配備雙目采集、GPS定位、語音播報、GSM短信、語音通話、無線傳輸六大核心功能模塊搭建智能導(dǎo)盲眼鏡系統(tǒng)的硬件平臺，結(jié)合深度學(xué)習(xí)算法在遠(yuǎn)程云服務(wù)器上完成了對目標(biāo)場景的智能識別，最后以語音的形式實時對盲人的行走作出準(zhǔn)確引導(dǎo)。系統(tǒng)測試結(jié)果表明，該智能導(dǎo)盲眼鏡系統(tǒng)在測試環(huán)境下不僅能對盲人出行正確導(dǎo)航，還具有一定的目標(biāo)識別能力，能幫助盲人進行簡易物品歸類。該系統(tǒng)還兼有GPS定位、語音通話、GSM短信等多項輔助功能。

關(guān)鍵詞： 機器視覺 Cortex-A8 雙目采集智能識別

中圖分類號： TN929
文獻(xiàn)標(biāo)識碼： A
DOI：10.16157/j.issn.0258-7998.2017.04.015
中文引用格式： 何騰鵬，張榮芬，劉超，等. 基于機器視覺的智能導(dǎo)盲眼鏡設(shè)計[J].電子技術(shù)應(yīng)用，2017，43(4)：58-61.
英文引用格式： He Tengpeng，Zhang Rongfen，Liu Chao，et al. Design of smart seeing glasses based on machine vision[J].Application of Electronic Technique，2017，43(4)：58-61.

Design of smart seeing glasses based on machine vision

He Tengpeng，Zhang Rongfen，Liu Chao，F(xiàn)ang Lenan，Liu Yuhong

College of Big Data and Information Engineering，Guizhou University，Guiyang 550025，China

Abstract： A system of smart seeing glasses based on machine vision was proposed and designed in this work. Using Samsung Cortex-A8 architecture S5PV210 as the central processor, running on the Linux system, equipping six core modules of binocular acquisition, GPS, voice broadcast, GSM SMS, voice calls and wireless transmission were equipped to build smart seeing glasses systems hardware platform. Then after completing the target scene identification on a remote cloud server through deep learning algorithm, at last, the accurate voice guide for the blind walking in real time was implemented actually. The system test results show that the smart glasses system is not only able to make the right travel guide for the blind, it also has a certain ability to identify simple objects, which can help the blind make a simple items classification. In addition, this system also has GPS positioning, voice calls, GSM SMS and many other auxiliary functions.

Key words : machine vision；Cortex-A8；binocular collection；smart identification

0 引言

據(jù)世界衛(wèi)生組織統(tǒng)計，截至目前全球約有盲人7 800萬，其中90%生活在發(fā)展中國家，中國現(xiàn)有盲人數(shù)量占據(jù)世界盲人總數(shù)的18%，多達(dá)1 400萬。盲人作為社會中的一種弱勢群體，視力殘疾、眼部疾病給其生活帶來了諸多不便。另一方面，近年來隨著我國老齡化人口的持續(xù)增多，視力障礙者數(shù)量也在急劇上升，如何保障盲人群體及視障人士安全有效地出行顯得尤為重要。為此，本文設(shè)計了一種基于機器視覺^[1]的智能導(dǎo)盲眼鏡，旨在幫助盲人朋友在行走過程中，安全、有效地避開道路上的目標(biāo)障礙物，盡最大可能地保障其出行安全。相較于市場上導(dǎo)盲效率不理想的導(dǎo)盲手杖和價格昂貴的導(dǎo)盲犬，基于機器視覺的智能導(dǎo)盲眼鏡系統(tǒng)更具競爭力。

1 智能導(dǎo)盲眼鏡控制系統(tǒng)的總體設(shè)計

本文的智能導(dǎo)盲眼鏡控制系統(tǒng)由前端嵌入式采集傳輸系統(tǒng)和遠(yuǎn)程云平臺服務(wù)器兩大部分組成。嵌入式采集傳輸系統(tǒng)以三星Cortex-A8架構(gòu)的S5PV210處理器為載體，搭載Linux內(nèi)核，配備雙目采集、GPS定位、語音播報、GSM短信、語音通話、無線傳輸?shù)群诵墓δ苣K搭建智能導(dǎo)盲眼鏡系統(tǒng)的硬件平臺，主要完成信息采集傳輸和智能指令導(dǎo)盲功能。云平臺服務(wù)器作為智能導(dǎo)盲眼鏡的遠(yuǎn)程數(shù)據(jù)處理中心，在服務(wù)器配置上，選用阿里云作為云端服務(wù)器，再融入深度學(xué)習(xí)、雙目測距^[2]等相關(guān)算法，實現(xiàn)對智能導(dǎo)盲眼鏡前端場景目標(biāo)的圖像識別、距離檢測和方位判斷。此外該服務(wù)器還構(gòu)建了GPS衛(wèi)星數(shù)據(jù)匹配平臺，結(jié)合智能導(dǎo)盲眼鏡實體，能對眼鏡使用者進行實時有效地定位。本系統(tǒng)的總體設(shè)計框圖如圖1所示。

2 智能導(dǎo)盲眼鏡控制系統(tǒng)硬件設(shè)計

2.1 雙目采集模塊設(shè)計

雙目采集模塊選用兩個性能參數(shù)完全一致的CMOS高清攝像頭，用于智能導(dǎo)盲眼鏡前方場景信息的采集，幫助盲人獲取前方目標(biāo)和相應(yīng)的場景信息。

2.2 GPS定位模塊設(shè)計

全球定位系統(tǒng)(GPS)能為全球用戶提供低成本、高精度的三維位置，可在全球范圍內(nèi)進行全天候、全方位的實時定位。系統(tǒng)選用瑞士Ublox公司的NEO-6M模組作為GPS模塊的核心單元，主要用于實時獲取盲人所在地理位置的經(jīng)緯度坐標(biāo)。

2.3 無線通信傳輸模塊設(shè)計

無線通信傳輸模塊主要由3G芯片和對應(yīng)的外圍電路組成，采用3G無線技術(shù)，實現(xiàn)智能導(dǎo)盲眼鏡與遠(yuǎn)程云平臺服務(wù)器的雙向通信。一方面將雙目攝像頭模塊采集到的圖片以及GPS模塊獲取到的地理位置坐標(biāo)信息通過3G網(wǎng)絡(luò)發(fā)到遠(yuǎn)端云服務(wù)器平臺，另一方面將服務(wù)器的圖片識別和地理位置配對結(jié)果反送回來傳遞給智能導(dǎo)盲眼鏡，進行語音播報，把結(jié)果實時告訴給盲人。同時利用3G模塊的GSM短信功能，智能導(dǎo)盲眼鏡系統(tǒng)也會將從云服務(wù)器端獲取的結(jié)果，以短消息的形式及時告知盲人家屬。另外，在特殊情況下，盲人也可利用3G的電話功能直接與親屬間進行語音通話。圖2為無線通信傳輸模塊的應(yīng)用電路圖。

2.4 語音播報模塊設(shè)計

智能導(dǎo)盲眼鏡控制系統(tǒng)的語音播報功能主要用于將導(dǎo)盲眼鏡前方目標(biāo)的圖片識別結(jié)果、距離、方位信息以及所處的地理位置通過語音模塊播放出來，及時告知盲人所處的周圍環(huán)境狀況。系統(tǒng)選用SYN6288中文語音合成芯片作為語音播報模塊的主體，實現(xiàn)文本到聲音的轉(zhuǎn)換，其外圍電路如圖3所示。

3 智能導(dǎo)盲眼鏡控制系統(tǒng)的軟件設(shè)計

本系統(tǒng)的軟件設(shè)計分為遠(yuǎn)端云平臺服務(wù)器上的程序設(shè)計和智能導(dǎo)盲眼鏡前端的程序設(shè)計兩部分。遠(yuǎn)程云平臺服務(wù)器上的軟件設(shè)計主要是采用C/C++等高級編程語言將圖片的識別、測距、方位檢測等相關(guān)算法轉(zhuǎn)換成計算機系統(tǒng)能夠識別的程序指令，從而實現(xiàn)智能導(dǎo)盲眼鏡遠(yuǎn)程云服務(wù)器的識別、測距、方位檢測等功能。另外GPS的經(jīng)緯度解析也在云服務(wù)器上通過軟件編程實現(xiàn)。導(dǎo)盲眼鏡前端軟件設(shè)計主要包括雙目攝像頭的圖片采集、GPS地理位置坐標(biāo)的獲取、無線通信傳輸模塊的數(shù)據(jù)傳輸與接收、語音播報模塊的調(diào)度和按鍵中斷的配置等功能模塊子程序的編寫，其主程序流程圖如圖4所示。

4 基于深度信念網(wǎng)絡(luò)的自然場景識別

深度信念網(wǎng)絡(luò)（Deep Belief Network，DBN）^[3]作為深度學(xué)習(xí)中最為廣泛應(yīng)用的一種算法模型，多應(yīng)用于手寫字體識別和自然場景識別這兩個方向。在智能導(dǎo)盲眼鏡控制系統(tǒng)中，深度信念網(wǎng)絡(luò)主要用在自然場景中常見的物體識別上，這也是深度學(xué)習(xí)在機器視覺領(lǐng)域中的一種應(yīng)用體現(xiàn)。圖5是一個典型的深度信念網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)模型。

從圖5可以看出，深度信念網(wǎng)絡(luò)是由多個受限制玻爾茲曼機（Restricted Boltzmann Machines，RBM）^[4]組成的深層網(wǎng)絡(luò)，在這個網(wǎng)絡(luò)中，DBN的訓(xùn)練過程采用逐層訓(xùn)練的方法，每一層RBM都單獨訓(xùn)練，參數(shù)也是單獨調(diào)整^[5]。訓(xùn)練完一層后，將該層的訓(xùn)練結(jié)果作為下一層RBM的輸入，直至每一層RBM都訓(xùn)練完成，這個過程稱之為預(yù)訓(xùn)練。當(dāng)深度信念網(wǎng)絡(luò)中的所有RBM訓(xùn)練完成后，再根據(jù)樣本的標(biāo)簽值，采用反向傳播算法向后微調(diào)。

在智能導(dǎo)盲眼鏡的圖像訓(xùn)練過程中，采用改進型的CIFAR-10自然場景庫作為測試訓(xùn)練樣本。原始的CIFAR-10數(shù)據(jù)集有60 000張32×32的彩色圖像，分為飛機、汽車、貓、鳥、鹿、狗、青蛙、馬、船和卡車共10類。為了增強智能導(dǎo)盲眼鏡的實用性，結(jié)合盲人的特殊情況，本文在實際的系統(tǒng)圖像訓(xùn)練中，加入了餐桌、椅子、人、垃圾桶、樹木等生活中常見的一些目標(biāo)場景，對原始的CIFAR-10自然場景庫進行了改進，然后采用改進型的CIFAR-10自然場景庫通過圖6所示的深度信念網(wǎng)絡(luò)模型進行訓(xùn)練識別。

在上述訓(xùn)練模型中，改進型CIFAR-10自然場景庫中每張圖均為32×32的彩色圖片，因此輸入層大小為3 072個結(jié)點(3 072=32×32×3)，兩個隱含層節(jié)點數(shù)分別為1 000和200，在經(jīng)過面向多元分類的Softmax分類器^[6]后輸出層為10個單元，系統(tǒng)最終模型結(jié)構(gòu)為3072-1000-200-10。在智能導(dǎo)盲眼鏡系統(tǒng)實際的圖像訓(xùn)練階段，訓(xùn)練模型中的兩層RBM的訓(xùn)練迭代次數(shù)都設(shè)置為200，學(xué)習(xí)率都設(shè)置成0.1。訓(xùn)練完成后，將系統(tǒng)學(xué)習(xí)到的權(quán)重用于初始化神經(jīng)網(wǎng)絡(luò)，對網(wǎng)絡(luò)參數(shù)進行參數(shù)微調(diào)，并用Sigmoid函數(shù)^[7]激活神經(jīng)網(wǎng)絡(luò)。系統(tǒng)訓(xùn)練過程中，由于樣本繁多，數(shù)據(jù)繁雜，隱含層需要相對較多的節(jié)點數(shù)才能學(xué)習(xí)到較好的特征，加之圖片本身信息量大，需要較多次的迭代，整個訓(xùn)練過程平均歷時10個小時，這與深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)^[8]以及自動編碼模型^[9]相比，訓(xùn)練時間大幅度縮短，并且還具有較為理想的識別率，這也是本系統(tǒng)選用深度信念網(wǎng)絡(luò)作為識別訓(xùn)練模型的主要原因。

5 系統(tǒng)測試結(jié)果與分析

采用上述的深度信念網(wǎng)絡(luò)訓(xùn)練模型先對改進型CIFAR-10庫中的10 000張測試圖片隨機進行了示范性測試，表1所示為各類樣本的識別率和平均識別率。

從表1可以看出改進型CIFAR-10庫中的10類測試樣本通過導(dǎo)盲眼鏡系統(tǒng)的深度信念網(wǎng)絡(luò)訓(xùn)練模型后，其平均識別率為82.9%，與基于支持向量機^[10]訓(xùn)練識別模型的識別率相比，其平均識別率超出了支持向量機模型的近10%，為進一步的智能導(dǎo)盲眼鏡整體系統(tǒng)測試奠定了基礎(chǔ)。最后，針對盲人的生活需要，結(jié)合智能導(dǎo)盲眼鏡的其他功能，對智能導(dǎo)盲眼鏡控制系統(tǒng)在實際場景中進行了系統(tǒng)聯(lián)調(diào)，其中雙目攝像頭的采集幀率設(shè)置為3幀/s，語音導(dǎo)航頻率設(shè)定為每兩秒鐘導(dǎo)盲一次，遠(yuǎn)程服務(wù)器端測試結(jié)果如圖7、圖8所示。通過圖7可以看出智能導(dǎo)盲眼鏡的GPS功能能實時、準(zhǔn)確地獲取佩戴導(dǎo)盲眼鏡用戶的經(jīng)緯度，并通過無線通信傳輸模塊送至遠(yuǎn)程服務(wù)器，進行地理位置的準(zhǔn)確匹對。圖8顯示該智能導(dǎo)盲眼鏡在實際場景中，不僅能較準(zhǔn)確識別出前方目標(biāo)的類別，還能測出目標(biāo)物體到導(dǎo)盲眼鏡的距離，正確表示出障礙物的方位特征，并在眼鏡端實時以語音導(dǎo)盲的形式幫助盲人及時有效地避開障礙物，從而保障了盲人的安全出行。

6 結(jié)語

本系統(tǒng)以S5PV210為主控制器搭建基于機器視覺的智能導(dǎo)盲眼鏡，通過搭載Linux內(nèi)核，配備雙目采集、GPS定位、語音播報、GSM短信、語音通話、無線傳輸六大核心功能模塊組成系統(tǒng)，完成了系統(tǒng)的硬件電路設(shè)計和軟件設(shè)計。通過系統(tǒng)測試，該智能導(dǎo)盲眼鏡不僅能對盲人的獨立出行進行實時語音導(dǎo)航，而且在特殊情況下，盲人可以通過智能眼鏡上的觸發(fā)按鍵，使用導(dǎo)盲眼鏡的GPS、GSM短信、語音通話等功能，及時向親朋好友獲取幫助。另外由于智能導(dǎo)盲眼鏡還具有圖像識別能力，能幫助盲人進行簡易物品歸類，在一定程度上也使盲人的生活自理能力得以提升，這對于盲人基數(shù)較大的中國而言，顯得尤為重要。

參考文獻(xiàn)

[1] Milan Sonka，Vaclav Hlavac，Roger Boyle，等.圖像處理、分析與機器視覺[M].北京：清華大學(xué)出版社，2016.

[2] 岳榮剛，王少萍，李凱，等.基于相似原理的新型雙目測距法[J].光電工程，2008，35(4)：64-68.

[3] 陳翠平.基于深度信念網(wǎng)絡(luò)的文本分類算法[J].計算機系統(tǒng)應(yīng)用，2015，24(2)：121-126.

[4] 張春霞，姬楠楠，王冠偉.受限波爾茲曼機簡介[J].工程數(shù)學(xué)學(xué)報，2013(2)：159-173.

[5] HINTON G E，SRIVASTAVA N，KRIZHEVSKY A，et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science，2012，3(4)：212-223.

[6] 王爽，馬文萍，謝慧明，等.一種基于棧式編碼和softmax的極化SAR圖像分類方法[P].CN104156728A，2014.

[7] 張雪偉，王焱.基于Sigmoid函數(shù)參數(shù)調(diào)整的雙隱層BP神經(jīng)網(wǎng)絡(luò)的板形預(yù)測[J].化工自動化及儀表，2010，37(4)：42-44.

[8] 陳先昌.基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法與應(yīng)用研究[D].杭州：浙江工商大學(xué)，2013.

[9] 吳海燕.基于自動編碼器的半監(jiān)督表示學(xué)習(xí)與分類學(xué)習(xí)研究[D].重慶：重慶大學(xué)，2015.

[10] 崔鵬宇.基于支持向量機的分類器訓(xùn)練研究[J].數(shù)字技術(shù)與應(yīng)用，2016(6)：58-58.

作者信息:

何騰鵬，張榮芬，劉超，房樂楠，劉宇紅

(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院，貴州貴陽550025)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容