摘 要: 提出了一種基于多權(quán)值神經(jīng)網(wǎng)絡(luò)模型的靜態(tài)手勢語識別方法。應(yīng)用手勢字母圖像圓周極徑序列的傅立葉頻譜信息來提取特征,再結(jié)合多權(quán)值神經(jīng)網(wǎng)絡(luò)的訓(xùn)練算法與識別算法,實現(xiàn)靜態(tài)手勢字母的識別,并取得了很好的識別效果。
關(guān)鍵詞: 多權(quán)值神經(jīng)元; 人機(jī)交互; 手勢識別; 手勢字母
隨著計算機(jī)技術(shù)的飛速發(fā)展,人機(jī)交互技術(shù)由先前的以計算機(jī)為中心逐漸向以人為中心轉(zhuǎn)移。人的運(yùn)動分析[1]已經(jīng)成為人機(jī)交互和識別領(lǐng)域中的主要研究方向之一,各種先進(jìn)的人機(jī)交互技術(shù)不斷涌現(xiàn),包括人臉識別、面部表情識別、頭部運(yùn)動跟蹤、唇讀、手勢識別及體語識別。其中手勢識別是一種比較直觀、自然、易于學(xué)習(xí)的交互手段,人們以手直接為計算機(jī)輸入設(shè)備,省去人機(jī)通信媒體以實現(xiàn)機(jī)器控制的目的[2];此外,對手勢識別的研究有助于提高計算機(jī)的人類語言理解水平,加強(qiáng)人機(jī)接口的實用性,有助于改善與提高聾啞人的生活學(xué)習(xí)條件。目前研究的手勢識別系統(tǒng)主要分為基于數(shù)據(jù)手套的和基于視覺的兩類,前者給使用者帶來一定程度上的不便,而后者已逐漸成為計算機(jī)視覺及人機(jī)交互領(lǐng)域里的一個研究熱點。由于視覺本身的不穩(wěn)定性,給識別算法帶來挑戰(zhàn)與難度[3]。在基于視覺手勢識別的研究中,識別較高的多為從手區(qū)的幾何特征來識別,如手指、手指方向、手的外廓等。就識別方法而言,主要有神經(jīng)網(wǎng)絡(luò)[4]、隱馬爾可夫模(HMM)與模板匹配等。GROBEL K和ASSAM M等人從視頻錄像中提取特征,并應(yīng)用HMM技術(shù)識別262個孤立詞,正確識別率達(dá)91.3%[5]。TRIESCH J等人使用彈性曲線匹配的方法,在復(fù)雜背景下實現(xiàn)手勢識別,正確率達(dá)85%,但該算法較為復(fù)雜,計算量大[6]。
本文提出應(yīng)用多權(quán)值神經(jīng)網(wǎng)絡(luò)[7-8]方法對靜態(tài)手勢進(jìn)行識別,對手勢字母圖像采用傅里葉描述子提取特征信息,取低頻信息成分構(gòu)建成32維特征向量,并應(yīng)用多權(quán)值神經(jīng)網(wǎng)絡(luò)的算法,構(gòu)建各類的神經(jīng)元網(wǎng)絡(luò)對圖1中的22個手勢字母(a,æ , b, c, d, e, f, g, i, k, l, n, o, q, r, s, t, u, v, w, x ,y)共440個樣本(獨立測試集)作識別研究,正確識別率達(dá)97.95%,取得了理想的效果。

1 材料與特征提取

實驗表明,當(dāng)n=32時,即取前32個諧波分量足以描述手勢字母的外形輪廓,因此本實驗取前32個諧波分量作為表征該樣本的特征向量。
2 多權(quán)值神經(jīng)網(wǎng)絡(luò)


2.2 識別算法

3 實驗與結(jié)果分析
本研究的數(shù)據(jù)集分訓(xùn)練樣本集與獨立測試樣本集,22類手勢字母,每類40個,共880個樣本。在識別過程中,為研究該識別模型的識別能力,將每類訓(xùn)練樣本逐次減少原來的20%,保留獨立測試集不變,如表1所示。
從識別結(jié)果上分析,隨著每類訓(xùn)練樣本數(shù)減少,正確識別率依次下降的幅度比較小。取每類訓(xùn)練樣本數(shù)Num=20時,正確識別率為97.95%,其余的對應(yīng)結(jié)果如圖2所示。

實驗結(jié)果表明,隨著每類訓(xùn)練樣本數(shù)的下降,該模型的正確識別還保持相對高的程度,當(dāng)取Num=4時,其對應(yīng)的正確識別率為85.45%,這說明該模型具備很好的穩(wěn)定性,對訓(xùn)練樣本數(shù)不很敏感。
本文研究的手勢字母識別特征提取采用傅里葉描述子的方法,因為該方法具有圖像旋轉(zhuǎn)、平移不變性的特點,結(jié)合類似人類認(rèn)知方法的識別方法,即采用覆蓋思想的識別機(jī)制[10],取得了很好的識別效果。實驗證明,該方法在靜態(tài)手勢字母語識別問題上具有可行性,為手勢圖像識別等提供了一種有效的途徑。
參考文獻(xiàn)
[1] 王亮, 胡衛(wèi)明, 譚鐵牛.人運(yùn)動的視覺分析綜述[J].計算機(jī)學(xué)報, 2002,25(3):225-237.
[2] 鄒晨,張樹有,譚建榮,等. VR環(huán)境中產(chǎn)品設(shè)計手勢的定義與合成[J]. 工程圖學(xué)學(xué)報, 2002,21(2):107-110.
[3] 吳江琴, 高文. 基于數(shù)據(jù)手套的漢語手指字母識別[J]. 模式識別與人工智能, 1999,12(1):74-78.
[4] 鄧志國. 基于BP神經(jīng)網(wǎng)絡(luò)的靜態(tài)手勢識別的方法[J]. 華東交通大學(xué)學(xué)報, 2005, 22(5): 86-88.
[5] GROBEL K, ASSAM M. Isolated sign language recognition using hidden markov models[C]. In Proceedings of the IEEE International Conference on Systems,Man and Cybernetics, Orlando, FL, 1997:162-167.
[6] TRIESCH J, MALSBURG C von der.A system for person independent hand posture recognition against complex back grounds[J]. IEEE transactions on Pattern Analysis and Machine Intelligence, 2001,23(12):1449-1453.
[7] 王守覺, 李兆洲, 陳向東,等, 通用神經(jīng)網(wǎng)絡(luò)硬件中神經(jīng)元基本數(shù)學(xué)模型的討論[J].電子學(xué)報,2001,29(5): 577-580.
[8] WANG Shou Jue. A new development on ANN in China-Biomimetic pattern recognition and multi weight vector neurons[J]. Lecture Notes in Artificial Intelligence, 2003, 2639:35-43.
[9] BIRK H, MOESLUND T B, MADSEN C B. Real-time recognition of hand alphabet gestures using principal component analysis[D]. Master's Thesis, Aalborg University,Danmark,1996.
[10] OTSU N. A threshold selection method from gray level histogram[J]. IEEE Transactions on Systems, Man and Cybernetics, 1979,9(1):62-66.
