文獻(xiàn)標(biāo)識(shí)碼: A
文章編號(hào): 0258-7998(2014)11-0126-03
0 引言
手勢(shì)識(shí)別是一個(gè)包含多學(xué)科多領(lǐng)域的課題,隨著人機(jī)交互技術(shù)的發(fā)展,未來(lái)的手勢(shì)識(shí)別技術(shù)會(huì)趨于基于視覺(jué)。對(duì)于基于視覺(jué)的手勢(shì)檢測(cè)存在著光線(xiàn)、復(fù)雜背景、人臉胳膊等干擾因素,通常會(huì)有附加的限制條件,比如要求背景顏色、穿著長(zhǎng)袖衣服等。這些問(wèn)題短期內(nèi)不能得到完善的解決辦法,因此良好地檢測(cè)到手型區(qū)域是手勢(shì)識(shí)別系統(tǒng)的一個(gè)主要研究?jī)?nèi)容[1]。
手勢(shì)檢測(cè)常用的方法是膚色分割、背景差分、灰度直方圖檢測(cè)。單一的方法對(duì)手勢(shì)檢測(cè)無(wú)法得到良好的效果,因此要結(jié)合多種方法。邊緣與輪廓檢測(cè)是手勢(shì)識(shí)別中常見(jiàn)的特征提取方法[2-3],其中Canny算子很適用于手勢(shì)的邊緣檢測(cè)[4-5]。對(duì)于實(shí)際的圖形,內(nèi)部邊緣檢測(cè)效果不盡相同,因此在不需要圖形內(nèi)部信息時(shí),輪廓可以更直觀地反應(yīng)圖像特征。
手勢(shì)識(shí)別的核心技術(shù)是目標(biāo)分類(lèi)。一種常用的分類(lèi)方法是利用神經(jīng)網(wǎng)絡(luò)[6],它是應(yīng)用分類(lèi)規(guī)則的常用方法。另一種是支持向量機(jī)的方法[7],它在數(shù)學(xué)建模和分類(lèi)方面非常受歡迎。還有一些方法是通過(guò)去除那些對(duì)分類(lèi)決定不起作用的數(shù)據(jù)來(lái)提高分類(lèi)能力,例如PCA(主成分分析法)[8]。
本文研究視覺(jué)手勢(shì)的實(shí)時(shí)檢測(cè)分割算法。根據(jù)我國(guó)“漢語(yǔ)拼音手指字母圖”中30個(gè)不同指式,綜合運(yùn)用Krisch算子等多種方法進(jìn)行手勢(shì)檢測(cè),然后基于手勢(shì)輪廓和PCA算法對(duì)字母手勢(shì)進(jìn)行識(shí)別。
1 關(guān)鍵技術(shù)
1.1 PCA技術(shù)
PCA(Principal Components Analysis)即主成分分析技術(shù),旨在利用降維的思想,將高維數(shù)據(jù)投影到較低維空間,間接地對(duì)數(shù)據(jù)進(jìn)行了壓縮處理,同時(shí)很大程度上保留了原數(shù)據(jù)的信息。因此在機(jī)器學(xué)習(xí)和模式識(shí)別及計(jì)算機(jī)視覺(jué)領(lǐng)域,PCA方法被廣泛運(yùn)用。
1.1.1 基本步驟
(1)設(shè)m個(gè)樣本數(shù)據(jù){xm},每個(gè)樣本數(shù)據(jù)是n維,構(gòu)建一個(gè)大小為m×n的樣本矩陣M。
(2)對(duì)矩陣M按行求均值。原始m個(gè)樣本數(shù)據(jù)均值向量為x:
(3)計(jì)算樣本數(shù)據(jù)的協(xié)方差矩陣S,公式如下:
(4)對(duì)協(xié)方差矩陣做SVD(奇異值分解),即可得到特征值和特征向量。
(5)選出前k個(gè)特征向量用于對(duì)樣本的表示,達(dá)到降低數(shù)據(jù)維度和壓縮的目的。
(6)將數(shù)據(jù)投影到特征向量的空間之中[9]。
1.1.2 基于PCA技術(shù)的圖像識(shí)別
高維的圖像空間經(jīng)過(guò)PCA變換后得到一組新的正交基,保留其中重要的正交基,可變成低維線(xiàn)性空間。假設(shè)圖像在這些低維線(xiàn)性空間的投影具有可分性,就可將這些投影用作識(shí)別的特征矢量。
在圖像識(shí)別中,可以用PCA變換對(duì)圖像的原始空間進(jìn)行轉(zhuǎn)換,即構(gòu)造圖像數(shù)據(jù)集的協(xié)方差矩陣,對(duì)之進(jìn)行正交變換,求出協(xié)方差矩陣的特征向量,繼而構(gòu)成投影矩陣。選出前k個(gè)特征向量(主成分),計(jì)算投影的系數(shù),對(duì)每一類(lèi)求出平均系數(shù)。分類(lèi)時(shí),將需要分類(lèi)的圖像數(shù)據(jù)進(jìn)行投影,得到系數(shù),再與先前計(jì)算出的每一類(lèi)的平均系數(shù)進(jìn)行比較,可判為最接近的一類(lèi)。
1.2 Krisch算子
Krisch算子是由8個(gè)模板組成的方向算子,圖像中的每個(gè)像素在模板代表的8個(gè)方向上進(jìn)行模板卷積計(jì)算。它具有良好的邊緣定位能力與抑制噪聲能力,雖然提取出的邊緣和細(xì)節(jié)較多,導(dǎo)致虛假邊緣多且邊緣較粗,但是能夠提取出對(duì)比度較弱的邊緣,因此應(yīng)用效果較為理想。
1.3 改進(jìn)的圖像背景差分法
背景差分法是基于圖像序列和參考背景模型相減實(shí)現(xiàn)的目標(biāo)檢測(cè)方法。該方法位置精確且速度較快,因此在實(shí)時(shí)系統(tǒng)檢測(cè)中經(jīng)常應(yīng)用背景差分法來(lái)獲得檢測(cè)結(jié)果。然而該方法對(duì)光照敏感,且在背景灰度變化很大的情況下檢測(cè)效果不理想。所以常用的背景差分法會(huì)受到背景顏色的影響。
本文提出將目標(biāo)圖像與背景圖像經(jīng)過(guò)Krisch算子邊緣檢測(cè)后再進(jìn)行差分,以便得到目標(biāo)的區(qū)域位置,流程如圖1所示。
通過(guò)邊緣算子的背景差分后,可得到手勢(shì)邊緣的一些信息。該方法對(duì)背景沒(méi)有特殊限制,比直接進(jìn)行灰度圖像的背景目標(biāo)結(jié)果明顯完整。在光照的影響下,膚色分割后的圖像手型輪廓變得不平滑,因此通過(guò)邏輯運(yùn)算使Krisch算子的背景差分方法與膚色檢測(cè)方法相結(jié)合,共同進(jìn)行手勢(shì)檢測(cè),可以得到較為理想的膚色分割結(jié)果。
2 手勢(shì)識(shí)別系統(tǒng)設(shè)計(jì)
手勢(shì)識(shí)別系統(tǒng)實(shí)現(xiàn)框架流程如圖2所示。
如圖2所示,手勢(shì)識(shí)別系統(tǒng)設(shè)計(jì)主要分為兩大部分:(1)首先是創(chuàng)建手勢(shì)樣本集,對(duì)樣本集圖像進(jìn)行預(yù)處理、特征提取,最后構(gòu)建手勢(shì)向量特征庫(kù);(2)建立在第一部分基礎(chǔ)之上,針對(duì)的是單張手勢(shì)圖像。手勢(shì)圖像經(jīng)過(guò)相同的預(yù)處理與特征提取過(guò)程,將得到的手勢(shì)特征向量與手勢(shì)庫(kù)進(jìn)行對(duì)比,根據(jù)歐氏距離計(jì)算向量距離,從而得到識(shí)別結(jié)果。
2.1 圖像預(yù)處理
首先將捕捉到的手勢(shì)圖像與背景圖像進(jìn)行Krisch算子圖像背景差分,然后把原圖像RGB空間轉(zhuǎn)換為HSV空間進(jìn)行膚色檢測(cè)[10],得到膚色分割后的二值圖像。應(yīng)用邏輯或運(yùn)算將差分圖像和膚色分割后的圖像結(jié)合起來(lái)。
根據(jù)得到的二值圖像檢測(cè)最大連通域,得到手連同部分胳膊區(qū)域的二值圖像。最后根據(jù)手勢(shì)不同方向,采用不同的方法去掉胳膊,從而得到較為準(zhǔn)確的手型區(qū)域。將手型圖像進(jìn)行歸一化處理,壓縮了圖像的數(shù)據(jù)量,減少冗余度,以便進(jìn)一步處理。部分樣本輪廓如圖3所示。
經(jīng)過(guò)圖像預(yù)處理過(guò)程,得到大小為32×32的手型輪廓二值圖像。該方法減少了光照對(duì)手型檢測(cè)的影響,從而得到了準(zhǔn)確的手型區(qū)域,繼而得到可靠的手勢(shì)輪廓信息作為特征,為后續(xù)手勢(shì)的特征提取與識(shí)別完成了良好的預(yù)處理工作。
2.2 特征提取
本文研究的特征以輪廓信息特征為基礎(chǔ),根據(jù)PCA算法計(jì)算樣本圖像的特征值,生成相應(yīng)的特征庫(kù),即投影向量矩陣。具體計(jì)算方法如下:
每張手勢(shì)輪廓圖像表示為一個(gè)32×32像素的矩陣,即為一個(gè)二維數(shù)組,將其按行變換成一維數(shù)組,一張圖片就能表示為一個(gè)向量d=(x1,x2…x1 024)。
將樣本庫(kù)里m張手勢(shì)圖片表示成上述向量形式,則m個(gè)向量組合成一個(gè)m×1 024的樣本矩陣M。當(dāng)m<1 024時(shí),經(jīng)過(guò)PCA可得到m個(gè)特征值與大小為m×1 024的特征向量。選取k個(gè)特征向量作為主成分,形成大小為m×k的投影變換矩陣,記為C。將樣本矩陣向C映射,得到m×k的樣本投影矩陣,即為特征庫(kù)矩陣,矩陣中每行為一個(gè)大小為1×k的樣本特征向量。
2.3 特征匹配識(shí)別
在手勢(shì)識(shí)別系統(tǒng)中,將測(cè)試集中圖像進(jìn)行預(yù)處理,得到的32×32輪廓圖像變?yōu)橐痪S數(shù)組,大小為1×1 024。將此數(shù)組向矩陣C投影,得到大小為1×k的特征向量,記為St。
兩個(gè)向量a=(a[1],a[2],…,a[n])與b=(b[1],b[2],…,b[n])之間的距離定義為下面的公式:
分別計(jì)算特征向量St與m個(gè)樣本特征向量的歐氏距離,得到距離最小的樣本向量所對(duì)應(yīng)的手勢(shì)含義即為識(shí)別結(jié)果。
3 實(shí)驗(yàn)效果
本手勢(shì)識(shí)別系統(tǒng)以漢語(yǔ)拼音30個(gè)字母手勢(shì)為參照,采集了3套手勢(shì)(3套分別為不同人的手)形成手勢(shì)庫(kù),每套手勢(shì)中每個(gè)字母手勢(shì)錄5張,3套手勢(shì)庫(kù)共450張手勢(shì)圖。圖像格式為BMP圖像,大小為640×480。
根據(jù)本文算法,針對(duì)靜態(tài)的字母手勢(shì)做了大量實(shí)驗(yàn)來(lái)測(cè)試其對(duì)識(shí)別率的影響。從手勢(shì)庫(kù)1中的每個(gè)手勢(shì)挑選2張圖像,從手勢(shì)庫(kù)2中的每個(gè)手勢(shì)挑選1張圖像,共得到90張圖像作為樣本。經(jīng)過(guò)上述特征提取方法得到大小為90×k的特征庫(kù)矩陣。其余圖像作為測(cè)試圖像。根據(jù)不同的k值,手勢(shì)庫(kù)圖像識(shí)別結(jié)果如表1所示。
由實(shí)驗(yàn)結(jié)果可表面,該算法可有效識(shí)別字母手勢(shì)。當(dāng)k為40時(shí),平均識(shí)別率可達(dá)到92,且用時(shí)較少,識(shí)別150張靜態(tài)圖像平均40 s左右可完成。當(dāng)k值逐漸變小時(shí),識(shí)別速度提高了,然而識(shí)別率下降了。因此在選擇k值時(shí),應(yīng)權(quán)衡速度與準(zhǔn)確率。當(dāng)k=20時(shí),識(shí)別率良好,且用時(shí)較少,因此在手勢(shì)識(shí)別系統(tǒng)中可以選此k值。
4 結(jié)論
本文針對(duì)漢語(yǔ)拼音30個(gè)字母手勢(shì)識(shí)別進(jìn)行研究,提出了結(jié)合多種方法的手勢(shì)檢測(cè),基于輪廓檢測(cè)和主成分分析的識(shí)別算法,進(jìn)行圖像特征提取和分類(lèi)。實(shí)驗(yàn)證明,該方法可以有效檢測(cè)手勢(shì),簡(jiǎn)單高效地對(duì)手勢(shì)進(jìn)行識(shí)別,對(duì)圖像的平移和縮放具有穩(wěn)定性。同時(shí),手勢(shì)過(guò)度旋轉(zhuǎn)對(duì)識(shí)別存在著一定的影響,可結(jié)合手型的多個(gè)幾何特征輔助進(jìn)行特征比較,從而提高識(shí)別率。
參考文獻(xiàn)
[1] 馮志全,蔣彥.手勢(shì)識(shí)別研究綜述[J].濟(jì)南大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,27(4):336-340.
[2] 孫麗娟,張立材.基于邊緣梯度方向直方圖的靜態(tài)手語(yǔ)識(shí)別[J].微電子學(xué)與計(jì)算機(jī),2010,27(3):148-150.
[3] 何陽(yáng)清,葛元,王林泉.應(yīng)用幾何矩和邊緣檢測(cè)的手勢(shì)識(shí)別算法[J].計(jì)算機(jī)工程,2005,31(15):165-166.
[4] CANNY J.A computational approach to edge detection[J].Pattern Analysis and Machine Intelligence,IEEE Transactionson,1986,8(6):679-698.
[5] THEPADE S D,KULKARNI G,NARKHEDE A,et al.Sign language recognition using color means of gradient slope magnitude edge images[C].Intelligent Systems and Signal Processing(ISSP),Gujarat:IEEE,2013.
[6] 譚昶,肖南峰.基于改進(jìn)RCE和RBF神經(jīng)網(wǎng)絡(luò)的靜態(tài)手勢(shì)識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(7):172-176.
[7] 張秋余,王道東,張墨逸,等.基于特征包支持向量機(jī)的手勢(shì)識(shí)別[J].計(jì)算機(jī)應(yīng)用,2012,32(12):3392-3396.
[8] 李榮健,韓其龍,楊鑫華.改進(jìn)的PCA人臉識(shí)別新算法[J].大連交通大學(xué)學(xué)報(bào),2008,29(4):48-51.
[9] ABDI H,WILLIAMS L J.Principal component analysis[J].Wiley Interdisciplinary Reviews:Computational Statistics,2010,2(4):433-459.
[10] ZHANG X N,JIANG J,LIANG Z H,et al.Skin color en-hancement based on favorite skin color in HSV color space[J].Consumer Electronics,IEEE Transactions on,2010,56(3):1789-1793.