123,123,123

基于轮廓PCA的字母手势识别算法研究

2014年电子技术应用第11期

王景中，李萌

(北方工业大学信息工程学院，北京100144)

摘要： 提出了一种改进的手势检测识别算法。首先对采集的手势图像综合运用Krisch算子的背景差分与肤色分割等算法进行预处理，然后根据手势的方向去除胳膊等非目标，截取手型区域。最后对手型图像进行轮廓检测，根据手型轮廓的二值图像进行PCA降维，并与投影降维后的样本计算空间距离，从而进行手势分类。通过此方法可以快速、准确地检测到手型区域，识别手型含义，且具有实时性。

關(guān)鍵詞： 手势识别 Krisch算子差影法肤色分割主成分分析

中圖分類號(hào)： TP391.4
文獻(xiàn)標(biāo)識(shí)碼： A
文章編號(hào)： 0258-7998(2014)11-0126-03

Method of gesture recognition based on contour PCA

Wang Jingzhong，Li Meng

College of Information Engineering, North China University of Technology, Beijing 100144，China

Abstract： This paper gives an improved gesture recognition algorithm. First, the gesture images are processed through a combination of background subtraction method with Krisch and color segmentation to get the hand area. Then the non-target region such as arm which depending on the direction of the gesture is removed. Finally, the images are processed through contour detection and the dimension is reduced by PCA, the spatial distance with the sample after the projection is calculated for classification. The method can detect hand region and identify the meaning of gestures quickly and accurately, and can be used in real-time recognition.

Key words : gesture recognition；background subtraction；complexion detection；PCA；feature extraction

0 引言

　　手勢(shì)識(shí)別是一個(gè)包含多學(xué)科多領(lǐng)域的課題，隨著人機(jī)交互技術(shù)的發(fā)展，未來的手勢(shì)識(shí)別技術(shù)會(huì)趨于基于視覺。對(duì)于基于視覺的手勢(shì)檢測(cè)存在著光線、復(fù)雜背景、人臉胳膊等干擾因素，通常會(huì)有附加的限制條件，比如要求背景顏色、穿著長袖衣服等。這些問題短期內(nèi)不能得到完善的解決辦法，因此良好地檢測(cè)到手型區(qū)域是手勢(shì)識(shí)別系統(tǒng)的一個(gè)主要研究內(nèi)容[1]。

　　手勢(shì)檢測(cè)常用的方法是膚色分割、背景差分、灰度直方圖檢測(cè)。單一的方法對(duì)手勢(shì)檢測(cè)無法得到良好的效果，因此要結(jié)合多種方法。邊緣與輪廓檢測(cè)是手勢(shì)識(shí)別中常見的特征提取方法[2-3]，其中Canny算子很適用于手勢(shì)的邊緣檢測(cè)[4-5]。對(duì)于實(shí)際的圖形，內(nèi)部邊緣檢測(cè)效果不盡相同，因此在不需要圖形內(nèi)部信息時(shí)，輪廓可以更直觀地反應(yīng)圖像特征。

　　手勢(shì)識(shí)別的核心技術(shù)是目標(biāo)分類。一種常用的分類方法是利用神經(jīng)網(wǎng)絡(luò)[6]，它是應(yīng)用分類規(guī)則的常用方法。另一種是支持向量機(jī)的方法[7]，它在數(shù)學(xué)建模和分類方面非常受歡迎。還有一些方法是通過去除那些對(duì)分類決定不起作用的數(shù)據(jù)來提高分類能力，例如PCA（主成分分析法）[8]。

　　本文研究視覺手勢(shì)的實(shí)時(shí)檢測(cè)分割算法。根據(jù)我國“漢語拼音手指字母圖”中30個(gè)不同指式，綜合運(yùn)用Krisch算子等多種方法進(jìn)行手勢(shì)檢測(cè)，然后基于手勢(shì)輪廓和PCA算法對(duì)字母手勢(shì)進(jìn)行識(shí)別。

1 關(guān)鍵技術(shù)

　　1.1 PCA技術(shù)

　　PCA（Principal Components Analysis）即主成分分析技術(shù)，旨在利用降維的思想，將高維數(shù)據(jù)投影到較低維空間，間接地對(duì)數(shù)據(jù)進(jìn)行了壓縮處理，同時(shí)很大程度上保留了原數(shù)據(jù)的信息。因此在機(jī)器學(xué)習(xí)和模式識(shí)別及計(jì)算機(jī)視覺領(lǐng)域，PCA方法被廣泛運(yùn)用。

　　1.1.1 基本步驟

　　(1)設(shè)m個(gè)樣本數(shù)據(jù){xm}，每個(gè)樣本數(shù)據(jù)是n維，構(gòu)建一個(gè)大小為m×n的樣本矩陣M。

　　(2)對(duì)矩陣M按行求均值。原始m個(gè)樣本數(shù)據(jù)均值向量為x：

　　(3)計(jì)算樣本數(shù)據(jù)的協(xié)方差矩陣S，公式如下：

　　(4)對(duì)協(xié)方差矩陣做SVD（奇異值分解），即可得到特征值和特征向量。

　　(5)選出前k個(gè)特征向量用于對(duì)樣本的表示，達(dá)到降低數(shù)據(jù)維度和壓縮的目的。

　　(6)將數(shù)據(jù)投影到特征向量的空間之中[9]。

　　1.1.2 基于PCA技術(shù)的圖像識(shí)別

　　高維的圖像空間經(jīng)過PCA變換后得到一組新的正交基，保留其中重要的正交基，可變成低維線性空間。假設(shè)圖像在這些低維線性空間的投影具有可分性，就可將這些投影用作識(shí)別的特征矢量。

　　在圖像識(shí)別中，可以用PCA變換對(duì)圖像的原始空間進(jìn)行轉(zhuǎn)換，即構(gòu)造圖像數(shù)據(jù)集的協(xié)方差矩陣，對(duì)之進(jìn)行正交變換，求出協(xié)方差矩陣的特征向量，繼而構(gòu)成投影矩陣。選出前k個(gè)特征向量(主成分)，計(jì)算投影的系數(shù)，對(duì)每一類求出平均系數(shù)。分類時(shí)，將需要分類的圖像數(shù)據(jù)進(jìn)行投影，得到系數(shù)，再與先前計(jì)算出的每一類的平均系數(shù)進(jìn)行比較，可判為最接近的一類。

　　1.2 Krisch算子

　　Krisch算子是由8個(gè)模板組成的方向算子，圖像中的每個(gè)像素在模板代表的8個(gè)方向上進(jìn)行模板卷積計(jì)算。它具有良好的邊緣定位能力與抑制噪聲能力，雖然提取出的邊緣和細(xì)節(jié)較多，導(dǎo)致虛假邊緣多且邊緣較粗，但是能夠提取出對(duì)比度較弱的邊緣，因此應(yīng)用效果較為理想。

　　1.3 改進(jìn)的圖像背景差分法

　　背景差分法是基于圖像序列和參考背景模型相減實(shí)現(xiàn)的目標(biāo)檢測(cè)方法。該方法位置精確且速度較快，因此在實(shí)時(shí)系統(tǒng)檢測(cè)中經(jīng)常應(yīng)用背景差分法來獲得檢測(cè)結(jié)果。然而該方法對(duì)光照敏感，且在背景灰度變化很大的情況下檢測(cè)效果不理想。所以常用的背景差分法會(huì)受到背景顏色的影響。

　　本文提出將目標(biāo)圖像與背景圖像經(jīng)過Krisch算子邊緣檢測(cè)后再進(jìn)行差分，以便得到目標(biāo)的區(qū)域位置，流程如圖1所示。

　　通過邊緣算子的背景差分后，可得到手勢(shì)邊緣的一些信息。該方法對(duì)背景沒有特殊限制，比直接進(jìn)行灰度圖像的背景目標(biāo)結(jié)果明顯完整。在光照的影響下，膚色分割后的圖像手型輪廓變得不平滑，因此通過邏輯運(yùn)算使Krisch算子的背景差分方法與膚色檢測(cè)方法相結(jié)合，共同進(jìn)行手勢(shì)檢測(cè)，可以得到較為理想的膚色分割結(jié)果。

2 手勢(shì)識(shí)別系統(tǒng)設(shè)計(jì)

　　手勢(shì)識(shí)別系統(tǒng)實(shí)現(xiàn)框架流程如圖2所示。

　　如圖2所示，手勢(shì)識(shí)別系統(tǒng)設(shè)計(jì)主要分為兩大部分：(1)首先是創(chuàng)建手勢(shì)樣本集，對(duì)樣本集圖像進(jìn)行預(yù)處理、特征提取，最后構(gòu)建手勢(shì)向量特征庫；(2)建立在第一部分基礎(chǔ)之上，針對(duì)的是單張手勢(shì)圖像。手勢(shì)圖像經(jīng)過相同的預(yù)處理與特征提取過程，將得到的手勢(shì)特征向量與手勢(shì)庫進(jìn)行對(duì)比，根據(jù)歐氏距離計(jì)算向量距離，從而得到識(shí)別結(jié)果。

　　2.1 圖像預(yù)處理

　　首先將捕捉到的手勢(shì)圖像與背景圖像進(jìn)行Krisch算子圖像背景差分，然后把原圖像RGB空間轉(zhuǎn)換為HSV空間進(jìn)行膚色檢測(cè)[10]，得到膚色分割后的二值圖像。應(yīng)用邏輯或運(yùn)算將差分圖像和膚色分割后的圖像結(jié)合起來。

　　根據(jù)得到的二值圖像檢測(cè)最大連通域，得到手連同部分胳膊區(qū)域的二值圖像。最后根據(jù)手勢(shì)不同方向，采用不同的方法去掉胳膊，從而得到較為準(zhǔn)確的手型區(qū)域。將手型圖像進(jìn)行歸一化處理，壓縮了圖像的數(shù)據(jù)量，減少冗余度，以便進(jìn)一步處理。部分樣本輪廓如圖3所示。

　　經(jīng)過圖像預(yù)處理過程，得到大小為32×32的手型輪廓二值圖像。該方法減少了光照對(duì)手型檢測(cè)的影響，從而得到了準(zhǔn)確的手型區(qū)域，繼而得到可靠的手勢(shì)輪廓信息作為特征，為后續(xù)手勢(shì)的特征提取與識(shí)別完成了良好的預(yù)處理工作。

　　2.2 特征提取

　　本文研究的特征以輪廓信息特征為基礎(chǔ)，根據(jù)PCA算法計(jì)算樣本圖像的特征值，生成相應(yīng)的特征庫，即投影向量矩陣。具體計(jì)算方法如下：

　　每張手勢(shì)輪廓圖像表示為一個(gè)32×32像素的矩陣，即為一個(gè)二維數(shù)組，將其按行變換成一維數(shù)組，一張圖片就能表示為一個(gè)向量d=（x1，x2…x1 024）。

　　將樣本庫里m張手勢(shì)圖片表示成上述向量形式，則m個(gè)向量組合成一個(gè)m×1 024的樣本矩陣M。當(dāng)m<1 024時(shí)，經(jīng)過PCA可得到m個(gè)特征值與大小為m×1 024的特征向量。選取k個(gè)特征向量作為主成分，形成大小為m×k的投影變換矩陣，記為C。將樣本矩陣向C映射，得到m×k的樣本投影矩陣，即為特征庫矩陣，矩陣中每行為一個(gè)大小為1×k的樣本特征向量。

　　2.3 特征匹配識(shí)別

　　在手勢(shì)識(shí)別系統(tǒng)中，將測(cè)試集中圖像進(jìn)行預(yù)處理，得到的32×32輪廓圖像變?yōu)橐痪S數(shù)組，大小為1×1 024。將此數(shù)組向矩陣C投影，得到大小為1×k的特征向量，記為St。

　　兩個(gè)向量a=(a[1]，a[2]，…，a[n])與b=(b[1]，b[2]，…，b[n])之間的距離定義為下面的公式：

　　分別計(jì)算特征向量St與m個(gè)樣本特征向量的歐氏距離，得到距離最小的樣本向量所對(duì)應(yīng)的手勢(shì)含義即為識(shí)別結(jié)果。

3 實(shí)驗(yàn)效果

　　本手勢(shì)識(shí)別系統(tǒng)以漢語拼音30個(gè)字母手勢(shì)為參照,采集了3套手勢(shì)（3套分別為不同人的手）形成手勢(shì)庫，每套手勢(shì)中每個(gè)字母手勢(shì)錄5張，3套手勢(shì)庫共450張手勢(shì)圖。圖像格式為BMP圖像，大小為640×480。

　　根據(jù)本文算法，針對(duì)靜態(tài)的字母手勢(shì)做了大量實(shí)驗(yàn)來測(cè)試其對(duì)識(shí)別率的影響。從手勢(shì)庫1中的每個(gè)手勢(shì)挑選2張圖像，從手勢(shì)庫2中的每個(gè)手勢(shì)挑選1張圖像，共得到90張圖像作為樣本。經(jīng)過上述特征提取方法得到大小為90×k的特征庫矩陣。其余圖像作為測(cè)試圖像。根據(jù)不同的k值，手勢(shì)庫圖像識(shí)別結(jié)果如表1所示。

　　由實(shí)驗(yàn)結(jié)果可表面，該算法可有效識(shí)別字母手勢(shì)。當(dāng)k為40時(shí)，平均識(shí)別率可達(dá)到92，且用時(shí)較少，識(shí)別150張靜態(tài)圖像平均40 s左右可完成。當(dāng)k值逐漸變小時(shí)，識(shí)別速度提高了，然而識(shí)別率下降了。因此在選擇k值時(shí)，應(yīng)權(quán)衡速度與準(zhǔn)確率。當(dāng)k=20時(shí)，識(shí)別率良好，且用時(shí)較少，因此在手勢(shì)識(shí)別系統(tǒng)中可以選此k值。

4 結(jié)論

　　本文針對(duì)漢語拼音30個(gè)字母手勢(shì)識(shí)別進(jìn)行研究，提出了結(jié)合多種方法的手勢(shì)檢測(cè)，基于輪廓檢測(cè)和主成分分析的識(shí)別算法，進(jìn)行圖像特征提取和分類。實(shí)驗(yàn)證明，該方法可以有效檢測(cè)手勢(shì)，簡(jiǎn)單高效地對(duì)手勢(shì)進(jìn)行識(shí)別，對(duì)圖像的平移和縮放具有穩(wěn)定性。同時(shí)，手勢(shì)過度旋轉(zhuǎn)對(duì)識(shí)別存在著一定的影響，可結(jié)合手型的多個(gè)幾何特征輔助進(jìn)行特征比較，從而提高識(shí)別率。

　　參考文獻(xiàn)

　　[1] 馮志全，蔣彥.手勢(shì)識(shí)別研究綜述[J].濟(jì)南大學(xué)學(xué)報(bào)(自然科學(xué)版)，2013，27（4）：336-340.

　　[2] 孫麗娟，張立材.基于邊緣梯度方向直方圖的靜態(tài)手語識(shí)別[J].微電子學(xué)與計(jì)算機(jī)，2010，27(3)：148-150.

　　[3] 何陽清，葛元，王林泉.應(yīng)用幾何矩和邊緣檢測(cè)的手勢(shì)識(shí)別算法[J].計(jì)算機(jī)工程，2005，31(15)：165-166.

　　[4] CANNY J.A computational approach to edge detection[J].Pattern Analysis and Machine Intelligence，IEEE Transactionson，1986，8(6)：679-698.

　　[5] THEPADE S D，KULKARNI G，NARKHEDE A，et al.Sign language recognition using color means of gradient slope magnitude edge images[C].Intelligent Systems and Signal Processing(ISSP)，Gujarat：IEEE，2013.

　　[6] 譚昶，肖南峰.基于改進(jìn)RCE和RBF神經(jīng)網(wǎng)絡(luò)的靜態(tài)手勢(shì)識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用，2011，47(7)：172-176.

　　[7] 張秋余，王道東，張墨逸，等.基于特征包支持向量機(jī)的手勢(shì)識(shí)別[J].計(jì)算機(jī)應(yīng)用，2012，32(12)：3392-3396.

　　[8] 李榮健，韓其龍，楊鑫華.改進(jìn)的PCA人臉識(shí)別新算法[J].大連交通大學(xué)學(xué)報(bào)，2008，29(4)：48-51.

　　[9] ABDI H，WILLIAMS L J.Principal component analysis[J].Wiley Interdisciplinary Reviews：Computational Statistics，2010，2(4)：433-459.

　　[10] ZHANG X N，JIANG J，LIANG Z H，et al.Skin color en-hancement based on favorite skin color in HSV color space[J].Consumer Electronics，IEEE Transactions on，2010，56(3)：1789-1793.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容