摘 要: 提出使用肌電信號的語音識別" title="語音識別">語音識別系統(tǒng)。研究證實(shí)從面部肌肉中提取的肌電信號存在語音信息。實(shí)驗使用(0~9)十個數(shù)字,受試者每隔10s重復(fù)單詞。講話時用電極記錄五個通道表面肌" title="表面肌">表面肌電信號。用短時傅里葉變換" title="短時傅里葉變換">短時傅里葉變換提取信號的特征量,并通過主成分分析" title="主成分分析">主成分分析降維,有效地提取特征量進(jìn)行模式識別。分類錯誤范圍在15%以下。實(shí)驗表明表面肌電信號的語音識別系統(tǒng)有著極好的前景。
關(guān)鍵詞: EMG信號 語音識別 短時傅里葉變換 模式識別 生物信號處理
肌電圖EMG(electromyography)是研究或檢測肌肉生物電活動,借以判斷神經(jīng)肌肉系統(tǒng)機(jī)能及形態(tài)學(xué)變化,并有助于神經(jīng)肌肉系統(tǒng)的研究或提供臨床診斷的科學(xué)。肌電信號(EMG)發(fā)源于作為中樞神經(jīng)一部分脊髓中的運(yùn)動神經(jīng)元,是電極所接觸到的許多運(yùn)動單元發(fā)放的動作電位的總和,反映了神經(jīng)肌肉的活動、功能狀態(tài)[1]。表面肌電信號是從人體骨骼肌表面通過電極記錄下來的神經(jīng)肌肉活動發(fā)放的生物電信號。肌電信號不僅在臨床醫(yī)學(xué)、運(yùn)動學(xué)等領(lǐng)域被廣泛應(yīng)用,而且研究證實(shí)肌肉關(guān)節(jié)內(nèi)的生理肌電信號存在著相應(yīng)的語音信息[2~3]。不同的肌肉運(yùn)動模式是由不同的肌群收縮產(chǎn)生的,其所伴隨的表面肌電信號是不同的。而發(fā)音時肌肉對應(yīng)著不同的運(yùn)動模式,完全有可能從不同的表面肌電信號特征中找到對應(yīng)的肌肉動作模式。隨著信號處理方法和計算機(jī)技術(shù)的發(fā)展,如何從生理肌電信號中識別出語音信號,已引起越來越多人的關(guān)注。
以前有些用肌電信號識別語音的研究,研究目的是使用肌電信號作為輸入來彌補(bǔ)語音信息。肌電語音識別系統(tǒng)與常規(guī)語音識別標(biāo)準(zhǔn)相比,識別準(zhǔn)確度較差,但準(zhǔn)確度遠(yuǎn)高于隨便猜測的準(zhǔn)確度。這表明在肌肉關(guān)節(jié)內(nèi)的生理肌電信號存在著語音信息。語音識別中使用肌電信號的優(yōu)點(diǎn)是能夠幫助發(fā)音障礙者交流;且信號不受聲音噪聲干擾;還有一些字在聲學(xué)上發(fā)音相似,但說話方式和嘴的位置不同,在表面肌電信號中信號的特征是有區(qū)別的。這意味著肌電信號能用來區(qū)別聽起來相似的字。Day[3]研究表明,識別準(zhǔn)確度在聽起來相似和不相似的詞匯中保持相同。使用面部肌電信號的語音識別系統(tǒng)一個應(yīng)用是幫助操作高性能飛機(jī)的飛行員,一旦系統(tǒng)識別出飛行員講的話,能使用信息控制設(shè)備,如顯示器、雷達(dá)、無線電通信和飛行導(dǎo)航,但飛行艙內(nèi)是高噪聲的環(huán)境,聲學(xué)噪聲能掩蓋飛行員的所有口頭講話,嚴(yán)重降低了常規(guī)的語音識別系統(tǒng)的準(zhǔn)確度和性能,在飛行艙內(nèi)使用面部肌電信號能提高語音識別性能。
本文使用表面肌電信號(EMG)的語音信號識別系統(tǒng)改善噪聲條件下的聲音性能或幫助發(fā)音障礙的人。有些人發(fā)音有障礙,但講話時面部肌肉與正常人有同樣的動作模式,這樣使用表面肌電信號能幫助這些發(fā)音障礙的人發(fā)出簡單的指令,用來交流。
1 原理和方法
本研究只使用肌電信號的信息識別孤立的單詞、(0~9)十個數(shù)字。使用腦電圖儀EEG-1100K(electroencephalograph, EEG)采集肌電信號,采用雙極導(dǎo)聯(lián)模式,采樣頻率1000Hz。使用(0~9)十個單詞做試驗。在實(shí)驗中,受試者每10s重復(fù)詞匯表中的單詞,每個單詞重復(fù)10次。受試者以相似的方式重復(fù)講每個單詞,保持音量和語速最小變化。
表面肌電信號從五組面部肌肉中采樣,五路信號如圖1所示。提肌口(LAI)、顴肌部分(ZYG)、頸闊肌(PLT)、壓板口(DAO)、二腹的前面腹部(ABD)。使用五對表面電極采集肌電信號,每個電極用電極膏改進(jìn)電極—皮膚界面,降低電阻。參考電極放在鼻根部。圖2是部分?jǐn)?shù)字(0~3)的五路肌電信號(通道LAI、ZYG、PLT、DAO、ABD)時序圖。
肌電信號分析,首先對采集的信號進(jìn)行預(yù)處理,端點(diǎn)檢測。再使用短時傅里葉變換(STFT)處理數(shù)據(jù),提取特征量。通過主成分分析(PCA)減少這些特征集系數(shù)的維度。5個肌電通道每個都保留6個PCA系數(shù),這樣一共有30個特征量。使用線性判別分析分類器分類(0~9)十個數(shù)字。表面肌電信號中語音識別系統(tǒng)的構(gòu)成如圖3所示。
2 特征量提取
肌電信號本質(zhì)上是具有非平穩(wěn)特性的生理電信號,時頻分析是研究非平穩(wěn)信號的一種有效方法。該方法在時頻面上表述信號的時變特征,能夠更清晰地反映出信號的頻率特性隨時間的變化。本研究使用短時傅里葉變換方法對講不同詞的肌電信號進(jìn)行分析,由于變換后特征向量" title="特征向量">特征向量的維度很高,為了成功的分類需要采用合適的降維方法,本文通過主成分分析PCA(Principal Component Analysis)減少這些特征集系數(shù)的維度。
2.1 短時傅里葉變換
短時傅里葉變換基本原理:把信號劃分成許多小的時間間隔,分析每一個時間間隔,確定每個間隔存在的頻率,頻譜的總體表示頻譜在時間上的變化。
信號s(t)短時傅里葉變換定義為:
2.2 主成分分析(PCA)
主成分分析(PCA)是總結(jié)多變量分析屬性的方法,經(jīng)常用于特征提取或數(shù)據(jù)壓縮上的線性變換。在統(tǒng)計模式識別方面,主成分分析提供降低維度的有效方式,有效地減少特征系數(shù)表示的數(shù)量[4]。PCA是把特征映射到特征向量上,保留那些最大的特征值。
p維隨機(jī)向量x的n次采樣值構(gòu)成樣本陣X(n×p),n個p維列向量zi構(gòu)成矩陣Z,如式(1)。
Z=XT=(z1 z2 … zp) (1)
式中 T=(t1 t2 … tp)為正交陣,其列向量ti為樣本方差矩陣的特征值λi所對應(yīng)的單位特征向量,且有λ1≥λ2…≥λp,則z1,z2,…,zp分別為樣本陣X的第1主成分,第2主成分,…,第p主成分,而且主成分z1表達(dá)了x最主要的信息,z2表達(dá)了x次主要的信息,依次類推,前m個主成分一起表達(dá)x的主要特征。
3 特征分類
對肌電信號中的語音識別來說,特征提取是基礎(chǔ),有效地進(jìn)行分類是關(guān)鍵。本文的模式識別分類采用線性判別分類LDA(linear discriminant analysis),分類(0~9)十個數(shù)字。
線性判別分析,亦稱為Fisher線性判別,是較常用的方法[5]。Fisher準(zhǔn)則函數(shù)就是為了發(fā)現(xiàn)使得樣本類間離散度和樣本類內(nèi)離散度的比值最大的投影方向。即在一投影方向上,同一個類的樣本聚集在一起,而不同類的樣本相對比較分散。
樣本類間離散度矩陣定義為:
其中,μi是Ci類的均值,μ是所有樣本的均值,Pi是先驗概率。
樣本類內(nèi)離散度矩陣定義為:
其中, Si=E[(x-μi)(x-μi)Tx∈Ci]投影后希望樣本類間離散度越大越好,而樣本類內(nèi)離散度越小越好。因此,如果Sω是非奇異矩陣,最優(yōu)的投影方向Wopt就是使得樣本類間離散度矩陣和樣本類內(nèi)離散度矩陣的行列式比值最大的那些正交特征向量。因此,F(xiàn)isher準(zhǔn)則函數(shù)定義為:
通過線性代數(shù)理論知,Wopt就是滿足等式SbWi=λiSwWi(i=1,2,…,m)的解,對應(yīng)于矩陣Sw-1Sb較大的特征值λi的特征向量。
4 實(shí)驗與結(jié)論
在實(shí)驗中,使用腦電圖儀(EEG-1100K),采用五對電極從面部肌肉同時采集五路肌電信號,受試者每10s講(0~9)十個數(shù)字,每個數(shù)字重復(fù)講十次。對采集的肌電信號首先預(yù)處理端點(diǎn)檢測,然后對采集的五路肌電信號分別作短時傅里葉變換,分析窗選用矩形窗,窗寬為1024點(diǎn)。提取短時傅里葉變換頻譜圖的結(jié)果矩陣,做主成分分析降低維度,構(gòu)造特征矢量,輸入線性判別分析分類器進(jìn)行識別。
由于傅氏變換后特征向量的維度很高,為了成功地分類需要降低維度,通過主成分分析(PCA)減少特征集系數(shù)的維度。本文將不同數(shù)字的五路肌電信號的短時傅里葉變換的幅度矩陣進(jìn)一步做主成分分析降維,構(gòu)造相應(yīng)數(shù)字的特征矢量,x=[o11,…,o16,…,o51,…,o56]。其中o11,…,o16是第一路信號降維后的主成分;o51,…,o56是第五路信號降維后的主成分。
表1列出了實(shí)驗中(0~9)十個數(shù)字降維后ABD通道主成分的部分特征向量。從表1中的數(shù)據(jù)可以看出由信號傅里葉變換系數(shù)的幅度進(jìn)行主成分分析,提取的特征量具有很好的分離性。
本文線性模式分類采用基于fisher準(zhǔn)則的線性判別分析分類器,對特征矢量分別計算類間散度、類內(nèi)散度,尋求一最優(yōu)投影方向。圖4表明了(0~9)十個數(shù)字分類后的散點(diǎn)圖。經(jīng)過分類器的識別,對(0~9)十個數(shù)字的分類錯誤率在15%以下。
通過實(shí)驗可以得到:短時傅里葉變換后再做主成分分析降維提取特征量,提取的特征穩(wěn)定且易于識別。面部肌肉記錄的表面肌電信號實(shí)現(xiàn)語音信號語音識別,輔助發(fā)音障礙者交流。研究結(jié)果證明,對10個數(shù)字的詞匯使用肌電信號有較好的分類準(zhǔn)確度。實(shí)驗表明用表面肌電信號提高常規(guī)的語音識別系統(tǒng)有著極好的前景。但是做使用肌電信號實(shí)現(xiàn)語音識別系統(tǒng)的可行性結(jié)論前,還需進(jìn)一步研究。首先,必須研究擴(kuò)展測試條件,如連續(xù)的語音、更少強(qiáng)調(diào)發(fā)音、講話速率的最小變化。生理上的變化也可能影響肌電信號。
參考文獻(xiàn)
1 王新德,湯曉芙,崔麗英等.神經(jīng)病學(xué)(2)——神經(jīng)系統(tǒng)臨床電生理學(xué),人民軍醫(yī)出版社,2002
2 Morse,M.S., O′Brien, E.M. Research summary of a scheme to ascertain the availability of speech information in the myoelectric signals of neck and head muscles using surface electrodes.Computers in Biology and Medicine,1986;16(6):399~410
3 Day, S.H. (1990): Recognition of speech uti-lizing the myoelectric signals of neck muscles- An advanced study in the time domain, M.Sc.Thesis, Auburn University.
4 司風(fēng)琪,洪軍,徐治皋.基于向量投影的數(shù)據(jù) 檢驗PCA方法.中國電機(jī)工程學(xué)報,2002;10
5 Richard O. Duda Peter E. Hart David G. stork著,李宏東, 姚天翔譯. 模式分類.北京:機(jī)械工業(yè)出版社,2003