摘 要: 語(yǔ)音激活檢測(cè)技術(shù)是應(yīng)用于語(yǔ)音偵聽(tīng)領(lǐng)域降低節(jié)點(diǎn)能耗的關(guān)鍵技術(shù)之一,其核心是語(yǔ)音激活檢測(cè)算法。針對(duì)基于統(tǒng)計(jì)模型的語(yǔ)音激活檢測(cè)算法僅采用當(dāng)前語(yǔ)音幀的參數(shù)來(lái)判斷有無(wú)語(yǔ)音信號(hào)而帶來(lái)的誤檢率高的問(wèn)題,提出用相鄰語(yǔ)音幀邏輯與運(yùn)算的方法對(duì)其進(jìn)行改進(jìn)。試驗(yàn)表明:改進(jìn)后的算法在誤檢率上明顯低于改進(jìn)前,提高了語(yǔ)音信號(hào)檢測(cè)的準(zhǔn)確性,有效地降低了節(jié)點(diǎn)能耗。
關(guān)鍵詞: 統(tǒng)計(jì)模型;語(yǔ)音激活檢測(cè);檢測(cè)算法
0 引言
語(yǔ)音激活檢測(cè)技術(shù)是利用語(yǔ)音激活檢測(cè)算法,僅當(dāng)檢測(cè)到語(yǔ)音信號(hào)時(shí)激活節(jié)點(diǎn),使之從休眠狀態(tài)轉(zhuǎn)換到工作狀態(tài),其余時(shí)間處于休眠狀態(tài),是降低節(jié)點(diǎn)能耗的關(guān)鍵技術(shù)之一?;诮y(tǒng)計(jì)模型的語(yǔ)音激活檢測(cè)算法,通過(guò)選取特征參數(shù)建立統(tǒng)計(jì)分布模型,根據(jù)當(dāng)前幀的信息計(jì)算出模型中的未知參數(shù),得出判決準(zhǔn)則,并據(jù)此判斷有無(wú)語(yǔ)音信號(hào)[1]。其優(yōu)點(diǎn)是能夠適應(yīng)時(shí)變?cè)肼暤奶攸c(diǎn),在復(fù)雜環(huán)境下,檢測(cè)的準(zhǔn)確率較高[2-4]。但只根據(jù)當(dāng)前語(yǔ)音幀的參數(shù)來(lái)判斷有無(wú)語(yǔ)音信號(hào)具有一定的局限性,極易出現(xiàn)誤判的情況。因此,對(duì)基于統(tǒng)計(jì)模型的語(yǔ)音激活檢測(cè)算法加以改進(jìn)來(lái)降低誤檢率,對(duì)語(yǔ)音偵聽(tīng)領(lǐng)域具有十分重要的意義。
1 基于統(tǒng)計(jì)模型的語(yǔ)音激活檢測(cè)算法
1.1 算法的基本步驟
基于統(tǒng)計(jì)模型的語(yǔ)音激活檢測(cè)算法[2-3,5]以貝葉斯定理和似然比檢驗(yàn)為基礎(chǔ),檢驗(yàn)過(guò)程分提出假設(shè)、分析參數(shù)和檢驗(yàn)判決三步。
1.1.1 提出假設(shè)
待測(cè)音信號(hào)X有兩種假設(shè):一是只有噪聲N存在,則原假設(shè)H0為真,判定未檢測(cè)到語(yǔ)音;二是語(yǔ)音S與噪聲N同時(shí)存在(S與N互不相關(guān)),則備選假設(shè)H1為真,判定檢測(cè)到語(yǔ)音,可以描述為:
H0∶X(t)=N(t)(1)
判定不存在語(yǔ)音信號(hào)。
H1∶X(t)=N(t)+S(t)(2)
判定存在語(yǔ)音信號(hào)。
1.1.2 分析參數(shù)
首先要根據(jù)其頻率特征進(jìn)行周期性采樣,使波形參數(shù)由連續(xù)時(shí)間序列變?yōu)殡x散時(shí)間序列。然后根據(jù)采樣信號(hào)的振幅絕對(duì)值描繪直方圖,計(jì)算概率密度表達(dá)式,將模擬的語(yǔ)音信號(hào)用數(shù)字參數(shù)表示出來(lái)[1]。第t幀加噪信號(hào)、純語(yǔ)音信號(hào)和噪聲信號(hào)的離散傅里葉變換系數(shù)如下。
X(t)=[X0(t),X1(t),…,XM-1(t)]T(3)
S(t)=[S0(t),S1(t),…,SM-1(t)]T(4)
N(t)=[N0(t),N1(t),…,NM-1(t)]T(5)
在X(t)、S(t)、N(t)中,第k個(gè)譜分量的系數(shù)分別為Xk、Sk和Nk。用Xk(R)和Xk(I)分別表示離散傅里葉變換系數(shù)Xk的實(shí)部和虛部,假設(shè)每個(gè)DFT系數(shù)的實(shí)部和虛部都服從拉普拉斯概率密度函數(shù),如果其實(shí)部和虛部的方差相同,則Xk(R)和Xk(I)的概率密度分布如式(6)和式(7)所示。
其中,是指Xk方差的平方根。因?yàn)閄k的實(shí)部和虛部近似獨(dú)立,其方差可以看作相等,則Xk的概率密度函數(shù)可以表示為[1,6]:
H0和H1的條件概率密度函數(shù)分別為:
其中,λs,k和λn,k分別代表Sk和Nk的方差。
1.1.3 檢驗(yàn)判決
根據(jù)兩個(gè)假設(shè)的條件概率密度函數(shù),計(jì)算出第k個(gè)頻譜分量的似然比:
其中,Λk是基于拉普拉斯統(tǒng)計(jì)分布模型的語(yǔ)音激活檢測(cè)算法的第k個(gè)頻譜分量的判決統(tǒng)計(jì)量。將加噪語(yǔ)音分析后,根據(jù)式(11)計(jì)算出信號(hào)第k個(gè)頻譜分量的似然比,在實(shí)際應(yīng)用中,為了使計(jì)算簡(jiǎn)單,可以用瞬時(shí)譜幅度|Xk|代替。
兩個(gè)假設(shè)的拉普拉斯概率密度如圖1所示。在兩個(gè)概率密度曲線的交點(diǎn)處,P(Xk|H0)=P(Xk|H1),似然比Λk=1;在兩個(gè)交點(diǎn)之間,P(Xk|H0)>P(Xk|H1),Λk<1,H1的概率小于H0的概率,H0成立,檢測(cè)不存在語(yǔ)音信號(hào);在兩個(gè)交點(diǎn)之外,P(Xk|H0)<P(Xk|H1),Λk>1,則H1的概率大于H0的概率,H1成立,即檢測(cè)到語(yǔ)音信號(hào)。
1.2 算法的流程
基于統(tǒng)計(jì)模型的語(yǔ)音激活檢測(cè)算法流程如圖2所示。
2 算法的改進(jìn)
2.1 改進(jìn)的思想
算法的改進(jìn)參照邏輯與運(yùn)算的思想,真值表如表1所示。在基于統(tǒng)計(jì)模型算法的基礎(chǔ)上:(1)如果第k幀(k為大于等于1的正整數(shù))信號(hào)檢測(cè)判定結(jié)果是“0”,第k-1幀信號(hào)輸出結(jié)果是“0”,那么經(jīng)過(guò)與運(yùn)算的結(jié)果是“0”,表示無(wú)語(yǔ)音信號(hào);(2)如果第k幀信號(hào)檢測(cè)判定結(jié)果是“0”,第k-1幀信號(hào)檢測(cè)判定結(jié)果是“1”,與運(yùn)算后的結(jié)果是“0”,同樣判斷無(wú)語(yǔ)音信號(hào);(3)如果第k幀信號(hào)檢測(cè)判定的結(jié)果是“1”,第k-1幀信號(hào)檢測(cè)判定結(jié)果是“0”,那么經(jīng)過(guò)與運(yùn)算的結(jié)果還是“0”,依然判為無(wú)語(yǔ)音信號(hào);(4)只有兩次檢測(cè)的結(jié)果均為“1”,與運(yùn)算后的結(jié)果才是“1”,才能證明有語(yǔ)音信號(hào)存在。只有當(dāng)前幀信號(hào)的判決結(jié)果是“1”時(shí),才有可能判斷有語(yǔ)音信號(hào)存在。所以為簡(jiǎn)便判決,只在當(dāng)前幀判決結(jié)果為“1”時(shí)執(zhí)行與運(yùn)算。
2.2 改進(jìn)算法的流程
改進(jìn)算法的工作原理是將一段語(yǔ)音信號(hào)采樣分幀處理后,對(duì)第k幀信號(hào)依據(jù)上節(jié)的檢測(cè)激活算法完成檢驗(yàn)判決,將結(jié)果存于寄存器,若結(jié)果為“0”,返回繼續(xù)完成后續(xù)幀的檢驗(yàn);若結(jié)果為“1”,與上一幀信號(hào)進(jìn)行與運(yùn)算,根據(jù)運(yùn)算結(jié)果完成最后判決。改進(jìn)后的算法流程如圖3所示。
3 改進(jìn)算法的驗(yàn)證與分析
3.1 試驗(yàn)步驟和結(jié)果
語(yǔ)音信號(hào)的檢測(cè)仿真選用MATLAB平臺(tái)。仿真主要完成不同噪聲環(huán)境下基于統(tǒng)計(jì)模型的語(yǔ)音激活檢測(cè)算法(用算法1表示)和其改進(jìn)算法(用算法2表示)誤檢率的測(cè)試。
試驗(yàn)步驟如下:(1)在較為安靜的環(huán)境下錄制一段長(zhǎng)約6 s的語(yǔ)音片段作為原始樣本,保存為.wav格式;(2)將語(yǔ)音原始樣本分別與車(chē)輛噪聲和人群噪聲混合;(3)將混合信號(hào)在信噪比0~20 dB之間應(yīng)用兩種檢測(cè)算法進(jìn)行仿真,得出誤判率。試驗(yàn)結(jié)果如圖4、圖5所示。
3.2 試驗(yàn)結(jié)果分析
在車(chē)輛噪聲環(huán)境下,算法的誤檢率隨信噪比的增加而增加,這是由于車(chē)輛噪聲和語(yǔ)音信號(hào)的差異性導(dǎo)致信噪比增加時(shí)算法的正確率和錯(cuò)誤率同時(shí)增加,而錯(cuò)誤率的增長(zhǎng)幅度大于正確率的增長(zhǎng)幅度。在人群噪聲環(huán)境下,算法的誤檢率隨信噪比的增加而減少。
在兩種噪聲環(huán)境且信噪比相同的情況下,改進(jìn)后的算法在語(yǔ)音信號(hào)的誤檢率上均明顯低于改進(jìn)前的誤檢率,提高了語(yǔ)音信號(hào)檢測(cè)的準(zhǔn)確性;而語(yǔ)音激活檢測(cè)技術(shù)是當(dāng)且僅當(dāng)檢測(cè)到語(yǔ)音信號(hào)時(shí),才激活語(yǔ)音偵聽(tīng)節(jié)點(diǎn)從休眠狀態(tài)轉(zhuǎn)換為工作狀態(tài),因此改進(jìn)后的算法降低了節(jié)點(diǎn)能耗,延長(zhǎng)了節(jié)點(diǎn)的生命周期。
4 結(jié)論
改進(jìn)的基于統(tǒng)計(jì)模型的語(yǔ)音激活檢測(cè)算法是通過(guò)相鄰幀邏輯與的方法來(lái)實(shí)現(xiàn)的。試驗(yàn)結(jié)果表明:算法改進(jìn)后,語(yǔ)音信號(hào)的誤檢率明顯低于改進(jìn)之前,降低了節(jié)點(diǎn)能耗,延長(zhǎng)了節(jié)點(diǎn)壽命,適用于便攜式語(yǔ)音檢測(cè)裝置中。
參考文獻(xiàn)
[1] 彭利華.高噪聲環(huán)境下語(yǔ)音激活檢測(cè)技術(shù)的研究[D].武漢:華中科技大學(xué),2007.
[2] SOHN J S, SUNG W Y. A voice activity detector employing soft decision based noise spectrum adaptation[C]. Proceeding of the IEEE Speech Coding Workshop, 1998:365-368.
[3] CHO Y D, KONDOZ A. Analysis and improvement of a statisticalmodel-based voice activity detector[J]. IEEE Signal Processing Letters, 2001,8(10):276-278.
[4] 戴啟軍,卞正中,陳硯圃,等.基于統(tǒng)計(jì)模型實(shí)現(xiàn)語(yǔ)音信號(hào)有聲/無(wú)聲檢測(cè)的研究[J].西安交通大學(xué)學(xué)報(bào),2002,36(8):839-846.
[5] EPHRAIM Y, MALAH D. Speech enhancement using a minimummean-square error short-time spectral amplitude estimator[J]. IEEE Transactions on Acoust Speech and Signal Processing,1984,32(6):1109-1121.
[6] 景占榮,羊彥.信號(hào)檢測(cè)與估計(jì)[M].北京:化學(xué)工業(yè)出版社,2004.