《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 設(shè)計(jì)應(yīng)用 > 一種基于分帶譜熵的語(yǔ)音激活檢測(cè)算法
一種基于分帶譜熵的語(yǔ)音激活檢測(cè)算法
來(lái)源:微型機(jī)與應(yīng)用2010年第20期
張 敏
(湖南郵政公司, 湖南 長(zhǎng)沙410012)
摘要: 為了提高語(yǔ)音激活檢測(cè)在汽車內(nèi)部噪聲環(huán)境下的檢測(cè)性能,提出了一種基于分帶譜熵的語(yǔ)音激活檢測(cè)算法。將實(shí)驗(yàn)仿真結(jié)果與ITU標(biāo)準(zhǔn)G.729B中的檢測(cè)性能進(jìn)行了分析比較,結(jié)果表明,該算法在汽車內(nèi)部噪聲環(huán)境下具有較高的準(zhǔn)確率和穩(wěn)定性,且算法的復(fù)雜度較低,具有一定的實(shí)用價(jià)值。
Abstract:
Key words :

摘   要: 為了提高語(yǔ)音激活檢測(cè)汽車內(nèi)部噪聲環(huán)境下的檢測(cè)性能,提出了一種基于分帶譜熵的語(yǔ)音激活檢測(cè)算法。將實(shí)驗(yàn)仿真結(jié)果與ITU標(biāo)準(zhǔn)G.729B中的檢測(cè)性能進(jìn)行了分析比較,結(jié)果表明,該算法在汽車內(nèi)部噪聲環(huán)境下具有較高的準(zhǔn)確率和穩(wěn)定性,且算法的復(fù)雜度較低,具有一定的實(shí)用價(jià)值。
關(guān)鍵詞: 語(yǔ)音激活檢測(cè);分帶譜熵;汽車內(nèi)部噪聲

    語(yǔ)音激活檢測(cè)VAD(Voice Activity Detection)指采用一定的信號(hào)處理技術(shù)來(lái)檢測(cè)信號(hào)中是否包含語(yǔ)音信號(hào),并且從背景噪聲中找出每一段語(yǔ)音的開始和終止,以明確找出語(yǔ)音信號(hào)存在的范圍。目前該技術(shù)被廣泛應(yīng)用在語(yǔ)音編碼、語(yǔ)音增強(qiáng)、語(yǔ)音合成、回聲抵消以及語(yǔ)音通信等領(lǐng)域。
    語(yǔ)音激活檢測(cè)的研究歷史很長(zhǎng),從最早的基于短時(shí)能量、過(guò)零率的判斷,到基于語(yǔ)音模型和統(tǒng)計(jì)知識(shí)的各種復(fù)雜算法,語(yǔ)音激活檢測(cè)算法的原理和實(shí)現(xiàn)方法都在不斷地更新。近年來(lái),一些學(xué)者提出了基于支持向量機(jī)[1]、小波理論[2]、神經(jīng)網(wǎng)絡(luò)[3]和循環(huán)累積量[4]等理論的檢測(cè)方法,對(duì)語(yǔ)音檢測(cè)方法的研究給出了新的思路。如何在保證算法魯棒性的同時(shí)降低算法的復(fù)雜度是一個(gè)極具挑戰(zhàn)性的問(wèn)題,也是目前語(yǔ)音激活檢測(cè)中的熱點(diǎn)問(wèn)題。本文設(shè)計(jì)了一種基于分帶譜熵的語(yǔ)音激活檢測(cè)算法,該方法采用分帶譜熵作為判決參數(shù),達(dá)到了較高的判別準(zhǔn)確率及較低的算法復(fù)雜度。
1 特征提取
    特征提取的框圖如圖1所示。首先對(duì)加噪語(yǔ)音進(jìn)行分幀和加窗處理,然后進(jìn)行時(shí)頻變換,由參考文獻(xiàn)[5]知,與常用的FFT相比,用離散余弦變換譜熵來(lái)區(qū)分噪聲與語(yǔ)音具有更大的隔離度,因此本文選用離散余弦變換(DCT)。離散余弦變換的定義式為:    


    在DCT變換之后,對(duì)DCT系數(shù)進(jìn)行分帶,分成32個(gè)子帶,然后分別計(jì)算它的能量,其計(jì)算公式為:

    為了提高概率密度函數(shù)分辨語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)的能力,提出了一些經(jīng)驗(yàn)性的約束。首先,由于大部分語(yǔ)音信號(hào)都在250 Hz~6 000 Hz頻帶內(nèi),因此有:
   
    為進(jìn)一步提高語(yǔ)音激活檢測(cè)的準(zhǔn)確率,本文采用短時(shí)平均能量進(jìn)行加權(quán)的方法,即:
 


    從圖2(c)和圖2(d)可以看出,加權(quán)譜熵對(duì)幀能量更加敏感,而通過(guò)對(duì)其取對(duì)數(shù),在一定程度上降低了能量的影響。正因?yàn)槿绱耍疚牟捎眉訖?quán)譜熵的對(duì)數(shù)值作為特征量,提高了算法的魯棒性。
2 語(yǔ)音激活檢測(cè)算法
 (1) 對(duì)輸入的語(yǔ)音信號(hào)s(n)進(jìn)行分幀處理,幀長(zhǎng)32 ms (256個(gè)樣點(diǎn)),得到每幀信號(hào)si(n),i表示第i幀,并對(duì)si(n)進(jìn)行加窗處理,窗函數(shù)采用漢明窗。
 (2) 自適應(yīng)閾值的確定??珊侠砑僭O(shè)待檢測(cè)語(yǔ)音的前幾幀是非語(yǔ)音信號(hào),本文中假設(shè)前10幀為非語(yǔ)音信號(hào),計(jì)算其加權(quán)譜熵的對(duì)數(shù)值,然后求它們的最大值,門限值就是前10幀信號(hào)的加權(quán)譜熵的對(duì)數(shù)值中的最大值。
   (3) 計(jì)算每一幀信號(hào)的加權(quán)譜熵的對(duì)數(shù)值,然后把它與門限值進(jìn)行比較。如果大于門限值,則判為語(yǔ)音幀,否則判為噪聲幀或靜音幀。
 (4)對(duì)判決結(jié)果進(jìn)行平滑處理。為了有效地避免激活狀態(tài)的頻繁切換,本文對(duì)判決結(jié)果進(jìn)行平滑后處理。由于無(wú)論是非語(yǔ)音信號(hào)還是語(yǔ)音信號(hào),一般都會(huì)持續(xù)一段時(shí)間,因此為了剔除判決時(shí)的少數(shù)壞點(diǎn),在判決結(jié)束后加入了平滑后處理。即:

3 仿真與實(shí)驗(yàn)結(jié)果
    本文的算法用VC、Matlab進(jìn)行仿真。圖3所示為原始語(yǔ)音、加噪語(yǔ)音(噪聲為汽車內(nèi)部噪聲,信噪比為0 dB)、人工標(biāo)注的結(jié)果和使用本文算法檢測(cè)的結(jié)果。圖3(a)是一段純凈語(yǔ)音,其采樣率為8 000 Hz。圖3(b)是加噪語(yǔ)音,所加噪聲為汽車內(nèi)部噪聲,信噪比為0 dB。圖3(c)為本文算法檢測(cè)的結(jié)果。圖3(d)為人工標(biāo)注的結(jié)果。由圖3(c)可以看出,本文的方法對(duì)低信噪比條件下的語(yǔ)音依然具有較好的分類效果。

    為進(jìn)一步說(shuō)明本文算法對(duì)加噪語(yǔ)音進(jìn)行檢測(cè)的魯棒性,對(duì)本文算法和G.729B中的VAD算法進(jìn)行對(duì)比。對(duì)1 000幀中文信號(hào)進(jìn)行實(shí)驗(yàn), 測(cè)試環(huán)境分別選取了-5 dB、 0 dB、5 dB、10 dB、20 dB、30 dB等6個(gè)不同的信噪比,充分體現(xiàn)了算法在不同信噪比下的性能。圖4給出了不同算法在相同背景噪聲類型(都為汽車內(nèi)部噪聲)、不同信噪比情況下的檢測(cè)準(zhǔn)確率。
    從圖4可以看出,本文算法的性能基本上不隨信噪比的變化而變化。同時(shí)可以看出當(dāng)信噪比逐漸降低時(shí),G.729B算法性能有了明顯的下降。

    本文中提出了一種能夠準(zhǔn)確進(jìn)行VAD判決的算法。該算法提取了加權(quán)譜熵的對(duì)數(shù)值作為特征,然后通過(guò)自適應(yīng)閾值,實(shí)現(xiàn)語(yǔ)音和靜音(或噪聲)的準(zhǔn)確檢測(cè)。實(shí)驗(yàn)結(jié)果表明,該語(yǔ)音激活檢測(cè)算法在汽車內(nèi)部噪聲條件具有較高的準(zhǔn)確率和穩(wěn)定性,是一種有效、簡(jiǎn)單的語(yǔ)音激活檢測(cè)算法。
參考文獻(xiàn)
[1] 齊峰巖,鮑長(zhǎng)春. 一種基于支持向量機(jī)的含噪語(yǔ)音的清/濁/靜音分類的新方法[J].電子學(xué)報(bào),2006,34(4):605-611.
[2] AGHAJANI K H, MANZURI M T, KARAMI M, et al. A robust voice activity detection based on wavelet transform. 2008 Second International Conference on Electrical Engineering (ICEE). Lahore, Pakistan,2008.
[3] 柳燕,鮑長(zhǎng)春. 基于競(jìng)爭(zhēng)網(wǎng)絡(luò)的語(yǔ)音激活算法研究[J].信號(hào)處理,2006,22 (1):57-60.
[4] 竇慧晶,李如瑋,鮑長(zhǎng)春. 一種基于循環(huán)累積量的語(yǔ)音激活檢測(cè)算法[C].黃山:第九屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC2007),2007.
[5] 汪濤,胡劍凌.基于低信噪比條件下的VAD算法研究[J].電子工程師,2005,31(2):42-45.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。