国产VA免费精品观看精品,嫩草欧美一二三四,久久精品天天爽夜夜爽

一種用于抗噪語(yǔ)音識(shí)別的動(dòng)態(tài)參數(shù)補(bǔ)償新方法

摘要： 本文提出了一種新的動(dòng)態(tài)模型補(bǔ)償方法(DPCM)。DPCM選定語(yǔ)音特征與噪聲特征的差為一個(gè)新的附加隨機(jī)變量，并假設(shè)該附加變量與語(yǔ)音和噪聲特征的導(dǎo)數(shù)之間均相互統(tǒng)計(jì)獨(dú)立。這樣，動(dòng)態(tài)特征的補(bǔ)償即可通過(guò)數(shù)學(xué)的方法來(lái)解決。

關(guān)鍵詞： 信號(hào)調(diào)理語(yǔ)音識(shí)別動(dòng)態(tài)參數(shù)補(bǔ)償 PMC

Abstract：

Key words :

　　1 引言

　　與機(jī)器進(jìn)行語(yǔ)音交流，是人們長(zhǎng)期以來(lái)夢(mèng)寐以求的事情。語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)，其被認(rèn)為是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。在語(yǔ)音識(shí)別中，當(dāng)識(shí)別器的訓(xùn)練環(huán)境同應(yīng)用環(huán)境不同時(shí)，其性能會(huì)急劇下降。為了解決這一問(wèn)題，各種技術(shù)方法陸續(xù)地被提了出來(lái)，這些技術(shù)方法主要分為三大類：1)語(yǔ)音魯棒特征的表達(dá)和提取技術(shù)；2)語(yǔ)音增強(qiáng)技術(shù)；3)模型補(bǔ)償技術(shù)。關(guān)于這些方法的詳細(xì)回顧可參見(jiàn)文獻(xiàn)。本文的討論重點(diǎn)是模型補(bǔ)償技術(shù)。模型補(bǔ)償技術(shù)主要是通過(guò)合并純凈語(yǔ)音模型與噪聲模型，從而產(chǎn)生出用于識(shí)別的帶噪語(yǔ)音模型。文獻(xiàn)中已經(jīng)證明PMC方法是一種非常有效的模型補(bǔ)償方法，它能產(chǎn)生出具有魯棒性的帶噪語(yǔ)音模型，這些文獻(xiàn)中并且給出了幾種不同的PMC方法。在這些PMC方法中，一些諸如數(shù)字積分PMC(Numerical Integral PMC)和數(shù)據(jù)驅(qū)動(dòng)PMC(Date—driven PMC)方法能夠獲得很佳的識(shí)別率，但是這些方法的運(yùn)算復(fù)雜度巨大，很難運(yùn)用到實(shí)際應(yīng)用中去。另一方面，一些諸如對(duì)數(shù)_力口PMC(Log-Add PMC)和對(duì)數(shù)．正態(tài)PMC(Log—Normal PMC)方法通過(guò)使用較簡(jiǎn)單的估計(jì)方法來(lái)生成帶噪語(yǔ)音模型，這樣在很低信噪比的條件下識(shí)別效果不是很令人滿意。其中Log-Normal PMC方法對(duì)靜態(tài)模型參數(shù)給出一個(gè)嚴(yán)格的補(bǔ)償方案，但是對(duì)動(dòng)態(tài)模型參數(shù)，到目前為止只能對(duì)其均值進(jìn)行簡(jiǎn)單的補(bǔ)償。雖然這種動(dòng)態(tài)的均值補(bǔ)償可以提高識(shí)別率，但是算法仍有改進(jìn)的空間，使其能夠?yàn)閯?dòng)態(tài)的協(xié)方差參數(shù)提供補(bǔ)償。

　　為了解決這一問(wèn)題，本文提出了一種新的動(dòng)態(tài)模型補(bǔ)償方法(DPCM)。DPCM選定語(yǔ)音特征與噪聲特征的差為一個(gè)新的附加隨機(jī)變量，并假設(shè)該附加變量與語(yǔ)音和噪聲特征的導(dǎo)數(shù)之間均相互統(tǒng)計(jì)獨(dú)立。這樣，動(dòng)態(tài)特征的補(bǔ)償即可通過(guò)數(shù)學(xué)的方法來(lái)解決。此外新的DPCM可以同任何已知的靜態(tài)補(bǔ)償方法結(jié)合生成新的帶噪語(yǔ)音模型。實(shí)驗(yàn)結(jié)果也證明使用該DPCM可以提供更好的識(shí)別率。

　　本文定義和使用一致的域標(biāo)號(hào)。上標(biāo)l表示對(duì)數(shù)功率譜域，無(wú)上標(biāo)的則表示Mel線性功率譜域。估計(jì)出的噪聲模型參數(shù)用～標(biāo)記，補(bǔ)償出的帶噪語(yǔ)音模型參數(shù)用^標(biāo)記。

　　2 模型補(bǔ)償技術(shù)

　　模型補(bǔ)償技術(shù)是根據(jù)應(yīng)用環(huán)境的背景噪聲情況，通過(guò)修正純凈語(yǔ)音特征的統(tǒng)計(jì)模型產(chǎn)生出一個(gè)更接近真實(shí)帶噪語(yǔ)音特征的統(tǒng)計(jì)模型。圖1是一個(gè)基本模型補(bǔ)償方案框圖，輸入為一個(gè)純凈的語(yǔ)音模型(目前一般采用HMM對(duì)語(yǔ)音建模)和一個(gè)估計(jì)出的噪聲模型?？偟膩?lái)講，模型補(bǔ)償依據(jù)補(bǔ)償進(jìn)行的域不同可以分為兩類：線性譜域補(bǔ)償算法和對(duì)數(shù)譜域補(bǔ)償算法。

基本模型補(bǔ)償方案框圖

　　對(duì)于Log-Normal PMC(見(jiàn)圖1-II)，純凈語(yǔ)音模型同噪聲模型的合并是在線性譜域進(jìn)行。那么純凈語(yǔ)音和噪聲模型的參數(shù)先要從倒譜域變換到對(duì)數(shù)譜域，然后再映射到線性譜域。在線性譜域進(jìn)行模型的合并，然后進(jìn)行相反的操作把模型參數(shù)映射變換回倒譜域。另一方面，Log—Add PMC(見(jiàn)圖1一I)模型的補(bǔ)償是在對(duì)數(shù)譜域進(jìn)行。

　　通常的噪聲信號(hào)有兩類：卷積噪聲(信道的頻率響應(yīng))和加性噪聲。在本文中僅考慮加性噪聲情況。在文章中采用以下假設(shè)：1)噪聲是平穩(wěn)加性噪聲，噪聲和語(yǔ)音信號(hào)是相互統(tǒng)計(jì)獨(dú)立的；2)每個(gè)子帶的對(duì)數(shù)頻譜域的特征(功率譜)分布被認(rèn)為是(混合)高斯分布，Mel線性譜域的特征分布被認(rèn)為是(混合)對(duì)數(shù)一正態(tài)分布。那么在Mel線性譜域第k個(gè)子帶帶噪語(yǔ)音特征Yk為：

　　其中Xk和Nk分別是線性頻譜域的純凈語(yǔ)音和噪聲子帶特征(“觀測(cè)”)。g是調(diào)節(jié)噪聲和語(yǔ)音的縮放比例因子，為了表達(dá)簡(jiǎn)單起見(jiàn)，在后面的算法公式中省略此縮放比例因子g。那么對(duì)數(shù)頻譜域子帶的帶噪語(yǔ)音特征Ykl同純凈語(yǔ)音特征Xkl和噪聲特征Nkl的失配函數(shù)為：

　　2．1 靜態(tài)特征補(bǔ)償

　　對(duì)于Log-Normal PMC靜態(tài)模型特征補(bǔ)償?shù)暮诵乃惴ㄊ菍?duì)數(shù)譜域與線性譜域之間的非線性映射同線性譜域模型的合并，即：

　　其中k、l分別為第k、l個(gè)子帶。

　　對(duì)于Log—Add PMC靜態(tài)模型特征補(bǔ)償?shù)闹粚?duì)均值進(jìn)行補(bǔ)償：

　　2．2 動(dòng)態(tài)特征補(bǔ)償

　　由于推導(dǎo)出嚴(yán)格的Log—Normal PMC動(dòng)態(tài)特征補(bǔ)償算法非常困難，目前對(duì)Log—Normal PMC的動(dòng)態(tài)特征補(bǔ)償一般采用粗略的補(bǔ)償方法，只對(duì)其均值進(jìn)行補(bǔ)償。

　　對(duì)于Log-Add PMC其動(dòng)態(tài)特征補(bǔ)償算法為：

　　3 新的動(dòng)態(tài)模型參數(shù)補(bǔ)償方法

　　在本文中，使用靜態(tài)“觀測(cè)”的時(shí)間導(dǎo)數(shù)作為動(dòng)態(tài)的“觀測(cè)”。這樣，動(dòng)態(tài)特征的失配函數(shù)就應(yīng)等于靜態(tài)特征的失配函數(shù)的一階導(dǎo)函數(shù)。根據(jù)(2)，動(dòng)態(tài)特征失配函數(shù)為：

　　定義一個(gè)附加的隨機(jī)變量Zkl，定義為Zkl=Nkl一Xkl。由于Nkl和Xkl均為正態(tài)分布，并且他們之間相互獨(dú)立，那么隨機(jī)變量Zkl也是一個(gè)正態(tài)分布。其的均值和方差分別可以表示為μZkl=μNkl-μXkl和那么動(dòng)態(tài)失配函數(shù)(9)就可以進(jìn)一步改寫成含Zkl的函數(shù)。

　　由于假設(shè)背景噪聲為平穩(wěn)加性噪聲，那么噪聲動(dòng)態(tài)特征的均值就可以被近似為零。本文還假設(shè)附加的隨機(jī)變量同語(yǔ)音和噪聲的動(dòng)態(tài)特征不相關(guān)。這個(gè)假設(shè)也是DPCM的核心本質(zhì)假設(shè)。由于靜態(tài)特征與其微分變換量之間是松相關(guān)的，所以這個(gè)假設(shè)是比較合理的。

　　3．1 均值補(bǔ)償

　　依據(jù)失配函數(shù)(10)和上述假設(shè)，對(duì)數(shù)譜域的帶噪語(yǔ)音特征的統(tǒng)計(jì)均值為：

　　其中

　　參數(shù)ti和ωi(i=l～n)是Hermite多項(xiàng)式Hn(t)的橫坐標(biāo)和對(duì)應(yīng)的權(quán)值。

　　3．2 協(xié)方差補(bǔ)償

　　同樣根據(jù)(10)和相關(guān)假設(shè)，可以獲得對(duì)數(shù)譜域的帶噪語(yǔ)音特征的協(xié)方差補(bǔ)償算法。

　　其中

　　且

　　附加隨機(jī)變量Zkl的引入以及附加隨機(jī)變量與語(yǔ)音和噪聲的動(dòng)態(tài)特征不相關(guān)假設(shè)的使用降低了動(dòng)態(tài)模型補(bǔ)償問(wèn)題的求解維數(shù)。這種維數(shù)的降低同Gauss-Hermite數(shù)字積分的應(yīng)用，使得新的DPCM成為一種十分有效的動(dòng)態(tài)模型補(bǔ)償方法。

　　4 算法評(píng)估

　　算法評(píng)估實(shí)驗(yàn)采用基于孤立字的6狀態(tài)HMM來(lái)做識(shí)別器。每個(gè)狀態(tài)有4個(gè)高斯密度函數(shù)。選取24個(gè)MFCC(12個(gè)靜態(tài)特征，12個(gè)動(dòng)態(tài)特征)作為語(yǔ)音特征。訓(xùn)練階段，用純凈語(yǔ)音訓(xùn)練出純凈語(yǔ)音模型。在識(shí)別階段，使用純凈語(yǔ)音模型作為基本模型來(lái)識(shí)別。

　　使用TI—digits為算法評(píng)估語(yǔ)音庫(kù)，選用數(shù)據(jù)庫(kù)中有16個(gè)人(8男8女)的5081個(gè)短句，其中包含20個(gè)孤立詞，數(shù)字‘0’到‘9’和10個(gè)附加命令如‘go’、‘help’、‘repeate’等。訓(xùn)練集含有641句，測(cè)試集包括5081句。算法分析窗口的長(zhǎng)度為32ms，幀速率為9．6ms／幀。選取NOISEX-92中的White、Pink和Destoryerengine 3種噪聲作為評(píng)估的環(huán)境噪聲。使用200幀非重疊的噪聲來(lái)估計(jì)噪聲模型。全局信噪比定義為：

　　其中Pm(k)是第m幀的純凈語(yǔ)音功率普，N(k)是估計(jì)的噪聲能量平均譜，H是每句的語(yǔ)音幀數(shù)，L是FFT的長(zhǎng)度，g是縮放因子讓所加的噪聲符合指定的全局信噪比。帶噪語(yǔ)音由(20)生成。

　　其中y(i)是帶噪語(yǔ)音，x(i)和n(i)分別是純凈語(yǔ)音和噪聲。對(duì)于文中語(yǔ)音的動(dòng)態(tài)特征參數(shù)是依據(jù)(21)獲得。

　　為了比較DPCM方法的性能，采用5種識(shí)別方法：失配情況下的識(shí)別，Log—Add PMC，Log—Normal PMC，以及Log-AddPMC與Log—Normal PMC和DPCM相結(jié)合的方法。

　　圖2給出了White Noise環(huán)境下Gauss—Hermite積分項(xiàng)數(shù)n與識(shí)別率及算法復(fù)雜度關(guān)系。從圖中可以看出隨著積分項(xiàng)n的增加，兩種方法的識(shí)別率都沒(méi)有明顯的變化。但是算法的復(fù)雜度卻隨著n的增加而增加。結(jié)果說(shuō)明n=2的Gauss—Hermite積分可以提供足夠的計(jì)算精度。因此在DPCM 中采用n=2，即

White Noise環(huán)境下Gauss—Hermite積分項(xiàng)數(shù)n與識(shí)別率及算法復(fù)雜度關(guān)系

　　表1～表3列出的是在不同噪聲環(huán)境和信噪比條件下的各種算法的識(shí)別率?？梢钥闯鍪褂醚a(bǔ)償算法的識(shí)別率比失配情況下有很大的提高。在-5dB條件下，使用了DPCM的識(shí)別方法對(duì)各種噪聲語(yǔ)音的平均識(shí)別率比僅使用Log—Add PMC和Log—NormalPMC的方法有絕對(duì)的7．5％和6．6％增加，在0dB情況下絕對(duì)增加值分別為8％和7．3％。在信噪比5—10dB下，有含DPCM方法的識(shí)別率比其他兩種算法仍然有性能上的提高。

在不同噪聲環(huán)境和信噪比條件下的各種算法的識(shí)別率

　　表4列出了更新每個(gè)狀態(tài)的4個(gè)高斯密度分布中的單個(gè)高斯密度分布時(shí)，靜態(tài)均值和方差以及動(dòng)態(tài)均值和方差(注：Log—Add PMC算法只對(duì)均值補(bǔ)償)從倒譜域變化到對(duì)數(shù)譜域、在對(duì)數(shù)譜域進(jìn)行模型補(bǔ)償、以及從對(duì)數(shù)譜域變回倒譜域所需的乘法、除法、指數(shù)運(yùn)算以及對(duì)數(shù)運(yùn)算的次數(shù)。其中N和M分別表示在倒譜域和對(duì)數(shù)譜域特征的維數(shù)。從表中可看出含有DPCM的算法復(fù)雜度比其原始算法的復(fù)雜度只有輕微的增加。

算法的復(fù)雜度

　　實(shí)驗(yàn)證明了本文的DPCM算法可以處理在不同加性噪聲環(huán)境下的語(yǔ)音識(shí)別任務(wù)，并且能夠取得比較好的識(shí)別效果。性能的提升歸功于相對(duì)應(yīng)比較準(zhǔn)確的動(dòng)態(tài)模型補(bǔ)償方法的應(yīng)用。通過(guò)這種方法的使用，含DPCM算法的識(shí)別率比目前的PMC算法有較明顯的提升。

　　5 結(jié)論

　　文中提出了一種新的動(dòng)態(tài)特征補(bǔ)償方法，并給出了反映加性噪聲的語(yǔ)音動(dòng)態(tài)特征失配函數(shù)，以及在此基礎(chǔ)上依據(jù)合理的假設(shè)，推導(dǎo)出的一系列動(dòng)態(tài)模型參數(shù)補(bǔ)償DPCM的算法公式。并且DPCM算法可以與任意的靜態(tài)模型補(bǔ)償算法結(jié)合以提高原始算法的識(shí)別率。實(shí)驗(yàn)結(jié)果表明在不同的噪聲環(huán)境下結(jié)合DPCM的PMC算法可以給出比原始PMC算法具有更好的識(shí)別率，在低信噪比條件下提升效果更為明顯。此外結(jié)合DPCM的模型補(bǔ)償算法的復(fù)雜度與原補(bǔ)償算法的復(fù)雜度基本相當(dāng)，只有輕微的增加?？梢?jiàn)DPCM算法是一種非常有效的動(dòng)態(tài)特征補(bǔ)償算法。

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容