摘 要:介紹一種融合最大" title="最大">最大后驗(yàn)概率算法和改進(jìn)的高階" title="高階">高階倒譜歸整的抗噪聲語(yǔ)音識(shí)別" title="語(yǔ)音識(shí)別">語(yǔ)音識(shí)別方法。將最大后驗(yàn)概率算法用于特征空間來(lái)估計(jì)電話通道特性(通道差的估計(jì)),用分段高階倒譜歸整進(jìn)行后續(xù)補(bǔ)償,可以同時(shí)減少電話語(yǔ)音中卷積噪聲和加性噪聲的影響。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性,與傳統(tǒng)的倒譜均值減相比,訓(xùn)練庫(kù)中識(shí)別率從46.3%提高到87.5%。
關(guān)鍵詞: 電話語(yǔ)音識(shí)別 高階倒譜規(guī)整 最大后驗(yàn)概率估計(jì) 分段
電話語(yǔ)音識(shí)別借助通信平臺(tái),實(shí)現(xiàn)了語(yǔ)音技術(shù)的更廣泛應(yīng)用,人們通過(guò)最便捷的電話方式可以查詢到遠(yuǎn)端數(shù)據(jù)庫(kù)中的所需信息,給日常生活帶來(lái)了極大的方便。然而由于電話網(wǎng)絡(luò)中各種噪聲的影響,使得語(yǔ)音識(shí)別系統(tǒng)的性能大幅度下降。電話語(yǔ)音的噪聲主要分為兩部分:背景噪聲和電噪聲的影響為加性噪聲;由電話話筒和傳輸線引起的通道影響,即卷積噪聲。盡可能地減少這兩種噪聲在電話語(yǔ)音中的影響,提高電話語(yǔ)音的魯棒性" title="魯棒性">魯棒性是系統(tǒng)達(dá)到實(shí)用化的關(guān)鍵。
針對(duì)電話語(yǔ)音魯棒性的研究,前人已經(jīng)作了很多工作,提出的一些方法如倒譜均值減[1](CMS)、CDCN[2](Codeword-Dependent Cepstral Normalization)、相對(duì)譜RASTA[3](RelAtive SpecTral)處理技術(shù)等,對(duì)減少測(cè)試環(huán)境與訓(xùn)練環(huán)境的失配都有一定的效果。但隨著噪聲的增強(qiáng),以上方法對(duì)系統(tǒng)性能的提高都非常有限。
基于最大后驗(yàn)概率(MAP)算法的自適應(yīng)方法利用Bayes理論,通過(guò)對(duì)模型參數(shù)進(jìn)行修正,顯示了相當(dāng)好的性能。為了減小模型計(jì)算的復(fù)雜度,該文也將MAP算法用于特征空間,用該算法估計(jì)電話通道影響。高階倒譜歸整是將倒譜均值減的均值歸一擴(kuò)展到更高階階矩歸一。研究發(fā)現(xiàn),當(dāng)歸一化較高階數(shù)的階矩時(shí),失配進(jìn)一步減少,帶噪語(yǔ)音信號(hào)的概率密度函數(shù)更接近干凈語(yǔ)音的概率密度函數(shù),特征參數(shù)更具有魯棒性。
本文提出了一種基于最大后驗(yàn)概率算法的估計(jì)通道影響方法,并用改進(jìn)的高階倒譜歸整作后續(xù)補(bǔ)償,將兩者結(jié)合同時(shí)提高系統(tǒng)對(duì)加性噪聲和卷積噪聲的魯棒性。實(shí)驗(yàn)表明這種方法能有效地提高電話語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率。
1 算法描述
1.1 通道估計(jì)理論
假設(shè)Y(n)表示實(shí)際的電話語(yǔ)音倒譜矢量,X(n)表示純凈語(yǔ)音的倒譜矢量,h表示通道響應(yīng)的倒譜失量。在不考慮背景噪聲的情況下有:
Y(n)=X(n)+h????????????????? (1)
1.2 MAP算法[4~5]
在MAP算法中,后驗(yàn)概率由似然函數(shù)和先驗(yàn)概率組成。由于引入了通道的先驗(yàn)統(tǒng)計(jì)特性" title="統(tǒng)計(jì)特性">統(tǒng)計(jì)特性,理論上MAP算法比最大似然估計(jì)算法(ML)估計(jì)得要準(zhǔn)確。因此,用MAP估計(jì)通道向量與均值的差,把(4)式中的△表示為△MAP,同時(shí),為了表示方便,將Y(n)-用Z來(lái)表示。
運(yùn)用MAP算法求△MAP,用公式表示為:
其中P(△h|Z)是后驗(yàn)概率,直接從(5)式中估計(jì)△MAP是很困難的,然而(5)式等價(jià)為:
為計(jì)算方便,將(6)式取對(duì)數(shù),得到:
1.3 分段高階倒譜歸整
研究發(fā)現(xiàn),加性噪聲對(duì)語(yǔ)音的影響不僅表現(xiàn)在均值的增加、方差的減少上,它還改變了倒譜的更高階階矩。為了更好地補(bǔ)償帶噪語(yǔ)音的統(tǒng)計(jì)特性,Yong Ho Suk等人提出了三階倒譜歸整[6]CTN(Cepstrum Third-order Normalisation),將歸一化的階矩提高到三階。在此基礎(chǔ)上,提出了分段三階倒譜歸整SCTN(Segmental Cepstrum Third-order Normalization),通過(guò)一個(gè)一定幀長(zhǎng)的滑動(dòng)窗的作用,使倒譜特征在不同的噪聲環(huán)境下具有相同的分段統(tǒng)計(jì)特性。設(shè)滑動(dòng)窗幀長(zhǎng)為N,具體計(jì)算方法為:
(1)計(jì)算一階倒譜歸整,即每幀特征向量減去N幀的均值,若當(dāng)前處于第n幀,則計(jì)算以下N幀的均值:
(2)除以N幀的均方差,使歸一化后倒譜矢量有相同的方差。
(3)根據(jù)三階倒譜歸整的定義,將(9)式代入(10)式:
其中a、c可以根據(jù)(10)式的一階矩為零、二階矩為一常數(shù)、三階矩為零來(lái)確定。因?yàn)楣P者認(rèn)為語(yǔ)音信號(hào)倒譜系數(shù)的概率密度函數(shù)是準(zhǔn)高斯分布的,根據(jù)隨機(jī)信號(hào)的知識(shí),倒譜的奇數(shù)階矩為零,而偶數(shù)階矩為某個(gè)特定的常數(shù)。最后得到:
1.4 融合算法
將MAP算法與分段三階倒譜歸整進(jìn)行融合,融合過(guò)程如圖1所示。
電話語(yǔ)音Y(n)首先進(jìn)行倒譜均值減得到Y(jié)(n)-,然后通過(guò)Viterbi譯碼得到最優(yōu)狀態(tài)序列,同時(shí)根據(jù)通道的先驗(yàn)概率,用(8)式計(jì)算△MAP,代入(4)式,再進(jìn)行(10)式運(yùn)算得到最后的特征矢量,由第二次Viterbi譯碼得到識(shí)別結(jié)果。其中△h的先驗(yàn)統(tǒng)計(jì)特性由訓(xùn)練庫(kù)數(shù)據(jù)得到。
2 實(shí)驗(yàn)結(jié)果與分析
本實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)和識(shí)別數(shù)據(jù)采用PKU-SRSC語(yǔ)音數(shù)據(jù)庫(kù)中的窄帶電話語(yǔ)音,內(nèi)容為5s的數(shù)字串,包括訓(xùn)練集和測(cè)試集。系統(tǒng)采用自左向右的連續(xù)隱馬爾可夫模型。模型用4個(gè)狀態(tài)來(lái)表示,每個(gè)狀態(tài)由3個(gè)高斯混和元組成。系統(tǒng)的前端提取特征為MFCC及其一階差分,幀長(zhǎng)256點(diǎn),幀移80點(diǎn),信號(hào)的采樣頻率8000Hz,每幀14維MFCC及其一階差分共28維?;€系統(tǒng)的特征在前端提取后進(jìn)行倒譜均值減得到。
表1列出了基線系統(tǒng),以及采用RASTA、三階倒譜歸整、MAP方法和MAP分別與三階倒譜歸整、分段三階倒譜歸整相結(jié)合的方法的識(shí)別率比較。其中分段三階倒譜歸整滑動(dòng)窗長(zhǎng)度為80幀。
從表1中可以看出,將MAP算法用于特征空間對(duì)電話通道影響進(jìn)行補(bǔ)償,可大幅度提高電話語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率,同時(shí)與通常的MAP用于模型空間相比,大大減少了運(yùn)算量和復(fù)雜度。采用MAP與三階倒譜歸整相結(jié)合的方法比單獨(dú)采用各種補(bǔ)償算法時(shí)的識(shí)別率都高,在訓(xùn)練庫(kù)中識(shí)別率達(dá)到80.0%,在識(shí)別庫(kù)中識(shí)別率為73.8%。進(jìn)一步研究,MAP與分段三階倒譜歸整相結(jié)合時(shí),與基線系統(tǒng)的CMS方法相比,在訓(xùn)練庫(kù)中識(shí)別率提高了47.1%,在識(shí)別庫(kù)中識(shí)別率提高了48.5%。
用實(shí)驗(yàn)選擇了分段歸整時(shí)的滑動(dòng)窗長(zhǎng)度,圖2給出了在不同N值時(shí)系統(tǒng)的識(shí)別率,其中橫軸的500幀表示整句語(yǔ)音的長(zhǎng)度??梢钥闯霎?dāng)N=80時(shí)具有較高的識(shí)別率。
參考文獻(xiàn)
1 Furui S. Cepstral analysis technique for automatic speaker verification. IEEE Trans on Acoustics, Speech and Signal Processing, 1981;29(4):254~272
2 Alejandro Acero, Richard M.Stern. Environmental robustness in automatic speech recognition. IEEE International Confer-ence on Acoustics, Speech and Signal Processing,1990;2:849~852
3 Hermansky H, Morgan H. RASTA processing of speech. IEEE Trans on Speech and Audio Processing, 1994;2(4):578~589
4 Jen-Tzung Chien, Hsiao-Chuan Wang, Lee-Min Lee. Esti-mation of channel bias for telephone speech recognition. International Conference on Spoken Language Processing, ICSLP, 1996;3:1840~1843
5 R.A Bates, M.Ostendorf. Reducing the effects of linear channel distortion on continuous speech recognition. IEEE Transactions on Speech and Audio Processing,1999;7(5):594~597
6 Yong Ho Suk, Seung Ho Choi, Hwang Soo Lee. Cepstrum third-order normalization method for noisy speech recogni-tion. Electronics Letters, 1999;35(7):527~528