《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 業(yè)界動(dòng)態(tài) > 基于MAP算法和高階倒譜歸整的電話語音識(shí)別方法

基于MAP算法和高階倒譜歸整的電話語音識(shí)別方法

2008-07-21
作者:徐 潔, 楊鼎才

  摘 要:介紹一種融合最大" title="最大">最大后驗(yàn)概率算法和改進(jìn)的高階" title="高階">高階倒譜歸整的抗噪聲語音識(shí)別" title="語音識(shí)別">語音識(shí)別方法。將最大后驗(yàn)概率算法用于特征空間來估計(jì)電話通道特性(通道差的估計(jì)),用分段高階倒譜歸整進(jìn)行后續(xù)補(bǔ)償,可以同時(shí)減少電話語音中卷積噪聲和加性噪聲的影響。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性,與傳統(tǒng)的倒譜均值減相比,訓(xùn)練庫中識(shí)別率從46.3%提高到87.5%。
  關(guān)鍵詞: 電話語音識(shí)別 高階倒譜規(guī)整 最大后驗(yàn)概率估計(jì) 分段


  電話語音識(shí)別借助通信平臺(tái),實(shí)現(xiàn)了語音技術(shù)的更廣泛應(yīng)用,人們通過最便捷的電話方式可以查詢到遠(yuǎn)端數(shù)據(jù)庫中的所需信息,給日常生活帶來了極大的方便。然而由于電話網(wǎng)絡(luò)中各種噪聲的影響,使得語音識(shí)別系統(tǒng)的性能大幅度下降。電話語音的噪聲主要分為兩部分:背景噪聲和電噪聲的影響為加性噪聲;由電話話筒和傳輸線引起的通道影響,即卷積噪聲。盡可能地減少這兩種噪聲在電話語音中的影響,提高電話語音的魯棒性" title="魯棒性">魯棒性是系統(tǒng)達(dá)到實(shí)用化的關(guān)鍵。
  針對(duì)電話語音魯棒性的研究,前人已經(jīng)作了很多工作,提出的一些方法如倒譜均值減[1](CMS)、CDCN[2](Codeword-Dependent Cepstral Normalization)、相對(duì)譜RASTA[3](RelAtive SpecTral)處理技術(shù)等,對(duì)減少測(cè)試環(huán)境與訓(xùn)練環(huán)境的失配都有一定的效果。但隨著噪聲的增強(qiáng),以上方法對(duì)系統(tǒng)性能的提高都非常有限。
  基于最大后驗(yàn)概率(MAP)算法的自適應(yīng)方法利用Bayes理論,通過對(duì)模型參數(shù)進(jìn)行修正,顯示了相當(dāng)好的性能。為了減小模型計(jì)算的復(fù)雜度,該文也將MAP算法用于特征空間,用該算法估計(jì)電話通道影響。高階倒譜歸整是將倒譜均值減的均值歸一擴(kuò)展到更高階階矩歸一。研究發(fā)現(xiàn),當(dāng)歸一化較高階數(shù)的階矩時(shí),失配進(jìn)一步減少,帶噪語音信號(hào)的概率密度函數(shù)更接近干凈語音的概率密度函數(shù),特征參數(shù)更具有魯棒性。
  本文提出了一種基于最大后驗(yàn)概率算法的估計(jì)通道影響方法,并用改進(jìn)的高階倒譜歸整作后續(xù)補(bǔ)償,將兩者結(jié)合同時(shí)提高系統(tǒng)對(duì)加性噪聲和卷積噪聲的魯棒性。實(shí)驗(yàn)表明這種方法能有效地提高電話語音識(shí)別系統(tǒng)的識(shí)別率。
1 算法描述
1.1 通道估計(jì)理論

  假設(shè)Y(n)表示實(shí)際的電話語音倒譜矢量,X(n)表示純凈語音的倒譜矢量,h表示通道響應(yīng)的倒譜失量。在不考慮背景噪聲的情況下有:
  Y(n)=X(n)+h????????????????? (1)

1.2 MAP算法[4~5]
  在MAP算法中,后驗(yàn)概率由似然函數(shù)和先驗(yàn)概率組成。由于引入了通道的先驗(yàn)統(tǒng)計(jì)特性" title="統(tǒng)計(jì)特性">統(tǒng)計(jì)特性,理論上MAP算法比最大似然估計(jì)算法(ML)估計(jì)得要準(zhǔn)確。因此,用MAP估計(jì)通道向量與均值的差,把(4)式中的△表示為△MAP,同時(shí),為了表示方便,將Y(n)-用Z來表示。
  運(yùn)用MAP算法求△MAP,用公式表示為:
  
  其中P(△h|Z)是后驗(yàn)概率,直接從(5)式中估計(jì)△MAP是很困難的,然而(5)式等價(jià)為:
  
  為計(jì)算方便,將(6)式取對(duì)數(shù),得到:

1.3 分段高階倒譜歸整
  研究發(fā)現(xiàn),加性噪聲對(duì)語音的影響不僅表現(xiàn)在均值的增加、方差的減少上,它還改變了倒譜的更高階階矩。為了更好地補(bǔ)償帶噪語音的統(tǒng)計(jì)特性,Yong Ho Suk等人提出了三階倒譜歸整[6]CTN(Cepstrum Third-order Normalisation),將歸一化的階矩提高到三階。在此基礎(chǔ)上,提出了分段三階倒譜歸整SCTN(Segmental Cepstrum Third-order Normalization),通過一個(gè)一定幀長的滑動(dòng)窗的作用,使倒譜特征在不同的噪聲環(huán)境下具有相同的分段統(tǒng)計(jì)特性。設(shè)滑動(dòng)窗幀長為N,具體計(jì)算方法為:
  (1)計(jì)算一階倒譜歸整,即每幀特征向量減去N幀的均值,若當(dāng)前處于第n幀,則計(jì)算以下N幀的均值:
  
  (2)除以N幀的均方差,使歸一化后倒譜矢量有相同的方差。
  

  (3)根據(jù)三階倒譜歸整的定義,將(9)式代入(10)式:
  
  其中a、c可以根據(jù)(10)式的一階矩為零、二階矩為一常數(shù)、三階矩為零來確定。因?yàn)楣P者認(rèn)為語音信號(hào)倒譜系數(shù)的概率密度函數(shù)是準(zhǔn)高斯分布的,根據(jù)隨機(jī)信號(hào)的知識(shí),倒譜的奇數(shù)階矩為零,而偶數(shù)階矩為某個(gè)特定的常數(shù)。最后得到:
  
1.4 融合算法
  將MAP算法與分段三階倒譜歸整進(jìn)行融合,融合過程如圖1所示。


  電話語音Y(n)首先進(jìn)行倒譜均值減得到Y(jié)(n)-,然后通過Viterbi譯碼得到最優(yōu)狀態(tài)序列,同時(shí)根據(jù)通道的先驗(yàn)概率,用(8)式計(jì)算△MAP,代入(4)式,再進(jìn)行(10)式運(yùn)算得到最后的特征矢量,由第二次Viterbi譯碼得到識(shí)別結(jié)果。其中△h的先驗(yàn)統(tǒng)計(jì)特性由訓(xùn)練庫數(shù)據(jù)得到。
2 實(shí)驗(yàn)結(jié)果與分析
  本實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)和識(shí)別數(shù)據(jù)采用PKU-SRSC語音數(shù)據(jù)庫中的窄帶電話語音,內(nèi)容為5s的數(shù)字串,包括訓(xùn)練集和測(cè)試集。系統(tǒng)采用自左向右的連續(xù)隱馬爾可夫模型。模型用4個(gè)狀態(tài)來表示,每個(gè)狀態(tài)由3個(gè)高斯混和元組成。系統(tǒng)的前端提取特征為MFCC及其一階差分,幀長256點(diǎn),幀移80點(diǎn),信號(hào)的采樣頻率8000Hz,每幀14維MFCC及其一階差分共28維。基線系統(tǒng)的特征在前端提取后進(jìn)行倒譜均值減得到。
  表1列出了基線系統(tǒng),以及采用RASTA、三階倒譜歸整、MAP方法和MAP分別與三階倒譜歸整、分段三階倒譜歸整相結(jié)合的方法的識(shí)別率比較。其中分段三階倒譜歸整滑動(dòng)窗長度為80幀。


  從表1中可以看出,將MAP算法用于特征空間對(duì)電話通道影響進(jìn)行補(bǔ)償,可大幅度提高電話語音識(shí)別系統(tǒng)的識(shí)別率,同時(shí)與通常的MAP用于模型空間相比,大大減少了運(yùn)算量和復(fù)雜度。采用MAP與三階倒譜歸整相結(jié)合的方法比單獨(dú)采用各種補(bǔ)償算法時(shí)的識(shí)別率都高,在訓(xùn)練庫中識(shí)別率達(dá)到80.0%,在識(shí)別庫中識(shí)別率為73.8%。進(jìn)一步研究,MAP與分段三階倒譜歸整相結(jié)合時(shí),與基線系統(tǒng)的CMS方法相比,在訓(xùn)練庫中識(shí)別率提高了47.1%,在識(shí)別庫中識(shí)別率提高了48.5%。
  用實(shí)驗(yàn)選擇了分段歸整時(shí)的滑動(dòng)窗長度,圖2給出了在不同N值時(shí)系統(tǒng)的識(shí)別率,其中橫軸的500幀表示整句語音的長度??梢钥闯霎?dāng)N=80時(shí)具有較高的識(shí)別率。


參考文獻(xiàn)
1 Furui S. Cepstral analysis technique for automatic speaker verification. IEEE Trans on Acoustics, Speech and Signal Processing, 1981;29(4):254~272
2 Alejandro Acero, Richard M.Stern. Environmental robustness in automatic speech recognition. IEEE International Confer-ence on Acoustics, Speech and Signal Processing,1990;2:849~852
3 Hermansky H, Morgan H. RASTA processing of speech. IEEE Trans on Speech and Audio Processing, 1994;2(4):578~589
4 Jen-Tzung Chien, Hsiao-Chuan Wang, Lee-Min Lee. Esti-mation of channel bias for telephone speech recognition. International Conference on Spoken Language Processing, ICSLP, 1996;3:1840~1843
5 R.A Bates, M.Ostendorf. Reducing the effects of linear channel distortion on continuous speech recognition. IEEE Transactions on Speech and Audio Processing,1999;7(5):594~597
6 Yong Ho Suk, Seung Ho Choi, Hwang Soo Lee. Cepstrum third-order normalization method for noisy speech recogni-tion. Electronics Letters, 1999;35(7):527~528

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。