9691精品人妻无码久久久,91桃色成人网站在线观看,日本极度色诱视频

基于MAP算法和高階倒譜歸整的電話語音識別方法

日期： 2008-07-21

作者：徐潔，楊鼎才

關(guān)鍵詞： 高階最大魯棒性統(tǒng)計(jì)特性語音識別

　　摘　要：介紹一種融合最大" title="最大">最大后驗(yàn)概率算法和改進(jìn)的高階" title="高階">高階倒譜歸整的抗噪聲語音識別" title="語音識別">語音識別方法。將最大后驗(yàn)概率算法用于特征空間來估計(jì)電話通道特性(通道差的估計(jì))，用分段高階倒譜歸整進(jìn)行后續(xù)補(bǔ)償，可以同時(shí)減少電話語音中卷積噪聲和加性噪聲的影響。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性，與傳統(tǒng)的倒譜均值減相比，訓(xùn)練庫中識別率從46.3%提高到87.5%。
　　關(guān)鍵詞： 電話語音識別高階倒譜規(guī)整最大后驗(yàn)概率估計(jì) 分段

　　電話語音識別借助通信平臺，實(shí)現(xiàn)了語音技術(shù)的更廣泛應(yīng)用，人們通過最便捷的電話方式可以查詢到遠(yuǎn)端數(shù)據(jù)庫中的所需信息，給日常生活帶來了極大的方便。然而由于電話網(wǎng)絡(luò)中各種噪聲的影響，使得語音識別系統(tǒng)的性能大幅度下降。電話語音的噪聲主要分為兩部分：背景噪聲和電噪聲的影響為加性噪聲；由電話話筒和傳輸線引起的通道影響，即卷積噪聲。盡可能地減少這兩種噪聲在電話語音中的影響，提高電話語音的魯棒性" title="魯棒性">魯棒性是系統(tǒng)達(dá)到實(shí)用化的關(guān)鍵。
　　針對電話語音魯棒性的研究，前人已經(jīng)作了很多工作，提出的一些方法如倒譜均值減^[1](CMS)、CDCN^[2](Codeword-Dependent Cepstral Normalization)、相對譜RASTA^[3](RelAtive SpecTral)處理技術(shù)等，對減少測試環(huán)境與訓(xùn)練環(huán)境的失配都有一定的效果。但隨著噪聲的增強(qiáng)，以上方法對系統(tǒng)性能的提高都非常有限。
　　基于最大后驗(yàn)概率(MAP)算法的自適應(yīng)方法利用Bayes理論，通過對模型參數(shù)進(jìn)行修正，顯示了相當(dāng)好的性能。為了減小模型計(jì)算的復(fù)雜度，該文也將MAP算法用于特征空間，用該算法估計(jì)電話通道影響。高階倒譜歸整是將倒譜均值減的均值歸一擴(kuò)展到更高階階矩歸一。研究發(fā)現(xiàn)，當(dāng)歸一化較高階數(shù)的階矩時(shí)，失配進(jìn)一步減少，帶噪語音信號的概率密度函數(shù)更接近干凈語音的概率密度函數(shù)，特征參數(shù)更具有魯棒性。
　　本文提出了一種基于最大后驗(yàn)概率算法的估計(jì)通道影響方法，并用改進(jìn)的高階倒譜歸整作后續(xù)補(bǔ)償，將兩者結(jié)合同時(shí)提高系統(tǒng)對加性噪聲和卷積噪聲的魯棒性。實(shí)驗(yàn)表明這種方法能有效地提高電話語音識別系統(tǒng)的識別率。
1 算法描述
1.1 通道估計(jì)理論
　　假設(shè)Y(n)表示實(shí)際的電話語音倒譜矢量,X(n)表示純凈語音的倒譜矢量，h表示通道響應(yīng)的倒譜失量。在不考慮背景噪聲的情況下有:
　　Y(n)=X(n)+h????????????????? (1)

1.2 MAP算法^[4～5]
　　在MAP算法中，后驗(yàn)概率由似然函數(shù)和先驗(yàn)概率組成。由于引入了通道的先驗(yàn)統(tǒng)計(jì)特性" title="統(tǒng)計(jì)特性">統(tǒng)計(jì)特性，理論上MAP算法比最大似然估計(jì)算法(ML)估計(jì)得要準(zhǔn)確。因此，用MAP估計(jì)通道向量與均值的差，把(4)式中的△表示為△MAP，同時(shí)，為了表示方便，將Y(n)-用Z來表示。
　　運(yùn)用MAP算法求△MAP，用公式表示為：
　　
　　其中P(△h|Z)是后驗(yàn)概率，直接從(5)式中估計(jì)△MAP是很困難的，然而(5)式等價(jià)為：
　　
　　為計(jì)算方便，將(6)式取對數(shù)，得到：

1.3 分段高階倒譜歸整
　　研究發(fā)現(xiàn)，加性噪聲對語音的影響不僅表現(xiàn)在均值的增加、方差的減少上，它還改變了倒譜的更高階階矩。為了更好地補(bǔ)償帶噪語音的統(tǒng)計(jì)特性，Yong Ho Suk等人提出了三階倒譜歸整^[6]CTN(Cepstrum Third-order Normalisation)，將歸一化的階矩提高到三階。在此基礎(chǔ)上，提出了分段三階倒譜歸整SCTN(Segmental Cepstrum Third-order Normalization)，通過一個(gè)一定幀長的滑動窗的作用，使倒譜特征在不同的噪聲環(huán)境下具有相同的分段統(tǒng)計(jì)特性。設(shè)滑動窗幀長為N，具體計(jì)算方法為：
　　(1)計(jì)算一階倒譜歸整，即每幀特征向量減去N幀的均值，若當(dāng)前處于第n幀，則計(jì)算以下N幀的均值：
　　
　　(2)除以N幀的均方差，使歸一化后倒譜矢量有相同的方差。
　　

　　(3)根據(jù)三階倒譜歸整的定義，將(9)式代入(10)式：
　　
　　其中a、c可以根據(jù)(10)式的一階矩為零、二階矩為一常數(shù)、三階矩為零來確定。因?yàn)楣P者認(rèn)為語音信號倒譜系數(shù)的概率密度函數(shù)是準(zhǔn)高斯分布的，根據(jù)隨機(jī)信號的知識，倒譜的奇數(shù)階矩為零，而偶數(shù)階矩為某個(gè)特定的常數(shù)。最后得到：
　　
1.4 融合算法
　　將MAP算法與分段三階倒譜歸整進(jìn)行融合，融合過程如圖1所示。

　　電話語音Y(n)首先進(jìn)行倒譜均值減得到Y(jié)(n)-，然后通過Viterbi譯碼得到最優(yōu)狀態(tài)序列，同時(shí)根據(jù)通道的先驗(yàn)概率，用(8)式計(jì)算△MAP，代入(4)式，再進(jìn)行(10)式運(yùn)算得到最后的特征矢量，由第二次Viterbi譯碼得到識別結(jié)果。其中△h的先驗(yàn)統(tǒng)計(jì)特性由訓(xùn)練庫數(shù)據(jù)得到。
2 實(shí)驗(yàn)結(jié)果與分析
　　本實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)和識別數(shù)據(jù)采用PKU-SRSC語音數(shù)據(jù)庫中的窄帶電話語音，內(nèi)容為5s的數(shù)字串,包括訓(xùn)練集和測試集。系統(tǒng)采用自左向右的連續(xù)隱馬爾可夫模型。模型用4個(gè)狀態(tài)來表示，每個(gè)狀態(tài)由3個(gè)高斯混和元組成。系統(tǒng)的前端提取特征為MFCC及其一階差分，幀長256點(diǎn)，幀移80點(diǎn)，信號的采樣頻率8000Hz，每幀14維MFCC及其一階差分共28維。基線系統(tǒng)的特征在前端提取后進(jìn)行倒譜均值減得到。
　　表1列出了基線系統(tǒng)，以及采用RASTA、三階倒譜歸整、MAP方法和MAP分別與三階倒譜歸整、分段三階倒譜歸整相結(jié)合的方法的識別率比較。其中分段三階倒譜歸整滑動窗長度為80幀。

　　從表1中可以看出，將MAP算法用于特征空間對電話通道影響進(jìn)行補(bǔ)償，可大幅度提高電話語音識別系統(tǒng)的識別率，同時(shí)與通常的MAP用于模型空間相比，大大減少了運(yùn)算量和復(fù)雜度。采用MAP與三階倒譜歸整相結(jié)合的方法比單獨(dú)采用各種補(bǔ)償算法時(shí)的識別率都高，在訓(xùn)練庫中識別率達(dá)到80.0%，在識別庫中識別率為73.8%。進(jìn)一步研究，MAP與分段三階倒譜歸整相結(jié)合時(shí)，與基線系統(tǒng)的CMS方法相比，在訓(xùn)練庫中識別率提高了47.1%，在識別庫中識別率提高了48.5%。
　　用實(shí)驗(yàn)選擇了分段歸整時(shí)的滑動窗長度，圖2給出了在不同N值時(shí)系統(tǒng)的識別率，其中橫軸的500幀表示整句語音的長度。可以看出當(dāng)N=80時(shí)具有較高的識別率。

參考文獻(xiàn)
1 Furui S. Cepstral analysis technique for automatic speaker verification. IEEE Trans on Acoustics, Speech and Signal Processing, 1981;29(4):254～272
2 Alejandro Acero, Richard M.Stern. Environmental robustness in automatic speech recognition. IEEE International Confer-ence on Acoustics, Speech and Signal Processing,1990；2:849～852
3 Hermansky H, Morgan H. RASTA processing of speech. IEEE Trans on Speech and Audio Processing, 1994;2(4):578～589
4 Jen-Tzung Chien, Hsiao-Chuan Wang, Lee-Min Lee. Esti-mation of channel bias for telephone speech recognition. International Conference on Spoken Language Processing, ICSLP, 1996;3:1840～1843
5 R.A Bates, M.Ostendorf. Reducing the effects of linear channel distortion on continuous speech recognition. IEEE Transactions on Speech and Audio Processing,1999;7(5):594～597
6 Yong Ho Suk, Seung Ho Choi, Hwang Soo Lee. Cepstrum third-order normalization method for noisy speech recogni-tion. Electronics Letters, 1999;35(7):527～528

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

基于MAP算法和高階倒譜歸整的電話語音識別方法

日期： 2008-07-21

作者：徐 潔， 楊鼎才

相關(guān)內(nèi)容

作者：徐潔，楊鼎才