文獻標識碼: A
文章編號: 0258-7998(2015)06-0147-03
0 引言
人們提出了大量的評價方法來預(yù)測在背景噪聲存在條件下的語音可懂度。在這些方法中,SII(Speech Intelligence Index)是現(xiàn)今最廣泛使用的語音可懂度指數(shù)的方法。SII的評價是基于語音的可懂度取決于譜信息比例的思想,譜信息比例是可被聽者聽到的并通過頻譜分割成20個頻帶(同樣適用于可懂度),并估計每個頻帶的信號噪聲比(SNR)加權(quán)平均值。每一個頻帶中的信噪比由頻帶重要性函數(shù)加權(quán),該函數(shù)根據(jù)語料的不同而不同[1]。SII方法能夠成功預(yù)測出線性濾波和加性噪聲對語音可懂度的影響[2,3]。然而,還是有許多局限的。其中一個局限是,SII不能應(yīng)用于語音嵌入在波動掩蔽的情況下。一些人已經(jīng)試圖拓展SII方法來評估在波動掩蔽條件下的語音可懂度。例如,Rhebergen提出將語音和掩蔽信號分割成短幀(9~20 ms),估計每一幀中的瞬時AI(Articulation Index)值以及平均所有幀計算后的AI值來產(chǎn)生單一的AI矩陣。拓展后的短期AI方法被認為在估計嵌入在人工掩蔽信號(比如周期干擾噪聲)和類語音掩蔽信號中的句子時能夠比傳統(tǒng)的AI方法更好地預(yù)測語音可懂度,但是,后者在預(yù)測方面是不夠準確的[4]。
MA J、HU Y和LOIZOU P C等學(xué)者提出用清晰語音作為權(quán)值來代替SII算法中的ANSI經(jīng)驗權(quán)值,可懂度有所提高[5]。所有這些改進都是針對于頻域進行的,并沒有考慮在時域?qū)π盘栠M行選擇。然而不同的語音段對可懂度的貢獻有所不同,如濁音段比清音段或無聲段對可懂度的影響要大,這一點也和平時的經(jīng)驗相一致。比如在聽一句話時,有時雖然不能完全聽清晰所有的詞,但只要能聽清楚關(guān)鍵的詞,就能通過聯(lián)想猜出整個句子的含義。而如果沒有聽清楚關(guān)鍵詞,即使其他部分能夠聽清楚,也無法猜出整個句子的含義。研究表明濁音段,尤其是音節(jié)的起始部分對可懂度的影響最大[6],根據(jù)這一思想,本研究提出在時域選取語音的起始段,然后再對選出的語音段進行SII分析。
1 實驗方法及數(shù)據(jù)
可懂度評價算法使用的是HU Y和LOIZOU P C通過8種不同的噪聲抑制算法處理的語音信號[7],下面簡要介紹這些語料及增強處理算法。
1.1 語料和主觀評價
IEEE的句子和輔音在/aCa/格式中被用于測試材料。輔音測試包含16個記錄在/aCa/目錄中的輔音,其中C=/p,t,k,b,d,g,m,n,dh,l,f,v,s,z,sh,dj/。女性講話者產(chǎn)生的全部輔音和男性講話者產(chǎn)生的所有句子,句子和輔音原始采樣為25 kHz,下采樣到8 kHz。從LOIZOU P C的書中可以得到這些記錄。掩蔽被人工加到了語音材料中。掩蔽信號來自于AURORA數(shù)據(jù)庫[8],并且包括了不同地方的真實錄音:餐廳、汽車、街道和火車。掩蔽是添加在信噪比是0和5 dB的語音信號中的。
1.2 去噪算法
8種不同的去噪算法用來處理受到噪聲干擾的句子,其中包括:廣義子空間的算法、以感知為基礎(chǔ)的子空間算法、最小均方誤差對數(shù)算法、關(guān)于語音存在的不確定性的最小均方誤差對數(shù)算法、基于降低延遲卷積譜減法算法、多頻帶譜減法、基于小波閾值多窗口譜的維納濾波算法以及傳統(tǒng)的維納濾波算法。除了關(guān)于語音存在的不確定性的最小均方誤差對數(shù)算法,其他所有的算法都是基于自身的實現(xiàn)。這些算法實現(xiàn)所使用的參數(shù)與公布的是相同的。當(dāng)前測試研究的所有噪聲算法的MATLAB實現(xiàn)也由LOIZOU P C完成了。
1.3 實驗流程
總共有40個當(dāng)?shù)氐拿勒Z講話者被招募用于句子可懂度的測試,這40個聽者被分成4個小組(每個噪聲型為一組),每個小組有10名聽者。每位受試者共參加了19項聽力條件(=2個信噪比等級×8個算法+2個帶噪?yún)⒖?1個安靜)。2個IEEE的句子列表(每個列表有10個句子)被用于每一個條件中。句子列表都是不重復(fù)的。另有10名聽者加入輔音識別任務(wù)。被試者按照隨機順序每個輔音重復(fù)6次。處理后的語音文件(句子/輔音)以及清晰和帶噪語音文件以單耳的形式呈現(xiàn)給聽者。
HU Y和LOIZOU P C研究的可懂度產(chǎn)生了總共72種帶噪環(huán)境,其中包括噪聲干擾(未處理)環(huán)境[9]。這72種環(huán)境包括了8種不同噪聲抑制算法在2種信噪比等級(0和5 dB)在4種類型的真實環(huán)境(餐廳、汽車、街道和火車)中引起的失真。在這72種條件下得到的可懂度得分在當(dāng)前的研究中被用于評估大量之前的和新提出的客觀評價的可預(yù)測功率。
2 語音起始段檢測方法
語音信號隨時間變化的頻譜特性可以用語譜圖直觀地表示。語譜圖的縱軸對應(yīng)于頻率,橫軸對應(yīng)于時間,而圖像的黑白度對應(yīng)于信號的能量。所以,聲道的諧振頻率在圖上就表示成為黑帶,濁音部分則以出現(xiàn)條紋圖形為其特征,這是因為此時的時域波形有周期性,而在濁音的時間間隔內(nèi)圖形顯得很致密[10]。圖1為“A gold ring will please most any girl”語音的語譜圖。
如果有必要,語音信號首先要重新采樣。重新采樣出來的信號要經(jīng)過一個等響度濾波的處理,之后要使用一個二階的butterworth濾波器[6]的信道進行濾波得出信道信號。
圖2中上圖是包絡(luò)圖,下圖是起始段速率圖。包絡(luò)圖中的包絡(luò)是通過對信道信號的全波整流得到的。起始段速率是用來計算全頻帶信道的,而它是由包絡(luò)速率的半波整流得到的,其中,包絡(luò)速率是計算包絡(luò)的第一次差值。圖2中是測試語音的一部分,上圖表現(xiàn)的是語音句子的一部分(A gold ring)包絡(luò),下圖給出的是對應(yīng)的起始段。豎線是人工標記出來的音節(jié)邊界。
每一個起始段都有3個重要的位置,即起始段開始(onset start)、起始段峰(onset peak)、起始段結(jié)束(onset end),如圖2(b)所示。起始段開始被定義為起始段速率首次大于0時的采樣指數(shù),它對應(yīng)著原包絡(luò)從谷值到開始的轉(zhuǎn)折點,并被認為是候選音節(jié)邊界位置。相反,起始段結(jié)束定義為起始段速率最終跌回到0的采樣指數(shù),它對應(yīng)于原包絡(luò)的峰值且是一個候選音節(jié)核位置。最后,起始段峰是起始段速率達到其最大值的采樣指數(shù)。
3 基于語音起始段檢測語音可懂度客觀評價算法
時域分段信噪比(SNRseg)算法[11]在Hansen和Pellom的文章中提到,且計算公式如下:
4 實驗結(jié)果
有兩個數(shù)被應(yīng)用于在預(yù)測語音可懂度中估計上述客觀評價的表現(xiàn)[9]。第一個數(shù)是Pearson相關(guān)系數(shù)r,第二個是誤差的標準差估計值,計算公式為其中σd是給出的條件的語音識別得分的標準差,σe是計算誤差的標準差。較小的σe值表明客觀評價在預(yù)測語音可懂度方面是較好的。
對正常聽力的試聽者在72種不同噪聲環(huán)境下得到的平均可懂度得分進行相關(guān)分析,這些分析是客觀評價得到的相關(guān)平均值。包括噪聲抑制語音的這些條件最初受到了4種不同的掩蔽信號(餐廳、汽車、街道和火車)的干擾。計算的相關(guān)系數(shù)(預(yù)測誤差)位于表1中。
從表1中能夠看出,對于分段信噪比(SNRseg)[11],輔音和句子的Pearson系數(shù)分別為0.40和0.46;而對于使用了語音起始段檢測方法的分段信噪比(SNRseg_onset),輔音和句子的Pearson系數(shù)分別為0.51和0.52。接下來對于4種的不同掩蔽來觀察其相關(guān)系數(shù),位于表2中。
表2給出的分別是分段信噪比(SNRseg)和語音起始段檢測分段信噪比(SNRseg_onset)的4種不同掩蔽信號(餐廳、汽車、街道和火車)的相關(guān)系數(shù)。從表2中能夠看出,對于輔音aCa,語音起始段分段信噪比算法(SNRseg_onset)相對于分段信噪比算法(SNRseg)的Pearson相關(guān)系數(shù)都有所提高。而對于句子Sen,大體都是所提高的,只有在火車噪聲掩蔽下,相關(guān)系數(shù)是有所下降的。總的來說,由表1和表2中可以觀察到,語音起始段檢測分段信噪比算法(SNRseg_onset)的相關(guān)系數(shù)確實是提高了很多的。這就說明語音起始段檢測方法用于SNR評價算法是有較好的表現(xiàn)的,也充分說明語音起始段(speech onset)對于SNR評價算法確實是有正面的影響的。
5 結(jié)論
當(dāng)前的研究是在真實噪聲條件下評價就預(yù)測語音可懂度而言傳統(tǒng)的客觀評價算法(SNRseg)和新的客觀評價算法(SNRseg_onset)的表現(xiàn)。這些客觀評價算法在總共72個噪聲條件下進行測試,這些噪聲條件包括在真實世界的噪聲類型(汽車、餐廳、火車和街道噪聲)干擾下的處理過的句子和無意義的音節(jié)。傳統(tǒng)的SNR評價算法的表現(xiàn)是不夠好的(輔音r=0.40,句子r=0.46),而當(dāng)結(jié)合了本文提出的語音起始段檢測算法的SNR,即SNRseg_onset評價算法,其在預(yù)測語音可懂度方面有較好的表現(xiàn)(輔音r=0.51,句子r=0.52)。同時也說明語音起始段(speech onset)對于SNR評價算法確實是有好的影響的,表明結(jié)合語音起始段(speech onset)檢測算法能夠提高客觀評價算法的性能。
參考文獻
[1] HALL S M,ISAACSON J J,BURHANS C G,et al.New editions of ANSI standards for warnings[C].9th Annual IEEE Product Safety Engineering Society′s Symposium on Product Compliance Engineering,ISPCE 2012,Portland,2012:1-4.
[2] LOIZOU P C,Ma Jianfen.Extending the articulation index to account for non-linear distortions introduced by noisesuppression algorithms[J].Journal of the Acoustical Society of America,2011,130(2):986-995.
[3] KRYTER K D.(1962b).Validation of the articulation index[J].Journal of the Acoustical Society of America,1962(34):1698-1706.
[4] RHEBERGEN K S,VERSFELD N J.A speech intelligibility index-based approach to predict the speech reception threshold for sentences influctuating noise for normalhearing listeners[J].Journal of the Acoustical Society of America,2005(117):2181-2192.
[5] MA J,HU Y,LOIZOU P C.Objective measures for pre dicting speech intelligibility in noisy conditions based on new band-importance functions[J].Journal of the Acoustical Society of America,2009,125(5):3387-3405.
[6] VILLING R,TIMONEY J,WARD T,et al.Automatic blind syllable segmentation for continuous speech[C].Irish Signals and Systems Conference,Belfast,2004.
[7] HU Y,LOIZOU P C.A comparative intelligibility study of single-microphone noise reduction algorithms[J].Journal of the Acoustical Society of America,2007,122(3):1777-1786.
[8] DO C T,PASTOR D,GOALIC A.A novel framework for noise robust ASR using cochlear implant-like spectrally reduced speech[J].Speech Communication,2012,54(1):119-133.
[9] HU Y,LOIZOU P C.Evaluation of objective quality measures for speech enhancement[J].IEEE Trans.Audio,Speech,Lang.Process,2008(16):229-238.
[10] 張雪英.數(shù)字語音處理及MATLAB仿真[M].北京:電子工業(yè)出版社,2010:19.
[11] KOBAYASHI Y,KONDO K.Speech intelligibility estimation using support vector regression and critical band segmental SNR in noisy condition[J].IEEJ Transactions on Electronics,Information and Systems,2013,133(8):1556-1564.