??? 摘 要: 提出了一種基于時域解相關(guān)的卷積混合" title="卷積混合">卷積混合語音盲分離時域算法。該算法利用相關(guān)系數(shù)對語音信號" title="語音信號">語音信號進行時域去相關(guān)處理,同時基于二階統(tǒng)計量完成雙通道語音分離" title="語音分離">語音分離。該算法充分考慮了語音信號本身的相關(guān)性及不平穩(wěn)性,收斂速度快,穩(wěn)定性好,為減小計算量提出了該算法的遞推改進算法。仿真實驗表明,在對卷積混合雙通道語音信號進行盲分離時,該算法是非常有效的。
??? 關(guān)鍵詞: 語音分離; 卷積混合; 去相關(guān)
?
人耳具有很強的分離聲音的能力,即所謂的“雞尾酒會效應(yīng)”。如何讓機器也具備這種自動分離語音的能力是目前的一個熱點研究問題。瞬時混合語音信號的盲分離研究已比較成熟并且產(chǎn)生了很好的分離效果[1],但在實際場合,對多個麥克風(fēng)接收到的混合語音信號進行盲分離時,因語音信號本身的相關(guān)性及不平穩(wěn)性,尤其是延遲和反射造成的卷積,使卷積混合語音信號的盲分離變得十分困難。
盲分離算法" title="盲分離算法">盲分離算法有時域和頻域算法之分,時域算法能獲得獨立性一致的分離信號,但有計算量大、對于語音信號算法收斂性差等缺點。頻域算法是把時域的卷積混合變換到頻域用瞬時混合盲分離算法對其進行分離,由于信號順序倒轉(zhuǎn)、功率歸一化等問題,這些算法的復(fù)雜程序大大增加,分離效果也不是太好,而且其為分幀處理,有延遲效應(yīng)。
本文研究卷積混合語音信號的盲分離方法。綜合考慮了語音信號既是非平穩(wěn)信號又是有色信號(強相關(guān)信號)的特點,提出了基于時域解相關(guān)和空域解相關(guān)同時進行的語音盲分離時域算法,仿真實驗證明此算法收斂快,穩(wěn)定性好,在對卷積混合語音信號進行盲分離時,獲得了非常好的效果。
1 雙通道語音卷積混合分離簡化模型
設(shè)麥克風(fēng)1收到的信號為x1(t),令其中來自聲源1的部分記做s1(t),麥克風(fēng)2收到的信號為x2(t),令其中來自聲源2的部分記做s2(t), 則在一定條件下,得到簡化的卷積混合及分離模型[2]。
在簡化模型中,分別用兩個嚴(yán)格因果的FIR濾波器來逼近混合濾波器h12和h21。所謂嚴(yán)格因果的濾波器是指濾波器的零延遲項系數(shù)為零。當(dāng)源信號位于麥克風(fēng)陣列法線兩側(cè)時,基本可認(rèn)為h12和h21為嚴(yán)格因果系統(tǒng)。若此時的分離模型采用圖1所示結(jié)構(gòu),且規(guī)定w12和w21也為嚴(yán)格因果的,則可分析出只有當(dāng)h12=w12,h21=w21,這種情況才能成功分離出混合語音。這種混合分離模型情況下,分離工作本質(zhì)是一個系統(tǒng)盲辯識的過程,h12和w12以及h21和w21的接近程度決定了分離效果的好壞,他們越接近,分離效果越好。當(dāng)源信號處于麥克風(fēng)陣列同側(cè)時,在相應(yīng)分離濾波器引入延遲,以上方法也適用,當(dāng)然延遲的多少須由源信號的方位確定。
?
2 算法提出
非嚴(yán)格的理論分析顯示二階統(tǒng)計量可以用于非平穩(wěn)的語音分離。實踐證明采用二階統(tǒng)計量比采用高階統(tǒng)計量在實際中能得到更好的語音分離效果和更小的計算量。
Kawamoto針對非平穩(wěn)信號提出了基于二階統(tǒng)計量的卷積混合盲分離算法[3]。
Pi代表輸出信號yi在不同時段的能量。該算法實現(xiàn)簡單,已在TMS320C6701 EVM板上實時實現(xiàn)了語音分離,有不錯的效果[4]。但研究發(fā)現(xiàn)對于語音信號該算法收斂還是較慢,且收斂穩(wěn)定性差。
在仔細(xì)分析了實驗結(jié)果后,筆者認(rèn)為收斂慢的根本原因是由于語音信號時間上的強相關(guān)性導(dǎo)致學(xué)習(xí)的權(quán)向量相互影響而收斂慢,收斂不穩(wěn)定是由語音信號的非平穩(wěn)性造成的。傳統(tǒng)基于二階統(tǒng)計量的盲分離算法進行的是空域去相關(guān)處理,考慮到語音信號時間上的強相關(guān)性,對于分離濾波器的盲辨識還應(yīng)同時考慮對信號進行時域解相關(guān)處理。
Doherty 與Porayath于1997年提出解相關(guān)的LMS算法(簡稱DLMS算法)[5],對于強相關(guān)性的語音信號該算法收斂速度大大加快。其基本思想是用信號解相關(guān)的結(jié)果作為更新方向向量:
定義輸入信號向量x(n)和x(n-1)的相關(guān)系數(shù)為:
令v(n)=x(n)-ρ(n)x(n-1),為x(n)解相關(guān)的結(jié)果, DLMS算法權(quán)的調(diào)整則利用e(n)v(n)來代替LMS算法中的e(n)x(n)完成,即:
???
??? 根據(jù)上述思想,本文提出時域解相關(guān)的語音盲分離算法:將Kawamoto算法中權(quán)的調(diào)整由yj(n-k)改變?yōu)?A target=_blank>。
新算法(D_BSS1)迭代步驟如下:
(1) 初始化:wij(0)=0?????? i≠j∈{1,2}
(2) 更新:n=1,2,3…
???
新算法中由于采用解相關(guān)的結(jié)果v(n)作為更新方向向量,盲辨識h12時不僅對y1(n)(相當(dāng)于系統(tǒng)激勵信號)作了時間解相關(guān)處理,加快算法收斂速度,而且對y2(n)(相當(dāng)于自適應(yīng)系統(tǒng)辯識中參考信號中的噪聲)經(jīng)解相關(guān)處理幅度大大降低,算法收斂的穩(wěn)定性大大提高,盲辨識h21同樣。
為了減小上述算法中的計算量,做如下改進:相關(guān)系數(shù)的計算采用迭代算法,其中β取0~1的數(shù),向量vi(n)每次只計算更新最新的一個元素vi(n), 具體算法如下:
改進算法(D_BSS2)如下:
???
??? 從上面迭代公式看,與Kawamoto算法比較, D_BSS2僅增加了一次相關(guān)系數(shù)的迭代和元素vi(n)的計算量,所增加的計算量相對于幾百甚至幾千階的分離系統(tǒng)" title="分離系統(tǒng)">分離系統(tǒng)來說幾乎可以忽略。
3 仿真結(jié)果
3.1 算法收斂性能及語音分離情況
以上面簡化模型為基礎(chǔ)完成如下仿真,兩聲源信號各為一段長60 000點的中文朗讀的女聲和男聲,采樣率為11.025kHz。h12和h21采用如圖2所示的實測房間聲通道特性,濾波器長度取500點。
?
另在x1,x2處加入信噪比為-30dB的白噪聲,算法調(diào)整步長?滋取0.000 05。輸入語音波形、Kawamoto算法和新算法D_BSS1失配曲線如圖3所示。
?
??? 失配越小,說明wij和hij越接近。圖3中虛線為Kawamoto算法的失配變化曲線,實線為新算法的失配變化曲線??梢?,新算法在迭代過程中的失配曲線收斂比Kawamoto算法快,且穩(wěn)定性好得多,具有良好的跟蹤性能。按照現(xiàn)在語音盲分離常采取的辦法,讓盲分離算法運行一段時間,收斂后停止迭代,用權(quán)進行語音分離,采用提高信號干擾比SIR來反映算法性能,信干比定義如下:
???
??? 其中s′i(n)表示麥克風(fēng)接收信號xi(n)或分離輸出端yi(n)中與源信號si(n)相關(guān)的部分。當(dāng)運行60 000點停止迭代時,測得新算法信干比為: SIR_x1=4.2dB,SIR_y1=12.4dB, SIR_x2=0.3dB,SIR_y2=12.6dB, 平均提高了10dB。同樣條件下,Kawamoto算法平均提高了5dB,由于Kawamoto算法失配曲線收斂的不穩(wěn)定性不能保證停止迭代時兩路權(quán)都最佳,所以Kawamoto算法有分離效果不穩(wěn)定的現(xiàn)象。
3.2 改進算法D_BSS2的性能
??? 在上面相同的實驗條件下,進行了D_BSS1和D_BSS2算法性能的對比實驗,得到兩種算法失配曲線如圖4所示。
可見,改進算法D_BSS2收斂性能比D_BSS1稍微差一點,但計算量卻大大降低,D_BSS2和Kawamoto算法的計算量相差不多。
?
3.3 實際混迭語音分離實驗
??? 仿真實驗在一虛擬聲學(xué)實驗室進行,房間長、寬、高為(5,4,3)(m),房間混響時間為0.2s,兩聲源位于(1.5,2,1)和(3.5,2,1)處,兩麥克風(fēng)分別位于(2,1,1)和(3,1,1)處。信號采樣率為11.025kHz,分離濾波器階數(shù)取500階,由于無法得到對應(yīng)簡化模型中的h12和h21(其本質(zhì)為聲源到兩麥克風(fēng)的差異沖擊響應(yīng)),所以不能用失配來反映分離性能,采用D_BSS2,測得信干比平均提高11dB,算法一直迭代情況下,試聽分離系統(tǒng)的兩路輸出,算法收斂很快,明顯聽到每通道聲音由兩個聲音很快變?yōu)橐粋€聲音,語音得到成功分離。
本文提出針對非平穩(wěn)強相關(guān)語音信號的雙通道語音分離時域算法,該算法基于二階統(tǒng)計量進行混合語音的分離,采用時域解相關(guān)處理來降低語音的時間相關(guān)性,從而具有計算量小,收斂速度快,穩(wěn)定性好的優(yōu)點,能較好完成卷積混合語音的實時分離工作。
參考文獻
[1] ?BELL A J, SEJNOWSKI T J. An information-maximization?approach to blind separation and blind deconvolution [J].Neural Computation, 1995,(7):1129-1159.
[2] ?何培宇,殷斌.一種有效的語音盲信號分離簡化混合模型[J].電子學(xué)報, 2002,30(10):1438-1440.
[3]?KAWAMOTO M, BARROS A K, MANSOUR A, et al.?Real world blind separation of convolved non-stationary?signals. ICA 1999:347-352.
[4]?張玲,何培宇.一種時域盲信號分離系統(tǒng)的DSP實現(xiàn) [C].全國第二屆DSP應(yīng)用技術(shù)會議,2004,8(23):222-224.
[5] ?DOHERTY J, PORAYATH R.? A robust echo canceler for ?acoustic environments[J]. IEEE Trans, Circuits and Sys??temsⅡ1997,(44):389-398.
?