??? 摘 要:從人類語音產(chǎn)生的機理出發(fā),介紹了語音信號的特征和語音信號的語譜圖,引出了語音信號的產(chǎn)生模型。同時討論了在語音信號產(chǎn)生的模型應(yīng)用中,線性預測編碼方法及語音產(chǎn)生模型在語音合成和語音識別中的應(yīng)用原理,體現(xiàn)了語音產(chǎn)生模型在語音處理技術(shù)方面的重要地位。
??? 關(guān)鍵詞:模型;頻率;線性預測編碼
?
??? 語音由一連串的音所組成,這些音及其相互間的過渡就是代表信息的符號。這些符號的排列由語音的規(guī)則所控制。對這些規(guī)則及其在人類通信中的含義的研究屬于語言學的范疇。但對語音信號加以處理以改善或提取信息時,有必要對語音產(chǎn)生的機理進行討論。
??? 圖1為發(fā)音器官示意圖。聲道起始于聲帶的開口(即聲門處)而終止于嘴唇,它包含了咽喉(連接食道和口)和口(或稱為口腔)。聲道的截面積取決于舌、唇、頜以及小舌的位置,它可以從0 (完全閉合)變化到約20 cm2,鼻道則從小舌開始到鼻孔為止。當小舌下垂時,鼻道與聲道發(fā)生聲耦合而產(chǎn)生語音中的鼻音。另外,圖中還包含了由肺、支氣管、氣管組成的次聲門系統(tǒng),這個次聲門系統(tǒng)是產(chǎn)生語音能量的源泉。當空氣從肺里呼出時,呼出的氣流由于聲道某一地方的收縮而受到擾動,語音就是這一系統(tǒng)在此時輻射出來的聲波。
?

??? 語音的聲音按其激勵形式的不同可分為三類:濁音、摩擦音和爆破音。濁音:當氣流通過聲門時,如果聲帶的張力剛好使聲帶發(fā)生張弛振蕩式的振動,就能產(chǎn)生準周期的空氣脈沖,這一空氣脈沖激勵聲道得到濁音,如音標中的“U”、“d”、“w”、“i”、“e”等為濁音。摩擦音或稱為清音:如果聲道在某處(一般在接近嘴的那端)發(fā)生收縮,同時迫使空氣以高速沖過這一收縮部分而產(chǎn)生湍流,從而得到摩擦音,此時建立的寬帶噪聲源激勵了聲道,如音標中的“∫”就是摩擦音;爆破音:如果使聲道前部完全閉合,在閉合后建立起氣壓,然后突然釋放,這樣就得到了爆破音,如音標中的“t∫”就是爆破激勵產(chǎn)生的。
1 語音信號的特征和語譜圖
??? 圖1中聲道和鼻道都表示為非均勻截面的聲管,當聲音產(chǎn)生以后就順著聲管傳播,它的頻譜形狀會被聲管的選擇性所改變。這類似于人們在管風琴或管樂器中所看到的諧振現(xiàn)象。在此將聲道管的諧振頻率稱為共振峰頻率。共振峰頻率和聲道的形狀與大小有關(guān),每種形狀都有一套共振峰頻率作為其特征。改變聲道的形狀就產(chǎn)生不同的聲音,因此,當聲道形狀改變時,語音信號的譜特性也隨之改變。
??? 語譜圖是通過語譜儀畫出的、以顯示語音信號的通用圖。它的垂直方向表示頻率,水平方向表示時間。圖2表示了一段英語語句的語音信號。
?

??? 獲得這些圖的原理大致如下:
??? 首先把語音信號拆成短的時段,一般為2 ms~40 ms,然后在合適的窗口長度上使用FFT找每一短時段的頻譜。圖中每一點表示在給定時間和給定頻率范圍內(nèi)頻譜的能量。段的長度是根據(jù)頻率分辨率和時間分辨率要求折中選擇的。目前數(shù)字信號處理技術(shù)水平已能夠?qū)崟r處理語音頻譜隨時間的變化,這就意味著, FFT和顯示處理能夠在下一段數(shù)據(jù)捕獲前完成。例如,采樣頻率為8 kHz(由采樣定理知,信號帶寬的上限為4 kHz),一段長度內(nèi)有256個采樣點,F(xiàn)FT和顯示處理時間必須小于32 ms。
??? 從英文字“rain”中字母a的實例表明:語音信號有周期的時域波形,如圖2(a)所示;它的頻譜類似于一串有間隔的諧波,如圖2(b)所示。同樣,字“storm”中的字母s的實例表明:摩擦音時域信號為噪聲,如圖2(c)所示,它的頻譜如圖2(d)所示。這個頻譜證明對聲音的2個主要源都存在共振峰頻率的影響。
??? 在圖3中,圖的下半部分是相應(yīng)的語譜圖,語音能量由顏色的深淺來表示,顏色越深,語音能量越強。
?

??? 由圖3可知,語音樣例“他去無錫市,我到黑龍江”的每一個漢字的發(fā)音對應(yīng)一組頻譜,有其基音和諧波?;艉椭C波的寬度不等說明有共振峰頻率的影響。從短時穩(wěn)定的頻譜存在說明語音信號存在短期相關(guān)性,即盡管模擬聲道的數(shù)字濾波器參數(shù)是隨時間改變的,但是在很短的時間(如幾毫秒)內(nèi),由于存在確定的周期性頻譜,因而可以認為,在該段時間內(nèi),數(shù)字濾波器參數(shù)不隨時間而變化??梢允褂镁€性預測方法,即一個語音采樣值能夠由前面若干個采樣值的組合逼近,故稱為線性預測。因此,每一個漢字語音對應(yīng)一組線性預測系數(shù),也就是對應(yīng)一組確定的聲道數(shù)字濾波器系數(shù)。
2? 語音信號的產(chǎn)生模型
??? 根據(jù)上面的分析,可以用近期所有語音合成和識別技術(shù)采用的人類語音模型來模擬語音信號的產(chǎn)生,如圖4所示。
?

?
??? 用隨機噪聲發(fā)生器產(chǎn)生噪聲源模擬摩擦音(漢語稱清音),利用音調(diào)或稱基音周期控制脈沖串產(chǎn)生器模擬元音(漢語稱濁音)。用增益函數(shù)表示聲音振幅。模擬聲道的數(shù)字濾波器是一個線性時變?yōu)V波器。
3? 線性預測編碼(LPC)
??? 線性預測編碼LPC( Line Predictive Coding )方法在語音信號產(chǎn)生模型應(yīng)用中是至關(guān)重要的,下面給出它的物理概念和方法。采樣后的語音是離散信號,可以利用Z變換進行分析計算。設(shè)聲道濾波器為一個全極點濾波器,其傳遞函數(shù)為V(z),則輸出信號為:
??? S(z)=E(z)×V(z)=G×E(z)/A(z)????????????????????????? ?? ?(1)
式中,E(z)為聲道濾波器的激勵e(n)的Z變換;A(z)為聲道濾波器的逆濾波器,是全零點濾波器;G為增益函數(shù),表示聲音振幅的一個參數(shù);S(z)為合成的語音。在已知激勵和濾波器參數(shù)后,可得到合成語音,故(1)式稱為合成模型。由(1)式可得:
??? E(z)=S(z)×A(z)???????????????????????????????????????? ??(2)
(2)式為(1)式的逆運算,故稱為語音分析模型。
??? 若逆濾波器為A(z),輸入語音信號為S(z),則輸出即為激勵信號E(z)。然而,A(z)是未知的,需要使用線性預測的方法求得。
??? 因為A(z)是全零點濾波器,其結(jié)構(gòu)如圖5所示。通過證明可得:
??? 
??? 即A(z)是由M節(jié)濾波器組成,式中i是濾波器的階數(shù),ai是逆濾波器的系數(shù),有待確定。把(3)式代入(2)式,并將Z變換的式子轉(zhuǎn)換為離散值來寫,則有:
??? 
??? (4)式說明對樣本序列值S(n),n時刻序列值由它前面M個樣本線性預測得到。即:
??? 
??? 同時表示,激勵信號e(n)是語音信號S(n)與預測信號
之差,稱為預測誤差。(5)式可寫為Z變換形式:
??? 
式中,F(xiàn)(z)為預測濾波器值,若輸入A(z),輸出即為預測值
,見圖5。
?

?
??? 可見,這里存在2個濾波器,1個是預測濾波器F(z),可用來求預測值;另一個為逆濾波器,它等于1-F(z),可用來從激勵信號求出重建的語音信號。使用這2個濾波器關(guān)鍵是求系數(shù)ai。利用公式(4),預測誤差e(n)越小,預測值
越接近信號值S(n)。可采用e(n)的最小均方誤差準則來確定ai的系數(shù)。若S(n)已知,在短時間范圍內(nèi)(如20 ms),在8 kHz采樣頻率下就有160個S(n)樣本點,利用它來訓練預測濾波器A(z),系數(shù)ai就可以確定。系數(shù)ai是時變的,但在短的時限內(nèi)是不變的。因此,在線性預測算法中,系數(shù)ai的計算每幀都要進行1次,當前幀系數(shù)ai計算值作為下一次計算時用。
4? 語音產(chǎn)生模型的應(yīng)用
??? 語音產(chǎn)生模型說明一個短時的語音信號可以用3個參數(shù)來定義:(1)從周期性波和隨機噪聲中選擇1個作為激發(fā)態(tài);(2)如果使用周期性波,必須選擇1個頻率作為基音;(3)模擬聲道響應(yīng)所使用的數(shù)字濾波器系數(shù)。
4.1 語音產(chǎn)生模型在語音合成技術(shù)中的應(yīng)用
??? 早期產(chǎn)品中應(yīng)用到的連續(xù)語音合成技術(shù),是借助于大約以每秒40次速度修改上述的短時語音信號的3個參數(shù)來實現(xiàn)的。如適合兒童學習的“說和拼音機”。由于它僅僅采用26個英文字母作為音庫,因而這種語音合成的聲音質(zhì)量不高,聲音非常機械。
??? 此后,用漢字語音作為庫,用波形拼接方法進行語音合成,效果有所改進,但是庫的存儲量太大。解決的方案是,使用語音分析方法,即利用語音產(chǎn)生模型概念,把一個語音信號分解成下列特性參數(shù):線性預測系數(shù)(取10個)、基音周期范圍、基音周期數(shù)目(基音持續(xù)時間)和清音存在時間等。根據(jù)ITU-T G.729語音編碼方法,一幀語音信號特征參數(shù)僅需80 bit,即80個16 bit樣本壓縮為80 bit,縮小16倍。到合成需要該音時,再利用語音產(chǎn)生模型由所存的特征參數(shù)實時轉(zhuǎn)換為語音。
4.2 語音產(chǎn)生模型在語音識別技術(shù)中的應(yīng)用
??? 與機器進行語音交流,讓機器明白你說什么,這是人們長期以來夢寐以求的事情。語音識別技術(shù)就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。其原理是:由于每一個短時語音信號包含一串語音特性參數(shù),不同的漢字音有不同的特征參數(shù),所以利用特征參數(shù)的差別來識別不同的漢字音。
??? 近20年來,語音識別技術(shù)取得顯著進步,開始從實驗室走向市場。預計未來10年內(nèi),語音識別技術(shù)將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等各個領(lǐng)域。
參考文獻
[1] 拉賓納? L R,謝弗? R W. 語音信號數(shù)字處理[M]. 北京:科學出版社,1983.
[2]?戴逸民,梁曉雯,裴小平. 基于DSP的現(xiàn)代電子系統(tǒng)設(shè)計[M]. 北京:電子工業(yè)出版社,2002.
[3]?奧本海姆. 信號與系統(tǒng)[M]. 劉樹棠,譯 . 西安:西安交通大學出版社,1998.
[4]?何蘇勤,王忠勇.TMS320C2000系列DSP原理及應(yīng)用技術(shù)[M].北京:電子工業(yè)出版社,2003.
