123,123

基于遗传算法和小波神经网络的语音识别研究

来源：微型机与应用2011年第16期

斯芸芸，徐道连，周卓然

（重庆大学光电工程学院，重庆400030）

摘要： 小波神经网络算法（WNN）易陷入局部极小，收敛速度慢，全局搜索能力弱，而遗传算法（GA）具有高度并行、随机、自适应搜索性能和全局寻优的特点。因此,将遗传算法和小波神经网络结合起来形成一种训练神经网络的混合算法——GA-WNN算法。仿真实验结果表明，该算法有效地缩短了识别时间，提高了网络训练速度和语音的识别率。

關鍵詞： 音频设备语音识别小波神经网络遗传算法 GA-WNN

Abstract：

Key words :

摘要： 小波神經網絡算法（WNN）易陷入局部極小，收斂速度慢，全局搜索能力弱，而遺傳算法（GA）具有高度并行、隨機、自適應搜索性能和全局尋優(yōu)的特點。因此,將遺傳算法和小波神經網絡結合起來形成一種訓練神經網絡的混合算法——GA-WNN算法。仿真實驗結果表明，該算法有效地縮短了識別時間，提高了網絡訓練速度和語音的識別率。
關鍵詞： 語音識別；小波神經網絡；遺傳算法；GA-WNN

   語音識別是要讓機器“聽懂”人類的語音并做出正確的反應，其終極目標是實現人類與機器的自然交流。隨著科學技術的發(fā)展，語音識別技術正逐步形成一套比較完整的理論體系，其實用產品也相繼推出。
   現代語音識別技術以人工神經網絡（ANN）為主要發(fā)展趨勢，自上世紀90年代，神經網絡已經成為語音識別的一條重要途徑[1]。目前具有代表性的神經網絡主要有BP神經網絡和RBF神經網絡。為了提高網絡訓練速度和語音識別的識別率，神經網絡模型不斷地被優(yōu)化。小波神經網絡（WNN）是BP神經網絡的一種優(yōu)化模型，它采用小波函數作為激勵函數，具有以下一些優(yōu)點：(1)高度的并行性；(2)高度的非線性映射功能；(3)十分強的自適應功能；(4)良好的容錯性和聯想記憶功能；(5)小波函數具有時頻局部特性和變焦特性[2]。目前神經網絡方法對網絡隱層節(jié)點數、連接權值（包括閾值）以及學習率的依賴性較大，容易導致陷入局部極小、收斂速度慢，甚至不收斂的狀況。而遺傳算法具有很強的宏觀搜索能力，能以較大的概率找到全局最優(yōu)解[3,4]。為了克服神經網絡的不足，本文將兩者結合在一起，提出了一種訓練神經網絡的混合算法——GA－WNN算法。
1 語音識別的基本原理
   語音識別系統(tǒng)實質上是一種模式識別系統(tǒng)，與常規(guī)模式識別系統(tǒng)一樣包括特征提取、模式匹配、參考模式庫等三個基本單元?；谏窠浘W絡的語音識別系統(tǒng)識別功能要經過從特征參數提取到應用識別算法進行識別的過程，它的系統(tǒng)原理框圖如圖１所示。

   由圖1可知，要進行語音識別，首先要對輸入的語音信號進行預處理。預處理主要包括預加重、加窗、分幀和端點檢測等過程。
   (1)預加重：預加重的主要目的是提升語音信號中的高頻部分進而減小噪聲(主要是50 Hz或60 Hz的工頻干擾)，提高信噪比。本文選擇用預加重數字濾波器來實現對語言信號的預加重，若S(n)為預加重前語音信號,則經過預加重濾波器的信號R(n)為:

   (2)加窗和分幀：語音信號隨時間變化而變化，研究表明語音信號通常可以假定為短時平穩(wěn)，通常認為在10 ms～30 ms時間長度內是相對平穩(wěn)的。分幀可用窗函數乘以語音信號來形成加窗的語音信號。本文選用漢明窗(Hamming)作為加窗函數，用漢明窗將語音切割成長短一致的語音幀，每幀語音采樣點數為256點，幀移為128點。
   (3)端點檢測：端點檢測的目的是判斷找到有用語音信號的起點和終點，然后根據語音段的起點和終點，分離出真正有用的語音信號，為后續(xù)的語音識別奠定可靠的基礎。本文采用目前比較流行的雙門限端點檢測算法，通過語音信號的短時平均能量和短時過零率來判斷語音信號的起點和終點。圖2和圖3分別是一個數字“０”的時域參數分析及其端點檢測結果。語音信號是用多媒體聲卡在比較安靜的實驗室環(huán)境下錄制的，其信噪比較高，雙門限端點檢測算法可以較準確地判斷出語音信號的起始位置，由圖可知，實驗結果與理論分析一致。

    語音信號經過預處理后，將進行語音識別中的一個重要環(huán)節(jié)——特征參數提取。好的特征參數不僅能很好地反應語音特征，而且計算方便，這對系統(tǒng)的實現非常重要。常用的特征參數包括線性預測系數（LPC）、線性預測倒譜系數(LPCC)和美爾頻率倒譜系數(MFCC)。綜合三者的優(yōu)缺點，本文選用MFCC作為研究的特征參數。每幀語音信號分別提取12維的MFCC作為特征向量，為減少運算量，每個語音信號只選擇中間的6幀來進行實驗。
2 語音識別中的小波神經網絡構造
   小波神經網絡是以小波函數為神經元激勵函數的前饋網絡模型，與基于Sigmoid函數的BP網絡相比，具有較強的函數逼近能力和容錯能力，同時具有結構收斂可控性和收斂速度快等優(yōu)點。小波神經網絡構造主要包括網絡層數、輸入節(jié)點數、輸出節(jié)點數、隱層節(jié)點數、初始權值、學習速率及期望誤差的選取[5,6]。
   (1)網絡層數：理論上早已證明，具有偏差和至少一個隱含層加上一個線性輸出網絡就能夠逼近任何有理函數。本文是針對數字孤立詞的識別，小波神經網絡采用3層結構，包括一個輸入層、一個隱含層和一個輸出層。輸入層激勵函數為線性變換（輸出=輸入），隱含層激勵函數為小波函數，輸出層激勵函數為Sigmoid。
   (2)輸入節(jié)點數：輸入層節(jié)點數與所選取的語音信號特征參數的維度和階數有關。本文中每個語音信號都得到相應的6個12維一階MFCC系數，故輸入層的節(jié)點數為6×12=72。
   (3)輸出節(jié)點數：輸出層的節(jié)點數取決于輸出數據的類型和表示該類型所需的數據大小。本文數字孤立詞識別的10個數是0～9，所以設定輸出節(jié)點數為10，分別對應于0～9。
   (4)隱層節(jié)點數：通過采用一個隱層，增加其神經元個數的方法來達到網絡訓練精度的提高。隱層的神經元個數選擇可以通過仿真試驗來確定，也可以用以下公式[5]作為參考：

其中，m為輸入層節(jié)點數，n為輸出層節(jié)點數，a為取1~10的常數。本文采用公式（2）來確定隱層節(jié)點數，已知輸入節(jié)點數為72，輸出節(jié)點數為10，a取常數5，因此隱層節(jié)點數n1=14。
   (5)初始權值：由于系統(tǒng)是非線性的，初始值對學習是否達到局部最小、是否能收斂以及訓練時間的長短關系很大。一般總是希望經過初始加權后的每個神經元的輸出值都接近于零，所以，通常初始值取(-1，1)之間的隨機數。
   (6)學習速率：學習速率決定循環(huán)訓練中所產生的權值變化量。大的學習速率可能導致系統(tǒng)的不穩(wěn)定，小的學習速率雖然會導致收斂速度慢，不過能保證網絡的誤差值不跳出誤差表面的低谷而最終趨于最小值。所以一般情況下，學習速率的選取值范圍在0．01～0．8之間。本文設定學習速率為0.8。
   (7)期望誤差的選?。涸谠O計網絡的訓練過程中，期望誤差也應通過對比選取一個合適的值，可以同時對兩個不同時期的期望誤差的網絡進行訓練，通過綜合考慮來確定。本文研究的期望誤差為0.001[7]。
3 基于遺傳算法和神經網絡的語音識別
   小波神經網絡的學習對網絡隱層節(jié)點數、初始權值（包括閾值）、伸縮和平移因子以及學習速率的依賴性較大，致使其全局搜索能力弱，易陷入局部極小，收斂速度慢甚至不收斂，而遺傳算法具有很強的宏觀搜索能力，能以較大的概率找到全局最優(yōu)解，因此把遺傳算法和小波神經網絡相結合，采用遺傳算法對網絡的初始權值（包括閾值）進行優(yōu)化處理，用小波神經網絡完成給定精度的學習。
3.1 遺傳算法實現的關鍵技術
   （1）編碼方案
   編碼對網絡進化過程的性能和效率影響很大，因此，編碼技術是連接權值進化過程中需要解決的首要問題和關鍵步驟?？紤]到網絡參數的規(guī)模較大，若遺傳算法采用二進制編碼，會導致染色體長度偏長、搜索空間大、搜索效率低等問題，本文中小波神經網絡的節(jié)點數和結構已經固定，可以采用實數編碼方案，將網絡的權值和各節(jié)點的閥值依次排列得到一個向量。
   （2）適應度函數的選擇
   衡量網絡性能的主要指標是網絡的實際輸出與期望輸出值之間的誤差平方和。神經網絡中誤差平方和越小，則表示該網絡性能越好。
   定義適應度函數為：

    （3）遺傳操作
   選擇算子：從當前種群中選擇優(yōu)勝（即適應度高）個體而淘汰劣質個體。目前常用的選擇算子有以下幾種：適應度比例選擇法、最佳個體保存法、期望值法與排序選擇法等。本文采用適應度比例選擇法來進行選擇操作[3]。
   交叉算子：交叉是通過替換重組兩個父代個體的部分結構而產生新的個體。在遺傳算法中，交叉操作是最主要的遺傳操作。交叉率Pc是指各代中交叉產生的后代數與種群規(guī)模之比，這個概率表明有Pc×pop_size(種群規(guī)模)個染色體來進行交叉操作。常用的交叉率取值范圍為0.6~1.0，在本文中Pc取0.6。
   變異算子：變異就是對群體中的個體串的某些基因位上的基因值作變動。變異率是指種群中變異的基因數占總基因數的比例，其值控制了新基因引入的比例，這個概率表明有Pm×pop_size(種群規(guī)模)個染色體來進行變異操作。常用變異率的數量級范圍為0.1~0.001，在本文中Pm取0.1。
   （4）終止條件
   采用給定的迭代次數和適應度來控制遺傳算法的終止。如果迭代次數已經用完或某代的最優(yōu)個體的適應度值大于等于預先給定的值，算法就結束。
3.2 GA-WNN算法實現的步驟和流程
   采用遺傳算法來優(yōu)化小波神經網絡的權值和閾值，具體實現的步驟如下：
   (1)設定參數：種群規(guī)模pop_size=100，交叉概率Pc=0.8，變異概率Pm=0.1。
   (2)隨機產生一組實值串種群，每一個個體由網絡的初始權值和閥值構成。
   (3)對實值串中的個體進行解碼，生成相應的網絡結構，網絡結構為72-14-10。
   (4)運行網絡，根據式（4）計算群體個體的適應度值，評價網絡性能。
   (5)根據適應度大小，通過相應的選擇算法進行選擇操作，以交叉概率Pc執(zhí)行交叉操作，以遺傳概率Pm執(zhí)行變異操作，保留適應度大的個體產生下一代種群，形成下一代網絡。
   (6)如果網絡誤差滿足要求或達到一定的進化代數，則停止進化，輸出結果；否則重復操作步驟(3)～步驟(5)。
   (7)將GA優(yōu)化后的初始權值（包括閾值）作為小波神經網絡使用的參數。
3.3 基于GA-WNN算法的語音識別過程
   將本文提出的新算法（GA-WNN算法）應用于語音識別，具體的識別過程如下：
   （1）語音數據由三男二女的發(fā)音（0～9共10個數字的普通話發(fā)音）數據組成，每個音每人發(fā)20遍，共計1 000次發(fā)音，其中以每人每個發(fā)音的前10次作為訓練樣本，后10次作為測試樣本。
   （2）用數字濾波器分別對兩組語音數據進行預加重，再通過加漢明窗對語音信號進行分幀，然后逐幀計算語音信號的MFCC系數，并將其保存。
   （3）構造一個三層的小波神經網絡，設置初始的網絡參數，網絡結構為72-14-10，取學習速率為0.8，訓練誤差精度為0.001。
   （4）對每個人的語音特征系數用WNN算法來訓練網絡，同時用遺傳算法來優(yōu)化神經網絡的權值，直到網絡收斂并達到期望的訓練誤差精度0.001，保存最優(yōu)權值。每個語音信號對應一組網絡權值。
   （5）在網絡的輸入層中輸入語音特征參數系數，分別調用已保存的網絡權值計算出結果得出網絡輸出矩陣，與期望輸出矩陣逐一比較，誤差最小的那個語音信號為識別結果。
4 仿真實驗結果
   為了驗證GA-WNN算法的優(yōu)越性，對算法的性能進行了測試，并與小波神經網絡算法的性能進行了比較。
   仿真實驗是針對非特定人的孤立詞數字語音識別，語音數據由三男二女的發(fā)音(0～9共10個數字的普通話發(fā)音)數據組成，本實驗是在PC機上進行，通過PC話筒輸入，每個音每人發(fā)20遍，共計1 000次發(fā)音，其中以每人每個發(fā)音的前10次作為訓練樣本，后10次作為測試樣本。
   經過試驗仿真，得到實驗結果如表1。對實驗結果進行對比分析，發(fā)現基于GA-WNN算法的語音識別系統(tǒng)得到了相對較高的識別率，基于GA-WNN學習算法只迭代了105次便使得誤差為0.001，而小波神經網絡算法需要迭代741次才達到相同的誤差精度。由此可見，相比小波神經網絡算法，基于GA-WNN算法，無論是在精度上還是收斂速度上，都取得了更好的效果，同時該算法還避免了局部極小，從而能快速地找到最優(yōu)解，降低學習時間。

從實驗結果得出：對于孤立詞的識別，WNN的平均識別率為88.6%，而GA-WNN的平均識別率達到94.0%，明顯高于WNN的識別率，驗證了理論的正確性。
將遺傳算法和小波神經網絡結合起來形成GA-WNN算法，仿真實驗結果表明，此算法在孤立詞的識別中不僅縮短了識別時間還有效地提高了系統(tǒng)的識別率。該算法還可以應用于圖像處理或其他領域，需要作進一步的驗證。
參考文獻
[1] ROBERT E U.Application of artificial neural networks in industrial technology[J].IEEE Trans,1994,10(3):371-377.
[2] 唐軍.基于HMM與小波神經網絡的語音識別系統(tǒng)研究[D].南京：南京理工大學，2007.
[3] BRINDLE A.Genetic algorithms for function optimization [M].Ph.DDissertation, University of Alberta,1981.
[4] SELOUANI TS A，SHAUGHNESSY D O.Robustness of speeeh recognition using genetie algorithm and a mel-cepstral subspace approach[J].ICASSP,2004，12(2)：201-204.
[5] 趙峰.遺傳神經網絡在語音識別中的研究[J].電腦知識與技術,2008,3(4):774-776.
[6] 劉俊華,顏運昌,荊琦.遺傳算法與神經網絡在語音識別中的應用[J].機電工程,2007,24(12):20-24.
[7] 韓志艷,王健,倫淑嫻.基于遺傳小波神經網絡的語音識別分類器設計[J].計算機科學,2010,37(11):243-246.

原創(chuàng)聲明：此內容為AET網站原創(chuàng)，未經授權禁止轉載。

相關內容