文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.165055
中文引用格式: 張雪英,張樂,孫穎,等. 基于KELM決策融合的語(yǔ)音情感識(shí)別[J].電子技術(shù)應(yīng)用,2017,43(8):123-126,131.
英文引用格式: Zhang Xueying,Zhang Le,Sun Ying,et al. Speech emotion recognition based on decision fusion of KELM[J].Application of Electronic Technique,2017,43(8):123-126,131.
0 引言
人類的情感很難從一個(gè)量化的角度定義,其中語(yǔ)音是一種包含說話人信息、語(yǔ)義、情感的復(fù)雜信號(hào),是識(shí)別情感狀態(tài)的有效途徑。語(yǔ)音情感識(shí)別是計(jì)算機(jī)分析語(yǔ)音信號(hào)的特征參數(shù)并自動(dòng)判別情感狀態(tài)的一門技術(shù),是語(yǔ)音信號(hào)處理領(lǐng)域中非常重要的研究方向,廣泛應(yīng)用于人工服務(wù)、精神健康診斷治療、遠(yuǎn)程教學(xué)、機(jī)器人等領(lǐng)域。
目前,國(guó)內(nèi)外學(xué)者采用多種分類方法用于語(yǔ)音情感識(shí)別,常用的有隱馬爾科夫模型(Hidden Markov model,HMM)、支持向量機(jī)(Support Vector Machine,SVM)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)等,NWE T L[1]等人對(duì)一個(gè)漢語(yǔ)普通話語(yǔ)音庫(kù)和一個(gè)緬甸語(yǔ)語(yǔ)音庫(kù)訓(xùn)練和測(cè)試HMM,對(duì)6種情感的平均識(shí)別率可以達(dá)到75.5%和78.5%,TATO R[2]等人使用SVM對(duì)喜、怒、悲、中性4種情感進(jìn)行識(shí)別研究,最終平均識(shí)別率達(dá)到73%。極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)是由HUANG G B等[3]于2006年提出的一種應(yīng)用于廣義單隱層前饋神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法,與常用的ANN、SVM相比極大地提高了網(wǎng)絡(luò)的學(xué)習(xí)速度和泛化性能[4],已經(jīng)在故障診斷[5]、病理診斷[6]等領(lǐng)域得到應(yīng)用。文獻(xiàn)[7]中證明ELM與SVM分類精度相似,但學(xué)習(xí)速度優(yōu)于SVM、參數(shù)選擇更容易,同時(shí)文中將Mercer條件用于網(wǎng)絡(luò)模型,提出性能更好的核函數(shù)極限學(xué)習(xí)機(jī)(Extreme Learning Machine with Kernel,KELM),據(jù)此本文采用KELM作為分類器。
傳統(tǒng)的語(yǔ)音情感識(shí)別方法均是采用單一特征或多個(gè)特征簡(jiǎn)單相加來(lái)構(gòu)建單個(gè)網(wǎng)絡(luò)進(jìn)行分類識(shí)別,這種模式若要達(dá)到最佳的識(shí)別結(jié)果,需選擇最全面的輸入特征以及最優(yōu)的分類器,但是兩者兼顧最優(yōu)是很難實(shí)現(xiàn)的。近年來(lái)提出的融合技術(shù)[8]通過制定融合規(guī)則在一定程度上實(shí)現(xiàn)了兩個(gè)“最優(yōu)”。因此,本文提出融合KELM的方法,該方法不僅繼承了極限學(xué)習(xí)機(jī)分類精度高、學(xué)習(xí)速度快的性能,還具有融合技術(shù)識(shí)別率高的優(yōu)勢(shì)。設(shè)計(jì)實(shí)驗(yàn)將本文方法在柏林語(yǔ)音庫(kù)中測(cè)試,提取聚合經(jīng)驗(yàn)?zāi)B(tài)分解(Ensemble Empirical Mode Decomposition,EEMD)特征、韻律特征、梅爾倒譜系數(shù)特征(Mel-Fregurecy Cepstrum Coefficients,MFCC),通過對(duì)基分類器的輸出加權(quán)融合,實(shí)現(xiàn)語(yǔ)音情感識(shí)別。
1 核函數(shù)極限學(xué)習(xí)機(jī)
極限學(xué)習(xí)機(jī)的隱層參數(shù)均為隨機(jī)產(chǎn)生,且無(wú)需迭代,因此比傳統(tǒng)方法參數(shù)選擇簡(jiǎn)單、學(xué)習(xí)速度快。核函數(shù)極限學(xué)習(xí)機(jī)由ELM衍生而來(lái),其解決多分類識(shí)別問題的能力更強(qiáng)。對(duì)于一個(gè)輸入為d維向量xi,輸出標(biāo)簽為ti(i=1,…,N)的基本極限學(xué)習(xí)機(jī)模型描述為:
KELM模型中,廣義逆矩陣中的參數(shù)C與核函數(shù)中的參數(shù)g的選擇會(huì)影響識(shí)別性能,需優(yōu)化求解。
2 融合KELM
基于加權(quán)求和的分類器決策融合方法可以分為兩種:基于硬判決輸出和基于軟判決輸出的融合方法。對(duì)于前者,每個(gè)分類器的輸出是一個(gè)標(biāo)簽,通過計(jì)算各分類器輸出的所有類別數(shù)量,將得到最大的票數(shù)的類別作為最后的輸出;而對(duì)于后者,每個(gè)分類器的輸出為決策概率,各個(gè)分類器按照分配的權(quán)重加權(quán)求和得到輸出結(jié)果?;谲浥袥Q輸出的方法通過輸出一個(gè)介于0~1之間的概率相比于輸出0/1的硬判決輸出方法更能準(zhǔn)確地分類,故選擇軟判決的融合方法。
這里需要解決兩個(gè)問題:(1)將KELM的數(shù)值輸出轉(zhuǎn)化為概率輸出;(2)確定決策策略。
2.1 概率矩陣
基本KELM的輸出為數(shù)值輸出,為了將輸出范圍統(tǒng)一,仿照概率支持向量機(jī)的研究[10]將KELM的輸出轉(zhuǎn)化為概率形式:
2.2 決策策略
融合權(quán)值的確定是一個(gè)關(guān)鍵問題,決策權(quán)重一般由分類器在訓(xùn)練數(shù)據(jù)上的性能決定,決策時(shí)會(huì)給訓(xùn)練時(shí)性能好的分類器分配較大的權(quán)重,但這樣會(huì)忽略測(cè)試樣本的多樣性和特性,所以計(jì)算權(quán)重分布時(shí)不僅應(yīng)考慮分類器的性能,還應(yīng)考慮測(cè)試樣本的特性,這是本文制定決策策略的核心思想。融合KELM算法實(shí)現(xiàn)框圖如圖1。
該方法的具體實(shí)現(xiàn)如下:
(1)訓(xùn)練階段
訓(xùn)練樣本經(jīng)預(yù)處理后,分別提取n類特征,記為F1,…,F(xiàn)n,利用特征分別訓(xùn)練N個(gè)核函數(shù)極限學(xué)習(xí)機(jī),記為KELM i,i=1,…,N。
(2)識(shí)別階段
①對(duì)于預(yù)處理后的測(cè)試樣本x,分別提取n類特征F1,…,F(xiàn)n,將特征向量分別輸入步驟(1)訓(xùn)練好的KELM i中。
②建立概率矩陣。利用式(1)建立分類器的概率矩陣。
③確定權(quán)值。將樣本輸入KELM中,若分類器將某樣本分類至某標(biāo)簽的概率越大,說明該樣本特征距離判別超平面越遠(yuǎn),則分類器對(duì)該樣本的分類越準(zhǔn)確,其融合權(quán)重相應(yīng)的應(yīng)該越大,相當(dāng)于“放大”準(zhǔn)確程度,由式(10)計(jì)算第k組分類器各類別概率輸出的最大值,記為:
3 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)選用柏林語(yǔ)音庫(kù)為數(shù)據(jù)庫(kù)來(lái)源。選擇293句包含4種情感、長(zhǎng)度近似相等的語(yǔ)句組成本次實(shí)驗(yàn)數(shù)據(jù)庫(kù),其中高興71句、悲傷62句、憤怒81句、中性79句,各選擇 2/3作為訓(xùn)練樣本,1/3作為測(cè)試樣本。
3.2 實(shí)驗(yàn)與結(jié)果分析
對(duì)語(yǔ)音庫(kù)中的樣本進(jìn)行預(yù)處理,主要包括端點(diǎn)檢測(cè)、預(yù)加重和加窗分幀。特征選取前期提取的EEMD特征(提取過程說明:信號(hào)經(jīng)EEMD分解后,選取前七階固有模態(tài)分量提取能量特征)、韻律特征(包括基音頻率、語(yǔ)速、短時(shí)能量、過零率、共振峰頻率及統(tǒng)計(jì)參數(shù))、MFCC 3種特征。
實(shí)驗(yàn)采用網(wǎng)格尋優(yōu)法選擇正則化系數(shù)和核函數(shù)參數(shù)g,反復(fù)試驗(yàn)對(duì)依據(jù)特征建立的3 個(gè)基分類器分別進(jìn)行參數(shù)尋優(yōu),最終確定參數(shù)組合如表 1 所示。
表2給出了各基分類器以及本文提出的決策融合方法(簡(jiǎn)稱為FKELM)的實(shí)驗(yàn)結(jié)果,可以看出本文方法無(wú)論在4種情感的識(shí)別率還是平均識(shí)別率都有很大程度的提高,尤其是在情感“高興”、“悲傷”中的表現(xiàn),F(xiàn)KELM的識(shí)別率比相應(yīng)識(shí)別率最高的基分類器分別提高了20.83%、15%,平均識(shí)別率相比于最好的基分類器也提高了11.52%,圖2更直觀地反映了識(shí)別性能的提高。
為了說明本文方法的優(yōu)勢(shì),設(shè)計(jì)兩組對(duì)比實(shí)驗(yàn),第一組實(shí)驗(yàn)是與常用單分類器比較,將所有特征共1 069維輸入分類器中,結(jié)果見表3,單分類器中BP神經(jīng)網(wǎng)絡(luò)的性能最好,但與FKELM相比仍有很大差距;第二組實(shí)驗(yàn)是與常用的融合策略相比,結(jié)果見表4,平均決策的平均識(shí)別率達(dá)到了81.81%,但與融合KELM的平均識(shí)別率還有近7%的差距。
從實(shí)驗(yàn)結(jié)果與對(duì)比實(shí)驗(yàn)結(jié)果看,本文提出的方法表現(xiàn)出了很大的優(yōu)勢(shì),原因有三:(1)在特征方面,特征融合減弱了由于單一特征無(wú)法全面描述情感信息而導(dǎo)致的識(shí)別率低的缺點(diǎn),在一定程度上提升了識(shí)別結(jié)果;(2)識(shí)別網(wǎng)絡(luò)參數(shù)選擇,考慮到特征的差異性,3組KELM的參數(shù)均分別尋優(yōu),選擇了單個(gè)特征識(shí)別率最高情況下的參數(shù)組合;(3)決策策略的制定,權(quán)重依據(jù)分類器概率矩陣而定,綜合權(quán)衡了分類器的性能和輸入樣本的特性,使得融合KELM方法比單分類器在決策時(shí)出錯(cuò)更少。因此本文提出的融合KELM是一個(gè)有效的語(yǔ)音情感識(shí)別方法。
4 結(jié)論
本文針對(duì)單分類器情況下識(shí)別性能不理想的問題,提出了融合KELM的方法,并提出一種同時(shí)考慮分類器性能和輸入樣本特性的決策策略。首先針對(duì)3類語(yǔ)音特征訓(xùn)練3個(gè)KELM,對(duì)基分類器分別尋優(yōu)選擇最佳參數(shù)組合,然后采用基于概率矩陣而制定的融合策略對(duì)基分類器的判決結(jié)果決策融合,在柏林語(yǔ)音庫(kù)中進(jìn)行驗(yàn)證。結(jié)果表明,相比于傳統(tǒng)的單一分類器,本文方法的識(shí)別性能有很大程度提高,與經(jīng)典決策策略相比也有明顯優(yōu)勢(shì),為語(yǔ)音情感識(shí)別提供了一種可靠的方法。
參考文獻(xiàn)
[1] NWE T L,F(xiàn)OO S W,DE S L C.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603-623.
[2] TATO R,SANTOS R,KOMPE R,et al.Emotion space improves emotion recognition[C].Denver,Colorado:CSLP,2002.
[3] HUANG G B,ZHU Q Y,SIEW C K.Extreme learning machine:theory and applications[J].Neurocomputing,2006,70(1):489-501.
[4] 鄧萬(wàn)宇,鄭慶華,陳琳,等.神經(jīng)網(wǎng)絡(luò)極速學(xué)習(xí)方法研究[J].計(jì)算機(jī)學(xué)報(bào),2010,33(2):279-287.
[5] 陳紹煒,柳光峰,冶帥.基于核極限學(xué)習(xí)機(jī)的模擬電路故障診斷研究[J].西北工業(yè)大學(xué)學(xué)報(bào),2015,33(2):290-294.
[6] 劉小峰,張翔,王雪.基于EEG去趨勢(shì)波動(dòng)分析和極限學(xué)習(xí)機(jī)的癲癇發(fā)作自動(dòng)檢測(cè)與分類識(shí)別[J].納米技術(shù)與精密工程,2015,13(6):397-403.
[7] HUANG G B,ZHOU H,DING X,et al.Extreme learning machine for regression and multiclass classification[J].IEEE Transactions on Systems,Man,and Cybernetics-Part B:Cybernetics,2012,42(2):513-529.
[8] HALL D L,LLINAS J.An introduction to multisensor data fusion[J].Proceedings of the IEEE,1997,85(1):6-23.
[9] 張文博,姬紅兵.融合極限學(xué)習(xí)機(jī)[J].電子與信息學(xué)報(bào),2013,35(11):2828-2732.
[10] PLATT J C.Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods[M][S.1.]:Massachusetts Institute of Technology Press,1999.
作者信息:
張雪英,張 樂,孫 穎,張 衛(wèi)
(太原理工大學(xué) 信息工程學(xué)院,山西 太原030024)