《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于KELM決策融合的語(yǔ)音情感識(shí)別
基于KELM決策融合的語(yǔ)音情感識(shí)別
2017年電子技術(shù)應(yīng)用第8期
張雪英,張 樂,孫 穎,張 衛(wèi)
太原理工大學(xué) 信息工程學(xué)院,山西 太原030024
摘要: 針對(duì)語(yǔ)音情感信號(hào)的復(fù)雜性和單一分類器識(shí)別的局限性,提出一種核函數(shù)極限學(xué)習(xí)機(jī)(KELM)決策融合的方法用于語(yǔ)音情感識(shí)別。首先對(duì)語(yǔ)音信號(hào)提取不同的特征,并訓(xùn)練相應(yīng)的基分類器,同時(shí)將輸出轉(zhuǎn)化為概率型輸出;然后利用測(cè)試集在基分類器的輸出概率值計(jì)算自適應(yīng)動(dòng)態(tài)權(quán)值;最后對(duì)各基分類器的輸出進(jìn)行線性加權(quán)融合得到最終的分類結(jié)果。利用該方法對(duì)柏林語(yǔ)音庫(kù)中4種情感進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果表明,提出的融合KELM方法優(yōu)于常用的單分類器以及多分類器融合方法,有效地提高了語(yǔ)音情感識(shí)別系統(tǒng)的性能。
中圖分類號(hào): TN912.3
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.165055
中文引用格式: 張雪英,張樂,孫穎,等. 基于KELM決策融合的語(yǔ)音情感識(shí)別[J].電子技術(shù)應(yīng)用,2017,43(8):123-126,131.
英文引用格式: Zhang Xueying,Zhang Le,Sun Ying,et al. Speech emotion recognition based on decision fusion of KELM[J].Application of Electronic Technique,2017,43(8):123-126,131.
Speech emotion recognition based on decision fusion of KELM
Zhang Xueying,Zhang Le,Sun Ying,Zhang Wei
College of Information Engineering,Taiyuan University of Technology,Taiyuan 030024,China
Abstract: In order to overcome the limitation of single classifier recognition and the complexity of emotional speech signal, a decision fusion method based on Extreme Learning Machine with Kernel(KELM) is proposed for speech emotion recognition. Firstly, KELMs are built separtely by different features extracted from speech signal, while the outputs are transformed from numeric outputs into probability output. Then the confusion matrix of each classifier based on the test set is calculated ,which is used to calculate the dynamic adaptive weight of the base classifiers.Finally the proposed method gets the ultimate classification result by linear weighted method. The fusion KELM is used to recognize four kinds of emotional speech in Berlin speech database,experimental results show that the fusion KELM is superior to single classifier and multi classifier fusion method. It has improved the performance of the speech emotion recognition system effectively.
Key words : speech emotion recognition;extreme learning machine with kernel;decision strategy;confusion matrix

0 引言

    人類的情感很難從一個(gè)量化的角度定義,其中語(yǔ)音是一種包含說話人信息、語(yǔ)義、情感的復(fù)雜信號(hào),是識(shí)別情感狀態(tài)的有效途徑。語(yǔ)音情感識(shí)別是計(jì)算機(jī)分析語(yǔ)音信號(hào)的特征參數(shù)并自動(dòng)判別情感狀態(tài)的一門技術(shù),是語(yǔ)音信號(hào)處理領(lǐng)域中非常重要的研究方向,廣泛應(yīng)用于人工服務(wù)、精神健康診斷治療、遠(yuǎn)程教學(xué)、機(jī)器人等領(lǐng)域。

    目前,國(guó)內(nèi)外學(xué)者采用多種分類方法用于語(yǔ)音情感識(shí)別,常用的有隱馬爾科夫模型(Hidden Markov model,HMM)、支持向量機(jī)(Support Vector Machine,SVM)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)等,NWE T L[1]等人對(duì)一個(gè)漢語(yǔ)普通話語(yǔ)音庫(kù)和一個(gè)緬甸語(yǔ)語(yǔ)音庫(kù)訓(xùn)練和測(cè)試HMM,對(duì)6種情感的平均識(shí)別率可以達(dá)到75.5%和78.5%,TATO R[2]等人使用SVM對(duì)喜、怒、悲、中性4種情感進(jìn)行識(shí)別研究,最終平均識(shí)別率達(dá)到73%。極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)是由HUANG G B等[3]于2006年提出的一種應(yīng)用于廣義單隱層前饋神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法,與常用的ANN、SVM相比極大地提高了網(wǎng)絡(luò)的學(xué)習(xí)速度和泛化性能[4],已經(jīng)在故障診斷[5]、病理診斷[6]等領(lǐng)域得到應(yīng)用。文獻(xiàn)[7]中證明ELM與SVM分類精度相似,但學(xué)習(xí)速度優(yōu)于SVM、參數(shù)選擇更容易,同時(shí)文中將Mercer條件用于網(wǎng)絡(luò)模型,提出性能更好的核函數(shù)極限學(xué)習(xí)機(jī)(Extreme Learning Machine with Kernel,KELM),據(jù)此本文采用KELM作為分類器。

    傳統(tǒng)的語(yǔ)音情感識(shí)別方法均是采用單一特征或多個(gè)特征簡(jiǎn)單相加來(lái)構(gòu)建單個(gè)網(wǎng)絡(luò)進(jìn)行分類識(shí)別,這種模式若要達(dá)到最佳的識(shí)別結(jié)果,需選擇最全面的輸入特征以及最優(yōu)的分類器,但是兩者兼顧最優(yōu)是很難實(shí)現(xiàn)的。近年來(lái)提出的融合技術(shù)[8]通過制定融合規(guī)則在一定程度上實(shí)現(xiàn)了兩個(gè)“最優(yōu)”。因此,本文提出融合KELM的方法,該方法不僅繼承了極限學(xué)習(xí)機(jī)分類精度高、學(xué)習(xí)速度快的性能,還具有融合技術(shù)識(shí)別率高的優(yōu)勢(shì)。設(shè)計(jì)實(shí)驗(yàn)將本文方法在柏林語(yǔ)音庫(kù)中測(cè)試,提取聚合經(jīng)驗(yàn)?zāi)B(tài)分解(Ensemble Empirical Mode Decomposition,EEMD)特征、韻律特征、梅爾倒譜系數(shù)特征(Mel-Fregurecy Cepstrum Coefficients,MFCC),通過對(duì)基分類器的輸出加權(quán)融合,實(shí)現(xiàn)語(yǔ)音情感識(shí)別。

1 核函數(shù)極限學(xué)習(xí)機(jī)

    極限學(xué)習(xí)機(jī)的隱層參數(shù)均為隨機(jī)產(chǎn)生,且無(wú)需迭代,因此比傳統(tǒng)方法參數(shù)選擇簡(jiǎn)單、學(xué)習(xí)速度快。核函數(shù)極限學(xué)習(xí)機(jī)由ELM衍生而來(lái),其解決多分類識(shí)別問題的能力更強(qiáng)。對(duì)于一個(gè)輸入為d維向量xi,輸出標(biāo)簽為ti(i=1,…,N)的基本極限學(xué)習(xí)機(jī)模型描述為:

jsj3-gs1-6.gif

    KELM模型中,廣義逆矩陣中的參數(shù)C與核函數(shù)中的參數(shù)g的選擇會(huì)影響識(shí)別性能,需優(yōu)化求解。

2 融合KELM

    基于加權(quán)求和的分類器決策融合方法可以分為兩種:基于硬判決輸出和基于軟判決輸出的融合方法。對(duì)于前者,每個(gè)分類器的輸出是一個(gè)標(biāo)簽,通過計(jì)算各分類器輸出的所有類別數(shù)量,將得到最大的票數(shù)的類別作為最后的輸出;而對(duì)于后者,每個(gè)分類器的輸出為決策概率,各個(gè)分類器按照分配的權(quán)重加權(quán)求和得到輸出結(jié)果?;谲浥袥Q輸出的方法通過輸出一個(gè)介于0~1之間的概率相比于輸出0/1的硬判決輸出方法更能準(zhǔn)確地分類,故選擇軟判決的融合方法。

    這里需要解決兩個(gè)問題:(1)將KELM的數(shù)值輸出轉(zhuǎn)化為概率輸出;(2)確定決策策略。

2.1 概率矩陣

    基本KELM的輸出為數(shù)值輸出,為了將輸出范圍統(tǒng)一,仿照概率支持向量機(jī)的研究[10]將KELM的輸出轉(zhuǎn)化為概率形式:

jsj3-gs7-9.gif

2.2 決策策略

    融合權(quán)值的確定是一個(gè)關(guān)鍵問題,決策權(quán)重一般由分類器在訓(xùn)練數(shù)據(jù)上的性能決定,決策時(shí)會(huì)給訓(xùn)練時(shí)性能好的分類器分配較大的權(quán)重,但這樣會(huì)忽略測(cè)試樣本的多樣性和特性,所以計(jì)算權(quán)重分布時(shí)不僅應(yīng)考慮分類器的性能,還應(yīng)考慮測(cè)試樣本的特性,這是本文制定決策策略的核心思想。融合KELM算法實(shí)現(xiàn)框圖如圖1。

jsj3-t1.gif

    該方法的具體實(shí)現(xiàn)如下:

    (1)訓(xùn)練階段

    訓(xùn)練樣本經(jīng)預(yù)處理后,分別提取n類特征,記為F1,…,F(xiàn)n,利用特征分別訓(xùn)練N個(gè)核函數(shù)極限學(xué)習(xí)機(jī),記為KELM i,i=1,…,N。

    (2)識(shí)別階段

    ①對(duì)于預(yù)處理后的測(cè)試樣本x,分別提取n類特征F1,…,F(xiàn)n,將特征向量分別輸入步驟(1)訓(xùn)練好的KELM i中。

    ②建立概率矩陣。利用式(1)建立分類器的概率矩陣。

    ③確定權(quán)值。將樣本輸入KELM中,若分類器將某樣本分類至某標(biāo)簽的概率越大,說明該樣本特征距離判別超平面越遠(yuǎn),則分類器對(duì)該樣本的分類越準(zhǔn)確,其融合權(quán)重相應(yīng)的應(yīng)該越大,相當(dāng)于“放大”準(zhǔn)確程度,由式(10)計(jì)算第k組分類器各類別概率輸出的最大值,記為: 

jsj3-gs10-12.gif

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)

    實(shí)驗(yàn)選用柏林語(yǔ)音庫(kù)為數(shù)據(jù)庫(kù)來(lái)源。選擇293句包含4種情感、長(zhǎng)度近似相等的語(yǔ)句組成本次實(shí)驗(yàn)數(shù)據(jù)庫(kù),其中高興71句、悲傷62句、憤怒81句、中性79句,各選擇 2/3作為訓(xùn)練樣本,1/3作為測(cè)試樣本。

3.2 實(shí)驗(yàn)與結(jié)果分析

    對(duì)語(yǔ)音庫(kù)中的樣本進(jìn)行預(yù)處理,主要包括端點(diǎn)檢測(cè)、預(yù)加重和加窗分幀。特征選取前期提取的EEMD特征(提取過程說明:信號(hào)經(jīng)EEMD分解后,選取前七階固有模態(tài)分量提取能量特征)、韻律特征(包括基音頻率、語(yǔ)速、短時(shí)能量、過零率、共振峰頻率及統(tǒng)計(jì)參數(shù))、MFCC 3種特征。

    實(shí)驗(yàn)采用網(wǎng)格尋優(yōu)法選擇正則化系數(shù)和核函數(shù)參數(shù)g,反復(fù)試驗(yàn)對(duì)依據(jù)特征建立的3 個(gè)基分類器分別進(jìn)行參數(shù)尋優(yōu),最終確定參數(shù)組合如表 1 所示。 

jsj3-b1.gif

    表2給出了各基分類器以及本文提出的決策融合方法(簡(jiǎn)稱為FKELM)的實(shí)驗(yàn)結(jié)果,可以看出本文方法無(wú)論在4種情感的識(shí)別率還是平均識(shí)別率都有很大程度的提高,尤其是在情感“高興”、“悲傷”中的表現(xiàn),F(xiàn)KELM的識(shí)別率比相應(yīng)識(shí)別率最高的基分類器分別提高了20.83%、15%,平均識(shí)別率相比于最好的基分類器也提高了11.52%,圖2更直觀地反映了識(shí)別性能的提高。

jsj3-b2.gif

jsj3-t2.gif

    為了說明本文方法的優(yōu)勢(shì),設(shè)計(jì)兩組對(duì)比實(shí)驗(yàn),第一組實(shí)驗(yàn)是與常用單分類器比較,將所有特征共1 069維輸入分類器中,結(jié)果見表3,單分類器中BP神經(jīng)網(wǎng)絡(luò)的性能最好,但與FKELM相比仍有很大差距;第二組實(shí)驗(yàn)是與常用的融合策略相比,結(jié)果見表4,平均決策的平均識(shí)別率達(dá)到了81.81%,但與融合KELM的平均識(shí)別率還有近7%的差距。

jsj3-b3.gif

jsj3-b4.gif

    從實(shí)驗(yàn)結(jié)果與對(duì)比實(shí)驗(yàn)結(jié)果看,本文提出的方法表現(xiàn)出了很大的優(yōu)勢(shì),原因有三:(1)在特征方面,特征融合減弱了由于單一特征無(wú)法全面描述情感信息而導(dǎo)致的識(shí)別率低的缺點(diǎn),在一定程度上提升了識(shí)別結(jié)果;(2)識(shí)別網(wǎng)絡(luò)參數(shù)選擇,考慮到特征的差異性,3組KELM的參數(shù)均分別尋優(yōu),選擇了單個(gè)特征識(shí)別率最高情況下的參數(shù)組合;(3)決策策略的制定,權(quán)重依據(jù)分類器概率矩陣而定,綜合權(quán)衡了分類器的性能和輸入樣本的特性,使得融合KELM方法比單分類器在決策時(shí)出錯(cuò)更少。因此本文提出的融合KELM是一個(gè)有效的語(yǔ)音情感識(shí)別方法。

4 結(jié)論

    本文針對(duì)單分類器情況下識(shí)別性能不理想的問題,提出了融合KELM的方法,并提出一種同時(shí)考慮分類器性能和輸入樣本特性的決策策略。首先針對(duì)3類語(yǔ)音特征訓(xùn)練3個(gè)KELM,對(duì)基分類器分別尋優(yōu)選擇最佳參數(shù)組合,然后采用基于概率矩陣而制定的融合策略對(duì)基分類器的判決結(jié)果決策融合,在柏林語(yǔ)音庫(kù)中進(jìn)行驗(yàn)證。結(jié)果表明,相比于傳統(tǒng)的單一分類器,本文方法的識(shí)別性能有很大程度提高,與經(jīng)典決策策略相比也有明顯優(yōu)勢(shì),為語(yǔ)音情感識(shí)別提供了一種可靠的方法。

參考文獻(xiàn)

[1] NWE T L,F(xiàn)OO S W,DE S L C.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603-623.

[2] TATO R,SANTOS R,KOMPE R,et al.Emotion space improves emotion recognition[C].Denver,Colorado:CSLP,2002.

[3] HUANG G B,ZHU Q Y,SIEW C K.Extreme learning machine:theory and applications[J].Neurocomputing,2006,70(1):489-501.

[4] 鄧萬(wàn)宇,鄭慶華,陳琳,等.神經(jīng)網(wǎng)絡(luò)極速學(xué)習(xí)方法研究[J].計(jì)算機(jī)學(xué)報(bào),2010,33(2):279-287.

[5] 陳紹煒,柳光峰,冶帥.基于核極限學(xué)習(xí)機(jī)的模擬電路故障診斷研究[J].西北工業(yè)大學(xué)學(xué)報(bào),2015,33(2):290-294.

[6] 劉小峰,張翔,王雪.基于EEG去趨勢(shì)波動(dòng)分析和極限學(xué)習(xí)機(jī)的癲癇發(fā)作自動(dòng)檢測(cè)與分類識(shí)別[J].納米技術(shù)與精密工程,2015,13(6):397-403.

[7] HUANG G B,ZHOU H,DING X,et al.Extreme learning machine for regression and multiclass classification[J].IEEE Transactions on Systems,Man,and Cybernetics-Part B:Cybernetics,2012,42(2):513-529.

[8] HALL D L,LLINAS J.An introduction to multisensor data fusion[J].Proceedings of the IEEE,1997,85(1):6-23.

[9] 張文博,姬紅兵.融合極限學(xué)習(xí)機(jī)[J].電子與信息學(xué)報(bào),2013,35(11):2828-2732.

[10] PLATT J C.Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods[M][S.1.]:Massachusetts Institute of Technology Press,1999.



作者信息:

張雪英,張  樂,孫  穎,張  衛(wèi)

(太原理工大學(xué) 信息工程學(xué)院,山西 太原030024)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。