《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 基于DTW的編碼域說話人識(shí)別研究
基于DTW的編碼域說話人識(shí)別研究
來源:電子技術(shù)應(yīng)用2010年第8期
李榕健, 于洪濤, 李邵梅
國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心, 河南 鄭州 450002
摘要: 相對(duì)解碼重建后的語音進(jìn)行說話人識(shí)別,從VoIP的語音流中直接提取語音特征參數(shù)進(jìn)行說話人識(shí)別方法具有便于實(shí)現(xiàn)的優(yōu)點(diǎn),針對(duì)G.729編碼域數(shù)據(jù),研究基于DTW算法的快速說話人識(shí)別方法。實(shí)驗(yàn)結(jié)果表明,在相關(guān)的說話人識(shí)別中, DTW算法相比GMM 在識(shí)別正確率和效率上有了很大提高。
中圖分類號(hào): TN912.3
文獻(xiàn)標(biāo)識(shí)碼: A
文章編號(hào): 0258-7998(2010)08-0119-03
Research on speaker recognition from coding domain based on DTW algorithm
LI Rong Jian, YU Hong Tao, LI Shao Mei
National Digital Switching System and Researching Center, Zhengzhou 450002, China
Abstract: The direct extraction of speech feature parameters from VoIP voice stream for speaker recognition in relation to reconstructing the decoded speech for speaker recognition has the advantages of easy implementation.This paper focuses on data in G.729 coding domain and proposes a method of quick speaker recognition based on DTW algorithm. Experimental results show that, compared with GMM, DTW has advantage of high rcognition accuracy and process speed in the text-dependent speaker recognition.
Key words : speaker recognition; G.729 coding stream; voice feature parameter; DTW algorithm

 說話人識(shí)別又被稱為話者識(shí)別,是指通過對(duì)說話人語音信號(hào)的分析處理,自動(dòng)確認(rèn)說話人是否在所記錄的話者集合中,以及進(jìn)一步確認(rèn)說話人的身份。說話人識(shí)別的基本原理如圖1所示。

   按照語音的內(nèi)容,說話人識(shí)別可以分為文本無關(guān)的(Text-Independent)和文本相關(guān)的(Text-Dependent)兩種。文本無關(guān)的識(shí)別系統(tǒng)不規(guī)定說話人的發(fā)音內(nèi)容,模型建立相對(duì)困難,但用戶使用方便。與文本有關(guān)的說話人識(shí)別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音,而識(shí)別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音,因此可以達(dá)到較好的識(shí)別效果。
 隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,通過Internet網(wǎng)絡(luò)傳遞語音的網(wǎng)絡(luò)電話VoIP(Voice over IP)技術(shù)發(fā)展迅速,已經(jīng)成為人們?nèi)粘=涣鞯闹匾侄?,越來越多的用戶拋棄傳統(tǒng)的通信方式,通過計(jì)算機(jī)網(wǎng)絡(luò)等媒介進(jìn)行語音交流。由于VoIP工作方式的特點(diǎn),語音在傳輸中經(jīng)過了語音編譯碼處理,VoIP設(shè)備端口同時(shí)要處理多路、海量的壓縮話音數(shù)據(jù)。所以VoIP說話人識(shí)別技術(shù)主要研究的是如何高速、低復(fù)雜度地針對(duì)解碼參數(shù)和壓縮碼流進(jìn)行說話人識(shí)別。
 現(xiàn)有的針對(duì)編碼域說話人識(shí)別方法的研究主要集中在編碼域語音特征參數(shù)的提取上,香港理工大學(xué)研究從G.729和G.723編碼比特流以及殘差中提取信息,并采用了分?jǐn)?shù)補(bǔ)償?shù)姆椒?。中國科學(xué)技術(shù)大學(xué)主要研究了針對(duì)AMR語音編碼的說話人識(shí)別。西北工業(yè)大學(xué)在說話人確認(rèn)中針對(duì)不同的語音編碼差異進(jìn)行了補(bǔ)償算法研究,并且研究了直接在G.729編碼的比特流中提取參數(shù)的方法。說話人模型則主要采用在傳統(tǒng)說話人識(shí)別中應(yīng)用最廣泛的GMM-UBM(Gaussian Mixture Model-Universal Background Model)。GMM-UBM的應(yīng)用效果和混元數(shù)目密切相關(guān),在保證識(shí)別率的基礎(chǔ)上,其處理速度無法滿足VoIP環(huán)境下高速說話人識(shí)別的需求。
 本文研究VoIP語音流中G.729編碼域的說話人實(shí)時(shí)識(shí)別,將DTW識(shí)別算法成功應(yīng)用在G.729編碼域的文本相關(guān)的說話人實(shí)時(shí)識(shí)別。
1 G.729編碼比特流中的特征提取
1.1  G.729編碼原理

 ITU-T在1996年3月公布G.729編碼,其編碼速率為8 kb/s,采用了對(duì)結(jié)構(gòu)代數(shù)碼激勵(lì)線性預(yù)測技術(shù)(CS-ACELP),編碼結(jié)果可以在8 kb/s的碼率下得到合成音質(zhì)不低于32 kb/s ADPCM的水平。 G.729的算法延時(shí)為15 ms。由于G.729編解碼器具有很高的語音質(zhì)量和很低的延時(shí),被廣泛地應(yīng)用在數(shù)據(jù)通信的各個(gè)領(lǐng)域,如VoIP和H.323網(wǎng)上多媒體通信系統(tǒng)等。
    G.729的編碼過程如下:輸入8 kHz采樣的數(shù)字語音信號(hào)先經(jīng)過高通濾波預(yù)處理,每10 ms幀作一次線性預(yù)測分析,計(jì)算10階線性預(yù)測濾波器系數(shù),然后把這些系數(shù)轉(zhuǎn)換為線譜對(duì)(LSP)參數(shù),采用兩級(jí)矢量量化技術(shù)進(jìn)行量化。自適應(yīng)碼本搜索時(shí),以原始語音與合成語音的誤差知覺加權(quán)最小為測度進(jìn)行搜索。固定碼本采用代數(shù)碼本機(jī)構(gòu)。激勵(lì)參數(shù)(自適應(yīng)碼本和固定碼本參數(shù))每個(gè)子幀(5 ms,40個(gè)樣點(diǎn))確定一次。
1.2 特征參數(shù)提取
    直接從G.729 編碼流中按照量化算法解量化可以得到LSP參數(shù)。由于后段的說話人識(shí)別系統(tǒng)還需要激勵(lì)參數(shù),而在激勵(lì)參數(shù)的計(jì)算過程中經(jīng)過了LSP的插值平滑,所以為了使特征矢量中聲道和激勵(lì)參數(shù)能準(zhǔn)確地對(duì)應(yīng)起來,要對(duì)解量化的LSP參數(shù)采用插值平滑。



 本文選擇G.729編碼幀中第一子幀的LSP(1)參數(shù)的反余弦LSF及由其轉(zhuǎn)換得到的LPC、LPCC參數(shù)作為聲道特征參數(shù)。
 參考文獻(xiàn)[1]發(fā)現(xiàn)識(shí)別特征加入G.729壓縮幀中的語音增益參數(shù),說話人識(shí)別性能發(fā)生了下降。去除G.729壓縮碼流特征中的增益參數(shù)GA1、GB1、GA2、GB2,結(jié)果發(fā)現(xiàn),當(dāng)采用了去除增益參數(shù)的特征矢量方案X=(L0,L1,L2,L3,P1,P0,P2),識(shí)別性能得到了提高,所以本文最終采用的G.729壓縮碼流特征為X=(L0,L1,L2,L3,P1,P0,P2),共7維。
2 動(dòng)態(tài)時(shí)間規(guī)整(DTW)識(shí)別算法
 動(dòng)態(tài)時(shí)間規(guī)整DTW(Dynamic Time Warping)是把時(shí)間規(guī)整和距離測度計(jì)算結(jié)合起來的一種非線性規(guī)整技術(shù)。該算法基于動(dòng)態(tài)規(guī)劃思想,解決了發(fā)音長短不一的模版匹配問題。
 算法原理:假設(shè)測試語音和參考語音分別用R和T表示,為了比較它們之間的相似度,可以計(jì)算它們之間的距離D[T,R],距離越小則相似度越高。具體實(shí)現(xiàn)中,先對(duì)語音進(jìn)行預(yù)處理,再把R和T按相同時(shí)間間隔劃分成幀系列:

   然后采用動(dòng)態(tài)規(guī)劃進(jìn)行識(shí)別。如圖2所示。

   把測試模版的各個(gè)幀號(hào)n=1,…,N在一個(gè)二維直角坐標(biāo)系的橫軸上標(biāo)出,把參考模版的各幀號(hào)m=1,…,M在縱軸上標(biāo)出,通過這些表示幀號(hào)的整數(shù)坐標(biāo)畫出的橫縱線即可形成一個(gè)網(wǎng)格,網(wǎng)格中的每一個(gè)交叉點(diǎn)(n,m)表示測試模版中某一幀與訓(xùn)練模版中某一幀的交叉點(diǎn)。動(dòng)態(tài)規(guī)劃算法可以歸結(jié)為尋找一條通過此網(wǎng)格中若干格點(diǎn)的路徑,路徑通過的格點(diǎn)即為測試和參考模版中距離計(jì)算的幀號(hào)。

 整個(gè)算法主要?dú)w結(jié)為計(jì)算測試幀和參考幀間的相似度及所選路徑的矢量距離累加。
 識(shí)別流程如圖3所示。

3  實(shí)驗(yàn)結(jié)果與性能分析及結(jié)論
 為測試上述識(shí)別性能,對(duì)其進(jìn)行了固定文本的說話人識(shí)別試驗(yàn)。試驗(yàn)中,采用電話信道863語料庫30個(gè)說話人共300個(gè)錄音文件,文件格式為16 bit線性PCM。為了模擬VoIP中語音壓縮幀,使用G.729聲碼器對(duì)原始語音文件進(jìn)行壓縮。使用每個(gè)說話人的一個(gè)文件訓(xùn)練成為模板。測試語音長度為10 s~60 s以5 s為間隔的共11個(gè)測試時(shí)間標(biāo)準(zhǔn)。這樣,模板庫中有30個(gè)模板,測試語音有270個(gè),使用微機(jī)配置是:CPU Pentium 2.0 GHz,內(nèi)存512 MB。
 在實(shí)驗(yàn)中,M和N取64,通過各模版間的匹配,確定了判決門限為0.3時(shí),識(shí)別效果最佳。
 為了對(duì)比DTW算法的識(shí)別性能,采用在傳統(tǒng)說話人識(shí)別中廣泛使用的GMM模型作為對(duì)比實(shí)驗(yàn),其中GMM模型使用與DTW算法相同的編碼流特征。
   圖4給出基于DTW識(shí)別方法與GMM模型(混元數(shù)64)識(shí)別G.729編碼方案863語料庫的文本相關(guān)說話人的誤識(shí)率對(duì)比圖。橫坐標(biāo)代表的測試語音的時(shí)長,縱坐標(biāo)代表識(shí)別誤識(shí)率。由實(shí)驗(yàn)結(jié)果可知在文本相關(guān)的說話人識(shí)別中,基于DTW算法的識(shí)別率在絕大多數(shù)情況下高于GMM模型,且隨著測試語音的增長,優(yōu)勢更明顯。

 為比較特征提取的時(shí)間性能和總的時(shí)間性能,實(shí)驗(yàn)條件如下:
   (1)選擇的50個(gè)說話人的語音只進(jìn)行特征提取,測試語音長度總和在25 min左右;
   (2)對(duì)測試語音分別進(jìn)行解碼識(shí)別和編碼流的識(shí)別,模板數(shù)為10個(gè);
   (3)微機(jī)配置為:CPU Pentium 2.0 GHz,內(nèi)存512 MB。
   表1為特征提取時(shí)間比較結(jié)果,表2為說話人識(shí)別時(shí)間比較結(jié)果。

 由實(shí)驗(yàn)結(jié)果可以看出,在編碼比特流中進(jìn)行特征提取時(shí)間和識(shí)別的(上接第121頁)
時(shí)間都遠(yuǎn)小于解碼重建后的語音特征提取時(shí)間和識(shí)別時(shí)間,滿足實(shí)時(shí)說話人識(shí)別的需要。
    在文本相關(guān)的說話人識(shí)別中,對(duì)比使用同樣G.729壓縮碼流特征的GMM模型, DTW方法的識(shí)別率和處理效率均高于GMM模型,能夠?qū)崟r(shí)應(yīng)用于VoIP網(wǎng)絡(luò)監(jiān)管中。
參考文獻(xiàn)
[1]  石如亮.編碼域說話人識(shí)別技術(shù)研究[D].鄭州:解放軍信息工程大學(xué),2007.
[2]  PETRACCA M, SERVETTI A, DEMARTIN J C. Performance analysis of compressed-domain automatic speaker recognition as a function of speech coding technique and  bit rate [A]. In: International Conference on Multimedia and Expo (ICME) [C]. Toronto,Canada, 2006:1393-1396.
[3]  石如亮,李弼程,張連海,等. 基于編碼比特流的說話人識(shí)別[J].信息工程大學(xué)學(xué)報(bào),2007,8(3): 323-326.
[4]  王炳錫,屈丹,彭煊.實(shí)用語音識(shí)別基礎(chǔ)[M].北京:國防工業(yè)出版社,2004: 264-286.
[5]  李邵梅,劉力雄,陳鴻昶.實(shí)時(shí)說話人辨別系統(tǒng)中改進(jìn)的DTW算法[J].計(jì)算機(jī)工程,2008,34(4):218-219.
[6]  DUNN R B, QUATIERI T F, REYNOLDS D A. et al.  Speaker recognition from coded speech in matched and mismatched conditions [A]. In: Proc. Speaker Recognition Workshop’01 [C]. Grete, Greece, 2001:115-120.
[7]  AGGARWAL C C, OLSHEFSKI D, SAHA D et al. CSR: Speaker recognition from compressed VoIP packet stream [A]. In: International Conference on Multimedia and Expo (ICME) [C]. Amsterdam, Holand, 2005: 970-973.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。