《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 基于DTW的編碼域說(shuō)話(huà)人識(shí)別研究
基于DTW的編碼域說(shuō)話(huà)人識(shí)別研究
來(lái)源:電子技術(shù)應(yīng)用2010年第8期
李榕健, 于洪濤, 李邵梅
國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心, 河南 鄭州 450002
摘要: 相對(duì)解碼重建后的語(yǔ)音進(jìn)行說(shuō)話(huà)人識(shí)別,從VoIP的語(yǔ)音流中直接提取語(yǔ)音特征參數(shù)進(jìn)行說(shuō)話(huà)人識(shí)別方法具有便于實(shí)現(xiàn)的優(yōu)點(diǎn),針對(duì)G.729編碼域數(shù)據(jù),研究基于DTW算法的快速說(shuō)話(huà)人識(shí)別方法。實(shí)驗(yàn)結(jié)果表明,在相關(guān)的說(shuō)話(huà)人識(shí)別中, DTW算法相比GMM 在識(shí)別正確率和效率上有了很大提高。
中圖分類(lèi)號(hào): TN912.3
文獻(xiàn)標(biāo)識(shí)碼: A
文章編號(hào): 0258-7998(2010)08-0119-03
Research on speaker recognition from coding domain based on DTW algorithm
LI Rong Jian, YU Hong Tao, LI Shao Mei
National Digital Switching System and Researching Center, Zhengzhou 450002, China
Abstract: The direct extraction of speech feature parameters from VoIP voice stream for speaker recognition in relation to reconstructing the decoded speech for speaker recognition has the advantages of easy implementation.This paper focuses on data in G.729 coding domain and proposes a method of quick speaker recognition based on DTW algorithm. Experimental results show that, compared with GMM, DTW has advantage of high rcognition accuracy and process speed in the text-dependent speaker recognition.
Key words : speaker recognition; G.729 coding stream; voice feature parameter; DTW algorithm

 說(shuō)話(huà)人識(shí)別又被稱(chēng)為話(huà)者識(shí)別,是指通過(guò)對(duì)說(shuō)話(huà)人語(yǔ)音信號(hào)的分析處理,自動(dòng)確認(rèn)說(shuō)話(huà)人是否在所記錄的話(huà)者集合中,以及進(jìn)一步確認(rèn)說(shuō)話(huà)人的身份。說(shuō)話(huà)人識(shí)別的基本原理如圖1所示。

   按照語(yǔ)音的內(nèi)容,說(shuō)話(huà)人識(shí)別可以分為文本無(wú)關(guān)的(Text-Independent)和文本相關(guān)的(Text-Dependent)兩種。文本無(wú)關(guān)的識(shí)別系統(tǒng)不規(guī)定說(shuō)話(huà)人的發(fā)音內(nèi)容,模型建立相對(duì)困難,但用戶(hù)使用方便。與文本有關(guān)的說(shuō)話(huà)人識(shí)別系統(tǒng)要求用戶(hù)按照規(guī)定的內(nèi)容發(fā)音,而識(shí)別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音,因此可以達(dá)到較好的識(shí)別效果。
 隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,通過(guò)Internet網(wǎng)絡(luò)傳遞語(yǔ)音的網(wǎng)絡(luò)電話(huà)VoIP(Voice over IP)技術(shù)發(fā)展迅速,已經(jīng)成為人們?nèi)粘=涣鞯闹匾侄?,越?lái)越多的用戶(hù)拋棄傳統(tǒng)的通信方式,通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)等媒介進(jìn)行語(yǔ)音交流。由于VoIP工作方式的特點(diǎn),語(yǔ)音在傳輸中經(jīng)過(guò)了語(yǔ)音編譯碼處理,VoIP設(shè)備端口同時(shí)要處理多路、海量的壓縮話(huà)音數(shù)據(jù)。所以VoIP說(shuō)話(huà)人識(shí)別技術(shù)主要研究的是如何高速、低復(fù)雜度地針對(duì)解碼參數(shù)和壓縮碼流進(jìn)行說(shuō)話(huà)人識(shí)別。
 現(xiàn)有的針對(duì)編碼域說(shuō)話(huà)人識(shí)別方法的研究主要集中在編碼域語(yǔ)音特征參數(shù)的提取上,香港理工大學(xué)研究從G.729和G.723編碼比特流以及殘差中提取信息,并采用了分?jǐn)?shù)補(bǔ)償?shù)姆椒?。中?guó)科學(xué)技術(shù)大學(xué)主要研究了針對(duì)AMR語(yǔ)音編碼的說(shuō)話(huà)人識(shí)別。西北工業(yè)大學(xué)在說(shuō)話(huà)人確認(rèn)中針對(duì)不同的語(yǔ)音編碼差異進(jìn)行了補(bǔ)償算法研究,并且研究了直接在G.729編碼的比特流中提取參數(shù)的方法。說(shuō)話(huà)人模型則主要采用在傳統(tǒng)說(shuō)話(huà)人識(shí)別中應(yīng)用最廣泛的GMM-UBM(Gaussian Mixture Model-Universal Background Model)。GMM-UBM的應(yīng)用效果和混元數(shù)目密切相關(guān),在保證識(shí)別率的基礎(chǔ)上,其處理速度無(wú)法滿(mǎn)足VoIP環(huán)境下高速說(shuō)話(huà)人識(shí)別的需求。
 本文研究VoIP語(yǔ)音流中G.729編碼域的說(shuō)話(huà)人實(shí)時(shí)識(shí)別,將DTW識(shí)別算法成功應(yīng)用在G.729編碼域的文本相關(guān)的說(shuō)話(huà)人實(shí)時(shí)識(shí)別。
1 G.729編碼比特流中的特征提取
1.1  G.729編碼原理

 ITU-T在1996年3月公布G.729編碼,其編碼速率為8 kb/s,采用了對(duì)結(jié)構(gòu)代數(shù)碼激勵(lì)線(xiàn)性預(yù)測(cè)技術(shù)(CS-ACELP),編碼結(jié)果可以在8 kb/s的碼率下得到合成音質(zhì)不低于32 kb/s ADPCM的水平。 G.729的算法延時(shí)為15 ms。由于G.729編解碼器具有很高的語(yǔ)音質(zhì)量和很低的延時(shí),被廣泛地應(yīng)用在數(shù)據(jù)通信的各個(gè)領(lǐng)域,如VoIP和H.323網(wǎng)上多媒體通信系統(tǒng)等。
    G.729的編碼過(guò)程如下:輸入8 kHz采樣的數(shù)字語(yǔ)音信號(hào)先經(jīng)過(guò)高通濾波預(yù)處理,每10 ms幀作一次線(xiàn)性預(yù)測(cè)分析,計(jì)算10階線(xiàn)性預(yù)測(cè)濾波器系數(shù),然后把這些系數(shù)轉(zhuǎn)換為線(xiàn)譜對(duì)(LSP)參數(shù),采用兩級(jí)矢量量化技術(shù)進(jìn)行量化。自適應(yīng)碼本搜索時(shí),以原始語(yǔ)音與合成語(yǔ)音的誤差知覺(jué)加權(quán)最小為測(cè)度進(jìn)行搜索。固定碼本采用代數(shù)碼本機(jī)構(gòu)。激勵(lì)參數(shù)(自適應(yīng)碼本和固定碼本參數(shù))每個(gè)子幀(5 ms,40個(gè)樣點(diǎn))確定一次。
1.2 特征參數(shù)提取
    直接從G.729 編碼流中按照量化算法解量化可以得到LSP參數(shù)。由于后段的說(shuō)話(huà)人識(shí)別系統(tǒng)還需要激勵(lì)參數(shù),而在激勵(lì)參數(shù)的計(jì)算過(guò)程中經(jīng)過(guò)了LSP的插值平滑,所以為了使特征矢量中聲道和激勵(lì)參數(shù)能準(zhǔn)確地對(duì)應(yīng)起來(lái),要對(duì)解量化的LSP參數(shù)采用插值平滑。



 本文選擇G.729編碼幀中第一子幀的LSP(1)參數(shù)的反余弦LSF及由其轉(zhuǎn)換得到的LPC、LPCC參數(shù)作為聲道特征參數(shù)。
 參考文獻(xiàn)[1]發(fā)現(xiàn)識(shí)別特征加入G.729壓縮幀中的語(yǔ)音增益參數(shù),說(shuō)話(huà)人識(shí)別性能發(fā)生了下降。去除G.729壓縮碼流特征中的增益參數(shù)GA1、GB1、GA2、GB2,結(jié)果發(fā)現(xiàn),當(dāng)采用了去除增益參數(shù)的特征矢量方案X=(L0,L1,L2,L3,P1,P0,P2),識(shí)別性能得到了提高,所以本文最終采用的G.729壓縮碼流特征為X=(L0,L1,L2,L3,P1,P0,P2),共7維。
2 動(dòng)態(tài)時(shí)間規(guī)整(DTW)識(shí)別算法
 動(dòng)態(tài)時(shí)間規(guī)整DTW(Dynamic Time Warping)是把時(shí)間規(guī)整和距離測(cè)度計(jì)算結(jié)合起來(lái)的一種非線(xiàn)性規(guī)整技術(shù)。該算法基于動(dòng)態(tài)規(guī)劃思想,解決了發(fā)音長(zhǎng)短不一的模版匹配問(wèn)題。
 算法原理:假設(shè)測(cè)試語(yǔ)音和參考語(yǔ)音分別用R和T表示,為了比較它們之間的相似度,可以計(jì)算它們之間的距離D[T,R],距離越小則相似度越高。具體實(shí)現(xiàn)中,先對(duì)語(yǔ)音進(jìn)行預(yù)處理,再把R和T按相同時(shí)間間隔劃分成幀系列:

   然后采用動(dòng)態(tài)規(guī)劃進(jìn)行識(shí)別。如圖2所示。

   把測(cè)試模版的各個(gè)幀號(hào)n=1,…,N在一個(gè)二維直角坐標(biāo)系的橫軸上標(biāo)出,把參考模版的各幀號(hào)m=1,…,M在縱軸上標(biāo)出,通過(guò)這些表示幀號(hào)的整數(shù)坐標(biāo)畫(huà)出的橫縱線(xiàn)即可形成一個(gè)網(wǎng)格,網(wǎng)格中的每一個(gè)交叉點(diǎn)(n,m)表示測(cè)試模版中某一幀與訓(xùn)練模版中某一幀的交叉點(diǎn)。動(dòng)態(tài)規(guī)劃算法可以歸結(jié)為尋找一條通過(guò)此網(wǎng)格中若干格點(diǎn)的路徑,路徑通過(guò)的格點(diǎn)即為測(cè)試和參考模版中距離計(jì)算的幀號(hào)。

 整個(gè)算法主要?dú)w結(jié)為計(jì)算測(cè)試幀和參考幀間的相似度及所選路徑的矢量距離累加。
 識(shí)別流程如圖3所示。

3  實(shí)驗(yàn)結(jié)果與性能分析及結(jié)論
 為測(cè)試上述識(shí)別性能,對(duì)其進(jìn)行了固定文本的說(shuō)話(huà)人識(shí)別試驗(yàn)。試驗(yàn)中,采用電話(huà)信道863語(yǔ)料庫(kù)30個(gè)說(shuō)話(huà)人共300個(gè)錄音文件,文件格式為16 bit線(xiàn)性PCM。為了模擬VoIP中語(yǔ)音壓縮幀,使用G.729聲碼器對(duì)原始語(yǔ)音文件進(jìn)行壓縮。使用每個(gè)說(shuō)話(huà)人的一個(gè)文件訓(xùn)練成為模板。測(cè)試語(yǔ)音長(zhǎng)度為10 s~60 s以5 s為間隔的共11個(gè)測(cè)試時(shí)間標(biāo)準(zhǔn)。這樣,模板庫(kù)中有30個(gè)模板,測(cè)試語(yǔ)音有270個(gè),使用微機(jī)配置是:CPU Pentium 2.0 GHz,內(nèi)存512 MB。
 在實(shí)驗(yàn)中,M和N取64,通過(guò)各模版間的匹配,確定了判決門(mén)限為0.3時(shí),識(shí)別效果最佳。
 為了對(duì)比DTW算法的識(shí)別性能,采用在傳統(tǒng)說(shuō)話(huà)人識(shí)別中廣泛使用的GMM模型作為對(duì)比實(shí)驗(yàn),其中GMM模型使用與DTW算法相同的編碼流特征。
   圖4給出基于DTW識(shí)別方法與GMM模型(混元數(shù)64)識(shí)別G.729編碼方案863語(yǔ)料庫(kù)的文本相關(guān)說(shuō)話(huà)人的誤識(shí)率對(duì)比圖。橫坐標(biāo)代表的測(cè)試語(yǔ)音的時(shí)長(zhǎng),縱坐標(biāo)代表識(shí)別誤識(shí)率。由實(shí)驗(yàn)結(jié)果可知在文本相關(guān)的說(shuō)話(huà)人識(shí)別中,基于DTW算法的識(shí)別率在絕大多數(shù)情況下高于GMM模型,且隨著測(cè)試語(yǔ)音的增長(zhǎng),優(yōu)勢(shì)更明顯。

 為比較特征提取的時(shí)間性能和總的時(shí)間性能,實(shí)驗(yàn)條件如下:
   (1)選擇的50個(gè)說(shuō)話(huà)人的語(yǔ)音只進(jìn)行特征提取,測(cè)試語(yǔ)音長(zhǎng)度總和在25 min左右;
   (2)對(duì)測(cè)試語(yǔ)音分別進(jìn)行解碼識(shí)別和編碼流的識(shí)別,模板數(shù)為10個(gè);
   (3)微機(jī)配置為:CPU Pentium 2.0 GHz,內(nèi)存512 MB。
   表1為特征提取時(shí)間比較結(jié)果,表2為說(shuō)話(huà)人識(shí)別時(shí)間比較結(jié)果。

 由實(shí)驗(yàn)結(jié)果可以看出,在編碼比特流中進(jìn)行特征提取時(shí)間和識(shí)別的(上接第121頁(yè))
時(shí)間都遠(yuǎn)小于解碼重建后的語(yǔ)音特征提取時(shí)間和識(shí)別時(shí)間,滿(mǎn)足實(shí)時(shí)說(shuō)話(huà)人識(shí)別的需要。
    在文本相關(guān)的說(shuō)話(huà)人識(shí)別中,對(duì)比使用同樣G.729壓縮碼流特征的GMM模型, DTW方法的識(shí)別率和處理效率均高于GMM模型,能夠?qū)崟r(shí)應(yīng)用于VoIP網(wǎng)絡(luò)監(jiān)管中。
參考文獻(xiàn)
[1]  石如亮.編碼域說(shuō)話(huà)人識(shí)別技術(shù)研究[D].鄭州:解放軍信息工程大學(xué),2007.
[2]  PETRACCA M, SERVETTI A, DEMARTIN J C. Performance analysis of compressed-domain automatic speaker recognition as a function of speech coding technique and  bit rate [A]. In: International Conference on Multimedia and Expo (ICME) [C]. Toronto,Canada, 2006:1393-1396.
[3]  石如亮,李弼程,張連海,等. 基于編碼比特流的說(shuō)話(huà)人識(shí)別[J].信息工程大學(xué)學(xué)報(bào),2007,8(3): 323-326.
[4]  王炳錫,屈丹,彭煊.實(shí)用語(yǔ)音識(shí)別基礎(chǔ)[M].北京:國(guó)防工業(yè)出版社,2004: 264-286.
[5]  李邵梅,劉力雄,陳鴻昶.實(shí)時(shí)說(shuō)話(huà)人辨別系統(tǒng)中改進(jìn)的DTW算法[J].計(jì)算機(jī)工程,2008,34(4):218-219.
[6]  DUNN R B, QUATIERI T F, REYNOLDS D A. et al.  Speaker recognition from coded speech in matched and mismatched conditions [A]. In: Proc. Speaker Recognition Workshop’01 [C]. Grete, Greece, 2001:115-120.
[7]  AGGARWAL C C, OLSHEFSKI D, SAHA D et al. CSR: Speaker recognition from compressed VoIP packet stream [A]. In: International Conference on Multimedia and Expo (ICME) [C]. Amsterdam, Holand, 2005: 970-973.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。