亚洲图片一区二区,久久天天躁狠狠躁夜夜av浪潮

灰關(guān)聯(lián)分析與語音/音樂信號識別

日期： 2008-08-04

作者：陳功，張雄偉

關(guān)鍵詞： 音頻信號語音信號特征提取自動分類最大

　　摘　要: 將灰關(guān)聯(lián)分析方法應(yīng)用于語音/音樂信號的分類和識別，并給出了對音頻信號" title="音頻信號">音頻信號進(jìn)行灰關(guān)聯(lián)分析的方法和步驟。利用語音和音樂信號的短時能量均方根的概率統(tǒng)計(jì)特征建立目標(biāo)的參考數(shù)據(jù)和比較數(shù)據(jù)，進(jìn)行語音和音樂信號的灰關(guān)聯(lián)分析，確定目標(biāo)識別與分類的判據(jù)，并對兩類信號進(jìn)行識別。仿真結(jié)果表明灰關(guān)聯(lián)分析方法應(yīng)用于音頻信號分類和識別具有一定的可行性。
　　關(guān)鍵詞: 灰關(guān)聯(lián)分析特征語音和音樂識別仿真

　　語音和音樂是兩類最重要的音頻數(shù)據(jù)，語音和音樂的自動分類" title="自動分類">自動分類在基于內(nèi)容的音頻檢索、視頻的摘要以及語音識別等眾多領(lǐng)域都有重要的應(yīng)用價值。
　　目前，國內(nèi)外語音信號" title="語音信號">語音信號識別多采用基于感覺特征(例如響度、音調(diào)、諧度等)和過零率、功率譜、MFCC系數(shù)等多種語音/音樂分類特征的模式識別技術(shù)實(shí)現(xiàn)信號的自動識別^[1～5]。然而當(dāng)識別對象的參數(shù)不完整、不齊全時，這些方法有的不能給出正確可靠的結(jié)果，有的無法進(jìn)行識別，有的識別的可靠性較差。由于語音信號環(huán)境的復(fù)雜和多變性，語音和音樂信號參數(shù)有時很難完全得到，上述方法在實(shí)際應(yīng)用中存在一定的局限性。
　　因此，如何有效利用現(xiàn)有的少量音頻數(shù)據(jù)，準(zhǔn)確地進(jìn)行音頻信號自動分類識別，尤其是語音和音樂的分類，并作為提取音頻內(nèi)容語義和結(jié)構(gòu)的重要手段之一，其研究日益引起人們的重視?；疑到y(tǒng)理論特別是灰關(guān)聯(lián)分析方法的發(fā)展，為解決這一問題提供了可能。
1 語音/音樂信號的灰關(guān)聯(lián)分析方法
　　灰色系統(tǒng)理論屬系統(tǒng)論的范疇，灰色是指信息不完全?；疑到y(tǒng)理論主要研究系統(tǒng)模型不明確、行為信息不完全、運(yùn)行機(jī)制不清楚這類系統(tǒng)的建模、預(yù)測、決策和控制等問題^[9]。在進(jìn)行序列關(guān)聯(lián)分析時，必須先確定參考數(shù)列，然后比較其它序列與參考序列的接近程度，進(jìn)而做出判斷?；谊P(guān)聯(lián)分析的主要步驟：(1)確定參考序列和比較序列；(2)求灰關(guān)聯(lián)系數(shù)；(3)求灰關(guān)聯(lián)度；(4)按灰關(guān)聯(lián)度大小排序。
2 參考序列和比較序列的確定
　　選取一段無停頓的語音信號和音樂信號作為待識別音頻信號，音頻信號的特征提取" title="特征提取">特征提取本質(zhì)上起到了降維作用，用較少的維度表現(xiàn)了時域上的音頻信號?？紤]到只有在5~20ms的時間間隔內(nèi)才可以認(rèn)為音頻信號的特征基本保持不變。因此本文選取短時能量均方根的概率統(tǒng)計(jì)方法提取語音和音樂信號的特征。

　　圖1(a)和圖2(a)分別為語音和音樂信號短時能量的均方根(RMS)的時域波形^[4]。其采樣頻率均為11025Hz，矩形窗長度N取10ms，時間長度為30s。
　　
　　式(1)中，x(n)為音頻信號，矩形窗序列沿音頻樣點(diǎn)序列逐幀移動，每段幀長度為N。
　　30s的RMS的概率分布即信號分布頻數(shù)直方圖如圖1(b)、圖2(b)所示。由圖可知兩分布有較明顯的差異，可以作為識別語音和音樂信號的特征依據(jù)。進(jìn)一步研究發(fā)現(xiàn)其概率分布服從不同參數(shù)時的廣義χ²分布^[4]。
　　選取上述30s的語音和音樂信號RMS概率分布作為參考序列，記為x_j={x_j(k)|k=1,2,…,K}，其中x₁為語音參考序列，x₂為音樂參考序列。選取同一語音源音樂源的數(shù)據(jù)作為比較序列，記作y_i={y_i(k)|k=1,2,…,K}，其中y₁為語音比較數(shù)列，y₂為音樂比較序列。K為特征數(shù)量，本文取K=10。為檢驗(yàn)不同長度比較序列的灰關(guān)聯(lián)度，特征提取的比較序列時間長度分別取0.1s、1s、10s。圖3為與30s的語音和音樂參考信號RMS概率分布比較圖。由圖3可知，比較序列的時間長度越長，概率分布與參考序列的相似程度就越大，當(dāng)比較序列時長為10s時，概率分布幾乎與參考序列吻合。

　　為保證音頻序列的可比性，在進(jìn)行灰關(guān)聯(lián)分析時，需要對序列進(jìn)行初值化生成處理，即對一個數(shù)列的所有數(shù)據(jù)均用其第一個數(shù)去除。這個新序列表明原始數(shù)列中不同時刻的值相對于第一個時刻值的倍數(shù)。
3 計(jì)算灰關(guān)聯(lián)系數(shù)
　　在語音/音樂識別中，由于目標(biāo)的類型為兩個，有兩個參考序列，為區(qū)分不同的類型，就需要求一組比較序列與二組參考序列的灰關(guān)聯(lián)度。如果在局部環(huán)境下計(jì)算每一組比較序列分別與二組參考序列的灰關(guān)聯(lián)系數(shù)，則在不同局部條件下所得到的灰關(guān)聯(lián)度將失去可比性。因此，為實(shí)現(xiàn)對音頻類型的識別，在計(jì)算某一個比較序列與各個參考序列的灰關(guān)聯(lián)度時，必須是在相同最大" title="最大">最大值和最小值下計(jì)算，從而得到“全局環(huán)境”的灰關(guān)聯(lián)度系數(shù)。
　　計(jì)算全局環(huán)境下的灰關(guān)聯(lián)系數(shù)的算法如下：
　　

　　其中，Nj={1,2}，Ni={1,2}，K={1,2,…，10}，常數(shù)ξ稱為分辨系數(shù)，ξ∈[0,1]，其作用是調(diào)整比較環(huán)境的大小。ξ????
4 計(jì)算灰關(guān)聯(lián)度
　　灰關(guān)聯(lián)分析的實(shí)質(zhì)，就是對數(shù)列曲線進(jìn)行幾何關(guān)系的比較。若兩數(shù)列曲線重合，則關(guān)聯(lián)性好，關(guān)聯(lián)系數(shù)為1，兩數(shù)列關(guān)聯(lián)度也等于1。同時兩數(shù)列曲線不可能垂直，即無關(guān)聯(lián)性，所以關(guān)聯(lián)系數(shù)大于0，故關(guān)聯(lián)度也大于0。由于在比較全過程中，關(guān)聯(lián)系數(shù)不止一個，因此，取關(guān)聯(lián)系數(shù)的平均值作為比較全過程的關(guān)聯(lián)程度rji的度量，即:
　　
5 按灰關(guān)聯(lián)度大小排序
　　對參考序列x_j和比較序列y_i的關(guān)聯(lián)度從大到小進(jìn)行排序，即得灰關(guān)聯(lián)序列。本文采用最大灰關(guān)聯(lián)度的識別原則。
　　通過500次蒙特卡羅實(shí)驗(yàn)，表1給出時間長度0.1s、1s、10s比較序列，采用最大灰關(guān)聯(lián)度的識別結(jié)果。

　　圖4為進(jìn)行100次蒙特卡羅仿真，三種時間長度的語音和音樂比較信號與各比較序列的最大灰關(guān)聯(lián)度。

　　從圖4中可以看出：
　　(1) 在時間長度為0.1s時，語音、音樂信號與其兩類模本的關(guān)聯(lián)度值相交。這是由于所表征序列的特征值并不完全的原因。
　　(2) 時間長度為1s時，語音比較信號與其參考信號的關(guān)聯(lián)度均大于0.85，音樂比較信號與語音參考信號的關(guān)聯(lián)度大于0.6小于0.95；而音樂比較信號與其參考信號的關(guān)聯(lián)度均大于0.73小于0.9，語音比較信號與音樂參考信號的關(guān)聯(lián)度大于0.7小于0.85。同為語音模本的條件下，97%以上的語音信號關(guān)聯(lián)值大于音樂信號的關(guān)聯(lián)值。而模本為音樂的條件下，92%以上的音樂信號關(guān)聯(lián)值大于語音信號的關(guān)聯(lián)值。由此，在不同參考信號下，通過設(shè)置閾值可以作為識別語音和音樂信號的依據(jù)。
　　(3) 時間長度為10s時，語音比較信號與同類模本的關(guān)聯(lián)值高于與音樂比較信號的關(guān)聯(lián)值20%~35%，高于語音參考信號與音樂模本的關(guān)聯(lián)值25%~30%；而音樂比較信號與同類模本的關(guān)聯(lián)值以90％的準(zhǔn)確率大于語音比較信號的關(guān)聯(lián)值，并且高于音樂比較信號與語音模本的關(guān)聯(lián)值5%~20%。所以，當(dāng)信號特征提取充分時，識別率可達(dá)100%。
　　事實(shí)上，音頻信號的灰關(guān)聯(lián)可以認(rèn)為是近似相關(guān)，參考序列與比較序列的特征值相關(guān)程度越高，其關(guān)聯(lián)值就越大，反之則較小。
參考文獻(xiàn)
1 J. Saunders. Real-time discrimination of broadcast speech/music. Proc. IEEE ICASSP, 1996
2 E. Scheier, M. Slaney. Construction， evaluation of a robust multifeature speech/music discriminator.Proc.IEEE ICASSP, 1997
3 E. Wold, T. Blum, D. Keislar, J. Wheaton. Content-based classification, search, and retrieval of audio.IEEE Multimedia Mag. 1996；3：27～36
4 C. Panagiotakis, G. Tziritas. A Speech/Music Discriminator Based on RMS and Zero-Crossings. IEEE Transactions on Multimedia. 2005;(2)：155～166
5 盧堅(jiān),陳毅松. 語音/音樂自動分類中的特征分析.計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2002;14(3):233～237
6 關(guān) 欣,何友,衣曉基. 基于灰關(guān)聯(lián)分析的雷達(dá)輻射源識別方法研究. 系統(tǒng)仿真學(xué)報(bào), 2004;16(11):2601～2607
7 謝松云,董大群,王本剛. 基于灰關(guān)聯(lián)分析的目標(biāo)識別方法研究. 系統(tǒng)仿真學(xué)報(bào), 2002;14(2):257～261
8 邱憲文,羅景青. 灰關(guān)聯(lián)分析與雷達(dá)信號識別. 雷達(dá)與對抗,1999;2:25～29
9 鄧聚龍.灰色控制系統(tǒng).武漢：華中理工大學(xué)出版社，1997.10

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

灰關(guān)聯(lián)分析與語音/音樂信號識別

日期： 2008-08-04

作者：陳 功， 張雄偉

相關(guān)內(nèi)容

作者：陳功，張雄偉