孫衛(wèi)國1,夏秀渝1,喬立能1,葉于林2
?。?.四川大學 電子信息學院,四川 成都 610064;2.中國人民解放軍78438部隊,四川 成都 610066)
摘要:解決大規(guī)模音頻數(shù)據(jù)庫快速檢索的有效手段之一是建立合適的音頻索引,其中音頻分割和標注是建立音頻索引的基礎。文中采用了一種基于短時能量和改進度量距離的兩步音頻分割算法,使得分割后的音頻片段具有段間特征差異大、段內(nèi)特征方差小的特點。在音頻分割的基礎上進行了音頻數(shù)據(jù)庫中音頻流的標注;分別基于BP神經(jīng)網(wǎng)絡算法和Philips音頻指紋算法對音頻進行了音頻類別和音頻內(nèi)容的標注,為后續(xù)建立音頻索引表做準備。實驗結(jié)果表明,兩步分割算法能較好地分割任意音頻流,音頻標注算法能有效進行基于音頻類別和音頻內(nèi)容的標注,算法同時具有良好的魯棒性。
關鍵詞:音頻分割;短時能量;度量距離;音頻標注;BP神經(jīng)網(wǎng)絡;音頻指紋
中圖分類號:TN912.3文獻標識碼:ADOI: 10.19358/j.issn.1674-7720.2017.05.013
引用格式:孫衛(wèi)國,夏秀渝,喬立能,等.面向音頻檢索的音頻分割和標注研究[J].微型機與應用,2017,36(5):38-41.
0引言
隨著信息技術的高速發(fā)展,多媒體信息呈爆炸式增長,人們開始步入大數(shù)據(jù)時代,對音頻檢索的要求也在不斷增長[1]。如何從海量信息中快速、準確地檢索到最渴望的音頻信號成為了當前研究的一大熱點[2]?,F(xiàn)有檢索方法大都采用遍歷的方式,通過計算、比較查詢音頻和待檢音頻之間的距離來達到檢索目的,此類方法需要龐大的計算量,檢索的效率較低。對于大規(guī)模音頻庫的快速檢索問題,建立索引是解決該問題的有效手段。張雪源等提出利用倒排索引對音頻進行檢索[3],在很大程度上減少了檢索中的計算量。
在文本檢索中,分詞是基礎的歩驟,與之類似,音頻的分割和標注也是音頻檢索中的基礎步驟。音頻分割是指把連續(xù)的音頻流分割成一系列相對獨立并具有穩(wěn)定特征的音頻片段。目前音頻分割算法主要有基于距離度量的算法、基于貝葉斯信息準則分割算法、基于模型的算法等[4]。本文采用一種分層次兩步分割算法,將音頻流分割為段間差異大、段內(nèi)差異小的音頻單元。音頻標注可以理解為基于音頻內(nèi)容為音頻段寫摘要,是為快速建立音頻索引表做準備的,以提高音頻檢索效率為根本目的。標注的核心是音頻識別,目前音頻識別的算法有動態(tài)時間規(guī)劃算法、隱馬爾可夫模算法、反向傳播算法[5 6]等。在音頻分割完成的基礎上,本文分別采用了反向傳播(BP神經(jīng)網(wǎng)絡)算法[7 8]和經(jīng)典的Philips音頻指紋算法[9 10]對音頻流進行標注。
1音頻分割
音頻分割是指將連續(xù)的音頻流信號切分為一系列相對獨立和穩(wěn)定的基本單元。分割的目的是使分割后的音頻片段具有段間距離大且段內(nèi)方差?。ɑ蚨伍g獨立而段內(nèi)穩(wěn)定)的特點。本文采用了一種分層分割算法以期達到兼顧運算速度和分割精度的要求。第一層,利用能量對音頻進行有聲、無聲音頻段分割;第二層,利用改進的度量距離對有聲段進行分割,從而將任意長度的連續(xù)音頻流準確而有效地分割為音頻特征數(shù)值波動較小的短時段落,即音頻段基元。
1.1基于能量的音頻分割
音頻流經(jīng)過預處理后,提取各幀的短時能量作為音頻的基本特征,利用短時能量能有效對音頻流進行有聲、無聲的分割。具體做法是:首先對音頻進行分幀,計算每一幀的能量,而后通過計算連續(xù)若干幀能量之和,并與門限值進行比較,從而判斷是否為有聲和靜音的分割點。設Emax、Emin、Emean分別表示音頻流短時幀能量的最大值、最小值和均值;用Eoff表示能量的浮動范圍,最終能量門限應該處于Emin和Emin+Eoff之間,選擇合適的靜音因子β(0≤β≤1),計算能量門限E[3]th:
β的取值由實驗確定,實驗結(jié)果顯示β取 0.1 時分割效果最好。當超過連續(xù)10幀的音頻短時幀能量小于能量門限則認為該音頻片段為靜音段,否則為有聲段。
1.2基于改進度量距離的音頻分割
對有聲段進行進一步的分割,目標是將其分割成為段間差異大、段內(nèi)差異小的短時段落,以利于后續(xù)基于音頻內(nèi)容的索引建立。本文采用基于度量距離的分割算法?;籼亓纸y(tǒng)計量[3](簡記為T2),常用于度量兩個具有未知但相同方差的正態(tài)分布均值是否相等的問題,其計算公式如下:
其中N為分析窗口的總長度,b為左側(cè)數(shù)據(jù)窗的長度,均以幀數(shù)為單位。μ1和μ2是左右兩個數(shù)據(jù)窗口的特征向量均值,∑為整個分析窗的協(xié)方差矩陣。T2值越小,表示左右兩段音頻越相似,反之,兩段音頻差異越大。式(2)主要反映了音頻段間均值的差異,沒有很好地反映段內(nèi)方差的情況,所以本文提出一種綜合考慮音頻段間均值和段內(nèi)方差的距離測度,簡記為DIS:
式(3)分子表示左右兩段音頻特征均值的差異,分母反映左右兩段音頻各自方差的平均值,當兩段音頻段間距離大、段內(nèi)方差小時DIS可獲較大值。。
特征參數(shù)選用了24維Mel頻率倒譜系數(shù),使用固定窗長的分窗方法計算相鄰音頻的度量距離,考慮到計算量,將左右兩邊的數(shù)據(jù)窗長取為等長,這樣處理之后的距離測度公式簡化為:
依次逐幀滑動,取出所得距離值曲線上的局部極大值點,并利用閾值判斷其是否為分割點。具體做法是:當DIS極大值點的值超過預設門限T-DIS時,判斷為分割點,否則暫時舍去;接著計算當前分割點和前一分割點之間音頻特征的方差,若小于預設門限TVAR則確認該分割點,并繼續(xù)下一分割點判斷,否則取當前分割點和前一分割點之間的中間點為新的分割點,確保段落內(nèi)方差滿足條件為止。用該方式繼續(xù)搜尋下一分割點,直至數(shù)據(jù)段的結(jié)束。
經(jīng)過上述兩層分割,可以將任意長度的音頻流準確而有效地分割為音頻特征數(shù)值波動幅度較小的短時段落。由于第1層采用能量極小值點進行分割,第2 階段才依賴均值和方差的統(tǒng)計,因此,當音頻數(shù)據(jù)起點略有偏移時,最終分割偏差累積主要存在于音頻的起始和結(jié)尾部分,而對音頻中間主體部分的分割影響較小,因此該分割方法具有起點魯棒性。
2音頻標注
音頻標注這里指給出一段音頻的特征編碼。本文音頻標注工作是為音頻檢索做準備,主要進行了基于BP神經(jīng)網(wǎng)絡的音頻類別標注和基于音頻指紋的音頻內(nèi)容標注。對音頻文件進行分段,以段而不是以音頻文件為單位建立索引,能有效地提高它們之間的區(qū)分度。本文音頻類別標注實驗中段長取為1 min,即將所有音頻文件都按1 min分成等時長的段,然后針對每段進行音頻標注。
2.1基于BP神經(jīng)網(wǎng)絡的音頻類別標注
音頻類別識別指通過對音頻信號進行分析,確定音頻的具體類別屬性(如人聲、樂器聲、自然聲還是噪聲等)。本文針對電臺廣播節(jié)目搜索問題,音頻類別暫時分為:男聲、女聲、樂聲、歌聲、球賽聲等。
音頻類別識別的算法有很多,如矢量量化(VQ)、隱馬爾科夫模型(HMM)、高斯混合模型(GMM)等[5]。本文采用BP(Back Propagation)神經(jīng)網(wǎng)絡[78]實現(xiàn)音頻類別的識別。
BP網(wǎng)絡是目前應用最廣泛的神經(jīng)網(wǎng)絡模型之一。它是一種多層前饋網(wǎng)絡,學習規(guī)則使用最速下降法,通過反向傳播算法調(diào)整網(wǎng)絡的權值和閾值。BP神經(jīng)網(wǎng)絡模型分為兩個階段:一是模型訓練階段,將大量已做標注的音頻信號作為訓練樣本訓練網(wǎng)絡,首先進行音頻預處理提取訓練樣本的特征參數(shù),每幀音頻提取24維MFCC參數(shù),然后將這些特征參數(shù)作為輸入送入神經(jīng)網(wǎng)絡,同時給出期望輸出,通過BP算法對神經(jīng)網(wǎng)絡進行訓練,最終學習得到網(wǎng)絡的一組連接權值和閾值;二是模型識別階段,將待識別音頻信號進行同樣的預處理和特征參數(shù)提取,輸入到訓練好的網(wǎng)絡中,利用訓練好的連接權值和閾值計算網(wǎng)絡輸出,并與預先設置的閾值比較以確定音頻類別。對段長為1 min的音頻進行標注時,只需統(tǒng)計各類音頻出現(xiàn)幀數(shù),記錄幀數(shù)超過預設閾值的音頻類別編號即完成此1 min的音頻標注。
2.2基于Philips音頻指紋的音頻標注
為了進行基于內(nèi)容的音頻檢索,本文還進行了基于音頻指紋[9]的音頻標注。
音頻指紋作為內(nèi)容自動識別技術的核心算法,已廣泛應用于音樂識別、版權內(nèi)容監(jiān)播、內(nèi)容庫去重等領域。本文采用Philips魯棒音頻指紋模型[10]。對段長為1 min的音頻進行標注時,進行了如下改進以壓縮數(shù)據(jù)和提高抗干擾性。首先每個音頻指紋不是針對音頻幀,而是針對分割好的音頻段基元進行的,因此可以用特征均值代替音頻片段以減少數(shù)據(jù)冗余。將每個段基元所有幀的子帶能量譜進行平均,然后提取音頻指紋。假定第n幀的第m子帶的能量為E(n,m),其對應的二進制指紋比特為F(n,m),為提高音頻指紋的抗噪能力,則音頻指紋的每個比特定義可改進為:
F(n,m)=
1ifE(n,m-1)-E(n,m)-(E(n,m)-E(n,m+1))>T
0ifE(n,m-1)-E(n,m)-(E(n,m)-E(n,m+1))≤T (5)
式(5)中門限T的取值以各段基元子帶能量均值為基準,并乘以一定比例系數(shù)動態(tài)選取。對段長為1 min的音頻進行標注時,記錄出現(xiàn)的段基元音頻指紋即可。
3實驗分析
本文實驗所用數(shù)據(jù)采集于廣播電臺,包括新聞、音樂、廣播劇、廣告等,數(shù)據(jù)總時為20 h,均為單聲道,采樣率為 8 kHz。在數(shù)據(jù)預處理過程時將音頻均做幅度歸一化處理;在提取聲學特征參數(shù)時,幀長為 0.064 s,幀移為0.032 s。
3.1音頻分割實驗
采用兩層音頻分割進行音頻分割,經(jīng)過實驗,選取β=0.1時有最好的分割效果;在第二層的分割實驗中, TDIS取DIS的均值,TVAR=0.01,N=6時有最好的分割效果。實驗結(jié)果如圖1、2所示。
從圖1可以看出,音頻有聲段和無聲段被有效分割開。在圖2中,有聲段被進一步分割成聲學特征變化小的短時段落。
根據(jù)實際音頻庫的數(shù)據(jù)來源不同,對可能出現(xiàn)的音頻幅度和信噪比的變化等也進行了相關實驗和分析。因為在音頻預處理中對音頻進行了幅度歸一化處理,所以在此不考察信號幅度變化對音頻分割的影響,僅僅考察信噪比的影響。設x(t)為原始音頻,y(t)為信噪比改變后的音頻。對x(t)和y(t)分別進行分割,并以x(t)的分割點為基準,統(tǒng)計y(t)分割的準確率:
P=NXYNX×100%(6)
NX表示x(t)分割點的總數(shù),NXY表示x(t)和y(t)分割點一致的數(shù)目(兩個分割點相距1幀,也認為一致)。從數(shù)據(jù)庫中隨機選取了10 min長的音頻,分別疊加不同信噪比的高斯白噪聲生成帶噪音頻數(shù)據(jù),統(tǒng)計了不同信噪比下帶噪音頻與無噪音頻的分割準確率,實驗結(jié)果如表1所示。
實驗結(jié)果顯示,信噪比降低對音頻分割準確率有一定影響,但總體看該分割算法具有一定的抗噪性。
3.2音頻標注實驗
3.2.1音頻類別標注
BP神經(jīng)網(wǎng)絡設置為3層,其中輸入層節(jié)點24個,對應24維MFCC參數(shù);輸出節(jié)點10個,對應10個不同音頻類型并分別用數(shù)字依次標記;隱層節(jié)點設置為25個。本實驗訓練時參數(shù)設置為:反向傳播算法最大循環(huán)次數(shù)為3 000,學習系數(shù)為0.000 1,誤差閾值為0.000 01。模型識別實驗結(jié)果如表2所示。
表2是BP網(wǎng)絡訓練10類音頻的預測正確率,統(tǒng)計實驗結(jié)果顯示網(wǎng)絡的平均識別正確率達97%。音頻類別標注實驗中,每1 min音頻數(shù)據(jù)送入訓練好的神經(jīng)網(wǎng)絡,在輸出端通過預測門限給出每幀的音頻類別編號,然后統(tǒng)計該段各編號出現(xiàn)次數(shù)并統(tǒng)計為直方圖。將大于200幀的編號都記錄下來,以此作為該段進行標注有效的音頻類別。圖3是在眾多切分成1 min的音頻片段中某一片段的統(tǒng)計直方圖。
從圖3可以看出,該時間段標記為1、3、7、9四類,表示這1 min的音頻片段里有此四類有效音頻。
3.2.2音頻指紋標注
音頻指紋標注同樣針對1 min音頻段進行。將該段音頻中大于3幀的段基元各幀子帶能量譜進行平均,然后提取音頻指紋,記錄該段音頻中出現(xiàn)過的所有音頻指紋。圖4為某1 min音頻段共270個段基元生成的指紋圖。不難發(fā)現(xiàn),以段基元產(chǎn)生的指紋比按幀產(chǎn)生的指紋數(shù)據(jù)量大大減少,這樣使后續(xù)建立音頻索引表進行音頻檢索更簡潔、高效。
4結(jié)束語
本文以建立音頻檢索的索引表為目標,研究了音頻分割與標注問題?;谀芰亢投攘烤嚯x將音頻流分割成有聲段和無聲段,有聲段進一步分割成一系列段間差異大,而段內(nèi)差異小的段基元。然后將音頻流以段長1 min為單位標注,完成了基于BP神經(jīng)網(wǎng)絡的音頻類別標注和基于音頻指紋的音頻內(nèi)容標注。仿真實驗表明,文中音頻分割和標注算法是有效的,而且具有一定的魯棒性。這為后續(xù)建立合適的音頻索引打下了良好基礎,下一步將深入研究基于內(nèi)容的音頻檢索。
參考文獻
?。?] 劉巍.基于內(nèi)容的同源音頻和視頻檢索[D].北京:北京郵電大學, 2011.
?。?] 張衛(wèi)強,劉加.網(wǎng)絡音頻數(shù)據(jù)庫檢索技術[J].通信學報, 2007,28(12):152-155.
?。?] 張雪源,賀前華,李艷雄,等.一種基于倒排索引的音頻檢索方法[J].電子與信息學報,2012,34(11):2561-2567.
[4] 吳宇,錢旭,周劍鳴.基于相對熵和貝葉斯信息判據(jù)的在線分割算法[J].電聲技術,2013,37(3):49-53.
[5] 王歡.語音發(fā)現(xiàn)與跟蹤技術的研究及應用[D].北京:北京郵電大學,2014.
?。?] 張衛(wèi)清.語音識別算法的研究[D].南京:南京理工大學,2004.
?。?] 陳仁林,郭中華,朱兆偉.基于BP神經(jīng)網(wǎng)絡的說話人識別技術的實現(xiàn)[J].智能計算機與應用,2012,2(2):47-49.
[8] 楊景花,王雙喜,周思方,等.基于神經(jīng)網(wǎng)絡的智能語音識別研究[J].微型機與應用,2016,35(17):52-54.
[9] 周亦敏,牟同鑫.采用復倒譜和子串匹配的音頻指紋算法研究[J].上海理工大學學報,2010,32(3):277-280.
?。?0] 魯明明,張暉,沈慶宏. 基于功率譜特征的音頻指紋實現(xiàn)[J].電子測量技術,2016,39(9):69-72.