文獻標識碼: A
DOI: 10.20044/j.csdg.2097-1788.2022.02.015
引用格式: 劉偉,孫蒙,張玥,等. 正交約束型SincNet可微分前端及在音頻分類中的應用[J].網(wǎng)絡安全與數(shù)據(jù)治理,2022,41(2):92-98.
0 引言
音頻分類是計算機自動實施聽覺感知和理解的重要步驟,也是一項非常具有挑戰(zhàn)性的任務,如自動音樂標記、音樂類型分類、說話人識別、音頻場景分類和多媒體檢索等。深度神經(jīng)網(wǎng)絡的發(fā)展使得音頻分類任務的準確率取得了顯著提升。當前,深度神經(jīng)網(wǎng)絡一般是建立在對輸入音頻提取時頻特征等預處理的基礎上,如首先通過廣泛使用的梅爾濾波器組提取時頻譜圖特征,然后將時頻譜圖特征輸入到各種后端分類網(wǎng)絡。
特征提取的預處理過程通常采用固定的時頻參數(shù)和濾波器類型,難以保證對所有的后端分類網(wǎng)絡結(jié)構(gòu)持續(xù)提取出最優(yōu)特征。此外,這些預處理過程一般需要線下完成,不能無縫對接到神經(jīng)網(wǎng)絡分類器中,因此難以適用于一些需要對聲音波形進行反向求導的任務,如求解對抗樣本[1]等。這些局限性推動了研究者們尋求構(gòu)建端到端模型來完成音頻分類任務。所謂端到端的分類網(wǎng)絡結(jié)構(gòu)是指直接輸入聲音波形,然后輸出類別標簽,而無須用戶通過額外的特征提取工具來提取特征。例如,Dai等提出了具有不同網(wǎng)絡結(jié)構(gòu)和不同數(shù)量參數(shù)的端到端卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)用于音頻分類[2]。Tokozume等提出了一種含有8層網(wǎng)絡并以原始波形為輸入的端到端網(wǎng)絡結(jié)構(gòu),通過調(diào)節(jié)超參數(shù)并選擇適當大小的卷積核來提高分類性能[3]。此外,還有端到端的CNN架構(gòu)AclNet[4],受到MobileNet[5]的啟發(fā),其計算僅需155k參數(shù)和每秒4 930萬次乘法加法即可高效完成分類任務。
本文詳細內(nèi)容請下載:http://ihrv.cn/resource/share/2000004865
作者信息:
劉 偉,孫 蒙,張 玥,張雄偉
(中國人民解放軍陸軍工程大學,江蘇 南京210007)