123,123,123

正交约束型SincNet可微分前端及在音频分类中的应用

网络安全与数据治理 2期

刘伟，孙蒙，张玥，张雄伟

(中国人民解放军陆军工程大学，江苏南京210007)

摘要： 在音频场景分类任务中，现有端到端模型中特征建模层学习过程存在缺乏约束、学习结果缺乏直观解释以及仅适用于特定的后端分类模型等缺点。因此，以SincNet可微分前端为基础，引入正交约束提高其求解效率，同时提高所得可微分前端的可解释性，并使其能提高多种后端网络的分类性能。提出的这种新型可微分前端命名为正交约束型SincNet(OrthSincNet)。研究发现，OrthSincNet卷积核对应的频谱既具有类似于梅尔滤波器的形态，又可提高分类效果。在UrbanSound8K官方评测数据集上的实验表明，相对于常用的梅尔频谱前端，OrthSincNet改进了6种后端分类网络的性能，分类准确率平均提高了2.2%。

關(guān)鍵詞： 可微分前端正交卷积 SincNet 端到端分类网络

中圖分類(lèi)號(hào)： TP391
文獻(xiàn)標(biāo)識(shí)碼： A
DOI： 10.20044/j.csdg.2097-1788.2022.02.015
引用格式：劉偉，孫蒙，張玥，等. 正交約束型SincNet可微分前端及在音頻分類(lèi)中的應(yīng)用[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理，2022，41(2)：92-98.

Differentiable front-end of SincNet with orthogonal constrains and its application in audio classification

Liu Wei，Sun Meng，Zhang Yue，Zhang Xiongwei

(Army Engineering University of PLA，Nanjing 210007，China)

Abstract： In the audio scene classification task, the feature modeling layer learning process in the existing end-to-end models has shortcomings such as lack of constraints, lack of intuitive interpretation of learning results, and only applicable to specific back-end classification models. Based on the differentiable front-end of SincNet, this paper introduces orthogonal constraints to improve the performance of the solution of the overall network, tries to promote the interpretability of the learnt front-end, and adapts it to multiple back-end classifiers. The proposed new front-end is called Orthogonal SincNet(OrthSincNet). Therefore, the convolution kernels of OrthSincNet is expected to not only hold good properties on frequency responses like Mel filters but also to be able to tune the parameters adaptively for specific back-end classifiers. Experimental results on the official test set of UrbanSound8K showed that OrthSincNet improved the conventional Mel filter banks by 2.2% in average on 6 back-end classifiers.

Key words : differentiable front-end; orthogonal convolutions; SincNet; end-to-end classification network

0 引言

音頻分類(lèi)是計(jì)算機(jī)自動(dòng)實(shí)施聽(tīng)覺(jué)感知和理解的重要步驟，也是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)，如自動(dòng)音樂(lè)標(biāo)記、音樂(lè)類(lèi)型分類(lèi)、說(shuō)話人識(shí)別、音頻場(chǎng)景分類(lèi)和多媒體檢索等。深度神經(jīng)網(wǎng)絡(luò)的發(fā)展使得音頻分類(lèi)任務(wù)的準(zhǔn)確率取得了顯著提升。當(dāng)前，深度神經(jīng)網(wǎng)絡(luò)一般是建立在對(duì)輸入音頻提取時(shí)頻特征等預(yù)處理的基礎(chǔ)上，如首先通過(guò)廣泛使用的梅爾濾波器組提取時(shí)頻譜圖特征，然后將時(shí)頻譜圖特征輸入到各種后端分類(lèi)網(wǎng)絡(luò)。

特征提取的預(yù)處理過(guò)程通常采用固定的時(shí)頻參數(shù)和濾波器類(lèi)型，難以保證對(duì)所有的后端分類(lèi)網(wǎng)絡(luò)結(jié)構(gòu)持續(xù)提取出最優(yōu)特征。此外，這些預(yù)處理過(guò)程一般需要線下完成，不能無(wú)縫對(duì)接到神經(jīng)網(wǎng)絡(luò)分類(lèi)器中，因此難以適用于一些需要對(duì)聲音波形進(jìn)行反向求導(dǎo)的任務(wù)，如求解對(duì)抗樣本[1]等。這些局限性推動(dòng)了研究者們尋求構(gòu)建端到端模型來(lái)完成音頻分類(lèi)任務(wù)。所謂端到端的分類(lèi)網(wǎng)絡(luò)結(jié)構(gòu)是指直接輸入聲音波形，然后輸出類(lèi)別標(biāo)簽，而無(wú)須用戶(hù)通過(guò)額外的特征提取工具來(lái)提取特征。例如，Dai等提出了具有不同網(wǎng)絡(luò)結(jié)構(gòu)和不同數(shù)量參數(shù)的端到端卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network，CNN)用于音頻分類(lèi)[2]。Tokozume等提出了一種含有8層網(wǎng)絡(luò)并以原始波形為輸入的端到端網(wǎng)絡(luò)結(jié)構(gòu)，通過(guò)調(diào)節(jié)超參數(shù)并選擇適當(dāng)大小的卷積核來(lái)提高分類(lèi)性能[3]。此外，還有端到端的CNN架構(gòu)AclNet[4]，受到MobileNet[5]的啟發(fā)，其計(jì)算僅需155k參數(shù)和每秒4 930萬(wàn)次乘法加法即可高效完成分類(lèi)任務(wù)。

本文詳細(xì)內(nèi)容請(qǐng)下載：http://ihrv.cn/resource/share/2000004865

作者信息：

劉偉，孫蒙，張玥，張雄偉

(中國(guó)人民解放軍陸軍工程大學(xué)，江蘇南京210007)

微信圖片_20210517164139.jpg

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容