文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.200327
中文引用格式: 夏鼎,徐文濤. 基于生成對(duì)抗網(wǎng)絡(luò)合成噪聲的語(yǔ)音增強(qiáng)方法研究[J].電子技術(shù)應(yīng)用,2020,46(11):56-59,64.
英文引用格式: Xia Ding,Xu Wentao. Research on speech enhancement method based on generating noise using GAN[J]. Application of Electronic Technique,2020,46(11):56-59,64.
0 引言
在語(yǔ)音信號(hào)處理的過(guò)程中,背景噪聲和環(huán)境干擾嚴(yán)重影響了信號(hào)處理的可靠性,需要通過(guò)語(yǔ)音增強(qiáng)處理方法去除信號(hào)中的噪聲干擾,改善含噪語(yǔ)音的質(zhì)量。因此,語(yǔ)音增強(qiáng)技術(shù)在語(yǔ)音識(shí)別、聽(tīng)力輔助和語(yǔ)音通信等領(lǐng)域中具有非常重要的作用。
傳統(tǒng)的語(yǔ)音增強(qiáng)方法有譜減法[1]、維納濾波[2-3]以及之后出現(xiàn)的基于統(tǒng)計(jì)模型的處理方法[4]等,這些方法都是基于已知噪聲的統(tǒng)計(jì)特性來(lái)進(jìn)行建模,得到噪聲的功率譜信息,對(duì)含噪語(yǔ)音信號(hào)進(jìn)行降噪處理,以估計(jì)純凈語(yǔ)音信號(hào)。這些傳統(tǒng)方法的準(zhǔn)確性嚴(yán)重依賴數(shù)據(jù)特征工程處理方法和數(shù)據(jù)類型,對(duì)于未知的噪聲干擾,其適應(yīng)能力較差[5]。隨著人工智能的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)被應(yīng)用于語(yǔ)音增強(qiáng)領(lǐng)域[6]。利用深層神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí),可以將含噪語(yǔ)音映射為純凈語(yǔ)音,達(dá)到去除噪聲的目的。為了提高深度神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音增強(qiáng)方法的泛化能力,最直接的手段是進(jìn)行數(shù)據(jù)增強(qiáng),包括增加數(shù)據(jù)的多樣性、擴(kuò)大數(shù)據(jù)集等。實(shí)驗(yàn)表明,在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過(guò)程中采用更多種類的噪聲數(shù)據(jù),語(yǔ)音信噪比質(zhì)量可以顯著提高[7-8]。但是,真實(shí)的噪聲數(shù)據(jù)獲取難度較大,成本較高,這限制了網(wǎng)絡(luò)去噪能力的適用性。針對(duì)這一問(wèn)題,本文基于生成對(duì)抗網(wǎng)絡(luò)GAN設(shè)計(jì)了一種訓(xùn)練數(shù)據(jù)集增強(qiáng)方法,通過(guò)生成虛擬噪聲,擴(kuò)充訓(xùn)練集中噪聲數(shù)據(jù)的類型和數(shù)量,提高模型的泛化能力。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000003050
作者信息:
夏 鼎,徐文濤
(南京航空航天大學(xué) 理學(xué)院,江蘇 南京211106)