文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.212404
中文引用格式: 張家揚(yáng),童峰,陳東升,等. 面向多說話人分離的深度學(xué)習(xí)麥克風(fēng)陣列語音增強(qiáng)[J].電子技術(shù)應(yīng)用,2022,48(5):31-36.
英文引用格式: Zhang Jiayang,Tong Feng,Chen Dongsheng,et al. Deep learning microphone array speech enhancement for multiple speaker separation[J]. Application of Electronic Technique,2022,48(5):31-36.
0 引言
隨著人與機(jī)器之間的語言交互逐漸頻繁,更需要考慮噪聲、混響和其他說話人的干擾等引起語音信號質(zhì)量下降的因素對語音識別造成的影響,語音增強(qiáng)技術(shù)[1]可以有效地從受干擾的信號中提取純凈的語音,而麥克風(fēng)陣列比起單個麥克風(fēng)可以獲取更多的語音信息和時空特征,因而麥克風(fēng)陣列語音增強(qiáng)技術(shù)被廣泛應(yīng)用在智能家居、車載系統(tǒng)和音(視)頻會議等領(lǐng)域。
麥克風(fēng)陣列對信號進(jìn)行空間濾波,可以增強(qiáng)期望方向上的信號并抑制方向性噪聲,實現(xiàn)語音增強(qiáng)。傳統(tǒng)麥陣語音增強(qiáng)算法;如形成固定波束的濾波累加波束形成算法(Filter-and-Sum Beamforming,F(xiàn)SB)[2],通過一定長度的濾波器系數(shù)對多通道信號進(jìn)行濾波累加,實現(xiàn)了頻率無關(guān)的空間響應(yīng)特性,具有低復(fù)雜度、硬件容易實現(xiàn)等優(yōu)點(diǎn),但是對于具有方向性的噪聲效果不佳。
本文詳細(xì)內(nèi)容請下載:http://ihrv.cn/resource/share/2000004272。
作者信息:
張家揚(yáng)1,2,童 峰1,2,3,陳東升1,2,3,黃惠祥1,2
(1.廈門大學(xué) 水聲通信與海洋信息技術(shù)教育部重點(diǎn)實驗室,福建 廈門361005;
2.廈門大學(xué) 海洋與地球?qū)W院,福建 廈門361005;3.廈門大學(xué)深圳研究院,廣東 深圳518000)