123,123

基于语音起始段检测语音可懂度客观评价方法

2015年电子技术应用第6期

徐宇卓1，马建芬1，张雪英2

1.太原理工大学计算机科学与技术学院，山西太原030024； 2.太原理工大学信息工程学院，山西太原030024

摘要： 传统的语音评价算法，如SNR，存在语音的可懂度相关性不高的问题。有研究表明，语音的不同部分对可懂度的贡献不同，语音的浊音起始段对可懂度的影响较大。提出一种可懂度相关性相对较高的语音评价算法。在计算分段SNR之前，对语音段进行选择，选出起始段。所提出方法的可懂度计算结果与主观得分进行比较，实验结果表明，结合语音起始段(speech onset)检测算法，能够将可懂度与主观评价的相关值分别提高0.11（辅音）和0.06（句子），这也从一个侧面验证了语音的起始段对可懂度有较大影响这一研究结论。

關鍵詞： 语音可懂度分段信噪比语音起始段检测相关系数

中圖分類號： TP391
文獻標識碼： A
文章編號： 0258-7998(2015)06-0147-03

Automatic locate algorithm for the defects of industrial CT based on block fractal

Chen Peixing1，2，Wang Mingquan1，2，Li Shihu1，2，Hou Huilin1，2，Wang Yu1，2

1.Key Laboratory of Instrumentation Science & Dynamic Measurement，North University of China，Taiyuan 030051，China； 2.School of Information and Communication Engineering，North University of China，Taiyuan 030051，China

Abstract： For traditional defect location must through steps such as image segmentation and defect extraction, identification process is cumbersome and time-consuming, so this paper proposes a automatic detection algorithm for the defects of industrial CT based on block fractal. To begin with, the method deal with the image into blocks and fractal dimension is calculated on each sub-block area. Then, it sets a threshold according to the frequency distribution histogram of fractal dimensions, and marks the edge of the block. Finally, by dealing with the connected region of marked blocks, it is able to locate and mark defects. Through the processing of solid rocket motor model industrial CT images which contain a different number defects, it can accurately locate defects. The experiments indicate that this method is effective and accurate on automatic locate defects of industrial CT image, and has a strong robustness.

Key words : defect location；fractal；industrial CT；block；region connection

0 引言

人們提出了大量的評價方法來預測在背景噪聲存在條件下的語音可懂度。在這些方法中，SII（Speech Intelligence Index）是現(xiàn)今最廣泛使用的語音可懂度指數(shù)的方法。SII的評價是基于語音的可懂度取決于譜信息比例的思想，譜信息比例是可被聽者聽到的并通過頻譜分割成20個頻帶（同樣適用于可懂度），并估計每個頻帶的信號噪聲比（SNR）加權平均值。每一個頻帶中的信噪比由頻帶重要性函數(shù)加權，該函數(shù)根據(jù)語料的不同而不同^[1]。SII方法能夠成功預測出線性濾波和加性噪聲對語音可懂度的影響^[2，3]。然而，還是有許多局限的。其中一個局限是，SII不能應用于語音嵌入在波動掩蔽的情況下。一些人已經(jīng)試圖拓展SII方法來評估在波動掩蔽條件下的語音可懂度。例如，Rhebergen提出將語音和掩蔽信號分割成短幀（9～20 ms），估計每一幀中的瞬時AI（Articulation Index）值以及平均所有幀計算后的AI值來產(chǎn)生單一的AI矩陣。拓展后的短期AI方法被認為在估計嵌入在人工掩蔽信號（比如周期干擾噪聲）和類語音掩蔽信號中的句子時能夠比傳統(tǒng)的AI方法更好地預測語音可懂度，但是，后者在預測方面是不夠準確的^[4]。

MA J、HU Y和LOIZOU P C等學者提出用清晰語音作為權值來代替SII算法中的ANSI經(jīng)驗權值，可懂度有所提高^[5]。所有這些改進都是針對于頻域進行的，并沒有考慮在時域對信號進行選擇。然而不同的語音段對可懂度的貢獻有所不同，如濁音段比清音段或無聲段對可懂度的影響要大，這一點也和平時的經(jīng)驗相一致。比如在聽一句話時，有時雖然不能完全聽清晰所有的詞，但只要能聽清楚關鍵的詞，就能通過聯(lián)想猜出整個句子的含義。而如果沒有聽清楚關鍵詞，即使其他部分能夠聽清楚，也無法猜出整個句子的含義。研究表明濁音段，尤其是音節(jié)的起始部分對可懂度的影響最大^[6]，根據(jù)這一思想，本研究提出在時域選取語音的起始段，然后再對選出的語音段進行SII分析。

1 實驗方法及數(shù)據(jù)

可懂度評價算法使用的是HU Y和LOIZOU P C通過8種不同的噪聲抑制算法處理的語音信號^[7]，下面簡要介紹這些語料及增強處理算法。

1.1 語料和主觀評價

IEEE的句子和輔音在/aCa/格式中被用于測試材料。輔音測試包含16個記錄在/aCa/目錄中的輔音，其中C=/p，t，k，b，d，g，m，n，dh，l，f，v，s，z，sh，dj/。女性講話者產(chǎn)生的全部輔音和男性講話者產(chǎn)生的所有句子，句子和輔音原始采樣為25 kHz，下采樣到8 kHz。從LOIZOU P C的書中可以得到這些記錄。掩蔽被人工加到了語音材料中。掩蔽信號來自于AURORA數(shù)據(jù)庫^[8]，并且包括了不同地方的真實錄音：餐廳、汽車、街道和火車。掩蔽是添加在信噪比是0和5 dB的語音信號中的。

1.2 去噪算法

8種不同的去噪算法用來處理受到噪聲干擾的句子，其中包括：廣義子空間的算法、以感知為基礎的子空間算法、最小均方誤差對數(shù)算法、關于語音存在的不確定性的最小均方誤差對數(shù)算法、基于降低延遲卷積譜減法算法、多頻帶譜減法、基于小波閾值多窗口譜的維納濾波算法以及傳統(tǒng)的維納濾波算法。除了關于語音存在的不確定性的最小均方誤差對數(shù)算法，其他所有的算法都是基于自身的實現(xiàn)。這些算法實現(xiàn)所使用的參數(shù)與公布的是相同的。當前測試研究的所有噪聲算法的MATLAB實現(xiàn)也由LOIZOU P C完成了。

1.3 實驗流程

總共有40個當?shù)氐拿勒Z講話者被招募用于句子可懂度的測試，這40個聽者被分成4個小組（每個噪聲型為一組），每個小組有10名聽者。每位受試者共參加了19項聽力條件（=2個信噪比等級×8個算法+2個帶噪?yún)⒖?1個安靜）。2個IEEE的句子列表（每個列表有10個句子）被用于每一個條件中。句子列表都是不重復的。另有10名聽者加入輔音識別任務。被試者按照隨機順序每個輔音重復6次。處理后的語音文件（句子/輔音）以及清晰和帶噪語音文件以單耳的形式呈現(xiàn)給聽者。

HU Y和LOIZOU P C研究的可懂度產(chǎn)生了總共72種帶噪環(huán)境，其中包括噪聲干擾（未處理）環(huán)境^[9]。這72種環(huán)境包括了8種不同噪聲抑制算法在2種信噪比等級（0和5 dB）在4種類型的真實環(huán)境（餐廳、汽車、街道和火車）中引起的失真。在這72種條件下得到的可懂度得分在當前的研究中被用于評估大量之前的和新提出的客觀評價的可預測功率。

2 語音起始段檢測方法

語音信號隨時間變化的頻譜特性可以用語譜圖直觀地表示。語譜圖的縱軸對應于頻率，橫軸對應于時間，而圖像的黑白度對應于信號的能量。所以，聲道的諧振頻率在圖上就表示成為黑帶，濁音部分則以出現(xiàn)條紋圖形為其特征，這是因為此時的時域波形有周期性，而在濁音的時間間隔內(nèi)圖形顯得很致密^[10]。圖1為“A gold ring will please most any girl”語音的語譜圖。

如果有必要，語音信號首先要重新采樣。重新采樣出來的信號要經(jīng)過一個等響度濾波的處理，之后要使用一個二階的butterworth濾波器[6]的信道進行濾波得出信道信號。

圖2中上圖是包絡圖，下圖是起始段速率圖。包絡圖中的包絡是通過對信道信號的全波整流得到的。起始段速率是用來計算全頻帶信道的，而它是由包絡速率的半波整流得到的，其中，包絡速率是計算包絡的第一次差值。圖2中是測試語音的一部分，上圖表現(xiàn)的是語音句子的一部分（A gold ring）包絡，下圖給出的是對應的起始段。豎線是人工標記出來的音節(jié)邊界。

每一個起始段都有3個重要的位置，即起始段開始(onset start)、起始段峰(onset peak)、起始段結束(onset end)，如圖2(b)所示。起始段開始被定義為起始段速率首次大于0時的采樣指數(shù)，它對應著原包絡從谷值到開始的轉折點，并被認為是候選音節(jié)邊界位置。相反，起始段結束定義為起始段速率最終跌回到0的采樣指數(shù)，它對應于原包絡的峰值且是一個候選音節(jié)核位置。最后，起始段峰是起始段速率達到其最大值的采樣指數(shù)。

3 基于語音起始段檢測語音可懂度客觀評價算法

時域分段信噪比（SNRseg）算法^[11]在Hansen和Pellom的文章中提到，且計算公式如下：

４實驗結果

有兩個數(shù)被應用于在預測語音可懂度中估計上述客觀評價的表現(xiàn)^[9]。第一個數(shù)是Pearson相關系數(shù)r，第二個是誤差的標準差估計值，計算公式為其中σ_d是給出的條件的語音識別得分的標準差，σ_e是計算誤差的標準差。較小的σ_e值表明客觀評價在預測語音可懂度方面是較好的。

對正常聽力的試聽者在72種不同噪聲環(huán)境下得到的平均可懂度得分進行相關分析，這些分析是客觀評價得到的相關平均值。包括噪聲抑制語音的這些條件最初受到了4種不同的掩蔽信號（餐廳、汽車、街道和火車）的干擾。計算的相關系數(shù)（預測誤差）位于表1中。

從表1中能夠看出，對于分段信噪比（SNRseg）^[11]，輔音和句子的Pearson系數(shù)分別為0.40和0.46；而對于使用了語音起始段檢測方法的分段信噪比(SNRseg_onset)，輔音和句子的Pearson系數(shù)分別為0.51和0.52。接下來對于4種的不同掩蔽來觀察其相關系數(shù)，位于表2中。

表2給出的分別是分段信噪比（SNRseg）和語音起始段檢測分段信噪比（SNRseg_onset）的4種不同掩蔽信號(餐廳、汽車、街道和火車)的相關系數(shù)。從表2中能夠看出，對于輔音aCa，語音起始段分段信噪比算法(SNRseg_onset)相對于分段信噪比算法(SNRseg)的Pearson相關系數(shù)都有所提高。而對于句子Sen，大體都是所提高的，只有在火車噪聲掩蔽下，相關系數(shù)是有所下降的?？偟膩碚f，由表1和表2中可以觀察到，語音起始段檢測分段信噪比算法(SNRseg_onset)的相關系數(shù)確實是提高了很多的。這就說明語音起始段檢測方法用于SNR評價算法是有較好的表現(xiàn)的，也充分說明語音起始段(speech onset)對于SNR評價算法確實是有正面的影響的。

5 結論

當前的研究是在真實噪聲條件下評價就預測語音可懂度而言傳統(tǒng)的客觀評價算法(SNRseg)和新的客觀評價算法(SNRseg_onset)的表現(xiàn)。這些客觀評價算法在總共72個噪聲條件下進行測試，這些噪聲條件包括在真實世界的噪聲類型（汽車、餐廳、火車和街道噪聲）干擾下的處理過的句子和無意義的音節(jié)。傳統(tǒng)的SNR評價算法的表現(xiàn)是不夠好的(輔音r=0.40，句子r=0.46)，而當結合了本文提出的語音起始段檢測算法的SNR，即SNRseg_onset評價算法，其在預測語音可懂度方面有較好的表現(xiàn)(輔音r=0.51，句子r=0.52)。同時也說明語音起始段(speech onset)對于SNR評價算法確實是有好的影響的，表明結合語音起始段(speech onset)檢測算法能夠提高客觀評價算法的性能。

參考文獻

[1] HALL S M，ISAACSON J J，BURHANS C G，et al.New editions of ANSI standards for warnings[C].9th Annual IEEE Product Safety Engineering Society′s Symposium on Product Compliance Engineering，ISPCE 2012，Portland，2012：1-4.

[2] LOIZOU P C，Ma Jianfen.Extending the articulation index to account for non-linear distortions introduced by noisesuppression algorithms[J].Journal of the Acoustical Society of America，2011，130(2)：986-995.

[3] KRYTER K D.(1962b).Validation of the articulation index[J].Journal of the Acoustical Society of America，1962(34)：1698-1706.

[4] RHEBERGEN K S，VERSFELD N J.A speech intelligibility index-based approach to predict the speech reception threshold for sentences influctuating noise for normalhearing listeners[J].Journal of the Acoustical Society of America，2005(117)：2181-2192.

[5] MA J，HU Y，LOIZOU P C.Objective measures for pre dicting speech intelligibility in noisy conditions based on new band-importance functions[J].Journal of the Acoustical Society of America，2009，125(5)：3387-3405.

[6] VILLING R，TIMONEY J，WARD T，et al.Automatic blind syllable segmentation for continuous speech[C].Irish Signals and Systems Conference，Belfast，2004.

[7] HU Y，LOIZOU P C.A comparative intelligibility study of single-microphone noise reduction algorithms[J].Journal of the Acoustical Society of America，2007，122(3)：1777-1786.

[8] DO C T，PASTOR D，GOALIC A.A novel framework for noise robust ASR using cochlear implant-like spectrally reduced speech[J].Speech Communication，2012，54(1)：119-133.

[9] HU Y，LOIZOU P C.Evaluation of objective quality measures for speech enhancement[J].IEEE Trans.Audio，Speech，Lang.Process，2008(16)：229-238.

[10] 張雪英.數(shù)字語音處理及MATLAB仿真[M].北京：電子工業(yè)出版社，2010：19.

[11] KOBAYASHI Y，KONDO K.Speech intelligibility estimation using support vector regression and critical band segmental SNR in noisy condition[J].IEEJ Transactions on Electronics，Information and Systems，2013，133(8)：1556-1564.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權禁止轉載。

相關內(nèi)容