摘 要: 分析了含有歡快、憤怒、驚奇、悲傷等4種情感語(yǔ)音信號(hào)的時(shí)間構(gòu)造、振幅構(gòu)造、基頻構(gòu)造和共振峰構(gòu)造的特征。通過(guò)與不帶情感的平靜的語(yǔ)音信號(hào)的比較,總結(jié)了不同情感語(yǔ)音信號(hào)情感特征的分布規(guī)律,為情感信號(hào)處理和識(shí)別提供了有實(shí)用價(jià)值的理論數(shù)據(jù)。
關(guān)鍵詞: 情感特征 語(yǔ)音信號(hào) 時(shí)間構(gòu)造 振幅構(gòu)造 基頻構(gòu)造 共振峰構(gòu)造
語(yǔ)言是人類交際的最重要的工具。人類的話語(yǔ)中不僅包含了文字符合信息,而且還包含了人們的感情和情緒等信息。例如,同樣一句話,往往由于說(shuō)話人的情感不同,其意思和給聽者的印象就會(huì)不同,所謂“聽話聽音”就是這個(gè)道理。傳統(tǒng)的信息科學(xué)世界只是處理符號(hào)信息的“無(wú)神經(jīng)”的知識(shí)世界。例如,傳統(tǒng)的語(yǔ)音處理系統(tǒng)僅僅著眼于語(yǔ)音詞匯傳達(dá)的準(zhǔn)確性,而完全忽略了包含在語(yǔ)音信號(hào)中的情感因素。所以它只是反映了信息的一個(gè)方面。與知識(shí)世界相對(duì)應(yīng)且具有同等重要地位的感性科學(xué)世界,也是信息處理的重要組成部分。因此情感信號(hào)特征的人工處理,在信號(hào)處理和人工智能等領(lǐng)域具有重要意義。
從語(yǔ)音信號(hào)提取情感特征,判斷說(shuō)話人的喜怒哀樂,是國(guó)外近幾年剛剛興起的研究課題。由于剛剛起步,這方面的研究成果還很少[5],就目前的研究水平來(lái)看,一般也都只限于通過(guò)分析情感語(yǔ)音信號(hào)的持續(xù)時(shí)間、發(fā)音速度、振幅、基頻、頻譜等變化特點(diǎn),尋找能夠反映情感特征的物理參數(shù)。本文針對(duì)含有歡快、憤怒、驚奇、悲傷等4種情感的語(yǔ)音信號(hào),分析了它們的時(shí)間構(gòu)造、振幅構(gòu)造、基頻構(gòu)造和共振峰構(gòu)造的特征。并且通過(guò)和不帶感情的平靜語(yǔ)音信號(hào)進(jìn)行比較,找出了不同情感信號(hào)特征的分布規(guī)律。作為情感信號(hào)處理的初步研究,為漢語(yǔ)情感語(yǔ)音信號(hào)處理和情感識(shí)別提供了有實(shí)用價(jià)值的理論數(shù)據(jù)。
1 情感分析用語(yǔ)音資料的選擇
適當(dāng)選擇用于情感分析的語(yǔ)音信號(hào)具有重要意義。然而,國(guó)內(nèi)外現(xiàn)在還沒有提出情感分析用語(yǔ)音資料的條件和標(biāo)準(zhǔn)[4]。在我們的情感分析實(shí)驗(yàn)中,對(duì)實(shí)驗(yàn)用語(yǔ)句的選擇主要考慮了兩個(gè)方面:第一,所選擇的語(yǔ)句必須具有較高的情感自由度;第二,對(duì)同一個(gè)語(yǔ)句應(yīng)該能施加各種情感進(jìn)行分析比較。根據(jù)這兩個(gè)原則,我們選用了如表1所示的4個(gè)語(yǔ)句作為情感分析用語(yǔ)音資料。并邀請(qǐng)了5名善于表演的男性話者用平靜、歡快、憤怒、驚奇、悲傷等5種情感對(duì)每個(gè)句子各發(fā)音3遍,一共搜集了300個(gè)分析用語(yǔ)句。
錄音是在安靜的房間里并且使用索尼DAT設(shè)備完成的。錄音數(shù)據(jù)使用創(chuàng)通公司PCI64位聲卡通過(guò)11025Hz采樣、16bit A/D變換轉(zhuǎn)化成數(shù)字信號(hào)存儲(chǔ)在PC機(jī)中。為了檢驗(yàn)所搜集的實(shí)驗(yàn)用情感語(yǔ)音數(shù)據(jù)的有效性,我們做了一個(gè)聽取實(shí)驗(yàn)。我們要求以上五名發(fā)音者以外的另三名實(shí)驗(yàn)者坐在電腦終端前,然后隨機(jī)播放所搜集到的帶有各種情感的語(yǔ)句,讓實(shí)驗(yàn)者通過(guò)主觀評(píng)價(jià)說(shuō)出所放語(yǔ)音的情感類型。經(jīng)過(guò)反復(fù)聽取比較,對(duì)其中情感特征不明顯的句子進(jìn)行了刪除和重新制作。
2 分析實(shí)驗(yàn)和結(jié)果
一般來(lái)說(shuō),語(yǔ)音中的情感特征往往通過(guò)語(yǔ)音韻律的變化表現(xiàn)出來(lái)[4]。例如,當(dāng)一個(gè)人發(fā)怒的時(shí)候,講話的速率會(huì)變快,音量會(huì)變大,音調(diào)會(huì)變高等,這些都是人們直接可以感覺到的。本文中,我們主要就含有歡快、憤怒、驚奇、悲傷等4種情感的語(yǔ)音信號(hào)的時(shí)間構(gòu)造、振幅構(gòu)造和基頻構(gòu)造等韻律特征和不含感情的平靜語(yǔ)音信號(hào)進(jìn)行比較,找出了不同情感信號(hào)特征的構(gòu)造特點(diǎn)和差別。
為了求出分析所需要的語(yǔ)音信號(hào)韻律特征參數(shù),首先按12kHz的抽樣頻率對(duì)輸入信號(hào)進(jìn)行A/D變換,然后對(duì)抽樣信號(hào)加上窗長(zhǎng)21.33ms(256點(diǎn)),窗移10ms的漢明窗,最后根據(jù)不同的分析需要求出短時(shí)能量,基音頻率等韻律特征參數(shù)。
由于語(yǔ)音信號(hào)中的情感信息受到語(yǔ)句詞匯內(nèi)容的影響,所以為了使分析結(jié)果消除這方面的影響,一般都是通過(guò)分析情感語(yǔ)音和不帶感情的平靜語(yǔ)音的相對(duì)關(guān)系,找出這種相對(duì)特征的構(gòu)造、特點(diǎn)和分布規(guī)律,用來(lái)處理和識(shí)別不同的情感語(yǔ)音信號(hào)。
2.1 時(shí)間構(gòu)造的分析
分析情感語(yǔ)音的時(shí)間構(gòu)造主要著眼于不同情感語(yǔ)音的發(fā)話時(shí)間構(gòu)造的差別,對(duì)由情感引起的持續(xù)時(shí)間等的變化進(jìn)行分析和比較。本文中我們主要就發(fā)話持續(xù)時(shí)間長(zhǎng)度(簡(jiǎn)稱為T)以及平均發(fā)話速率和情感的
關(guān)系進(jìn)行了分析和比較。我們把上述300個(gè)語(yǔ)句按平靜語(yǔ)音和4種感情語(yǔ)音進(jìn)行分類。為了把情感發(fā)音和平靜發(fā)音進(jìn)行比較,我們分析了各類語(yǔ)句情感發(fā)音持續(xù)時(shí)間長(zhǎng)度以及它們各自的發(fā)音速率的平均值和對(duì)應(yīng)的平靜發(fā)音響應(yīng)參數(shù)的比值,找出了情感語(yǔ)音時(shí)間構(gòu)造的特征。分析結(jié)果如圖1所示。
從圖1所示的情感發(fā)音時(shí)間構(gòu)造分析結(jié)果可以看出,在發(fā)話的持續(xù)時(shí)間上,歡快、憤怒、驚奇的發(fā)音長(zhǎng)度和平靜發(fā)音相比壓縮了,而悲傷的發(fā)音長(zhǎng)度卻稍稍伸長(zhǎng)了。在被壓縮的歡快、憤怒、驚奇中、憤怒的發(fā)音最短,其次是驚奇,然后是歡快。從發(fā)話速率和情感的關(guān)系來(lái)看,歡快、憤怒、驚奇和平靜發(fā)音相比變快了,而悲傷卻變慢了。通過(guò)進(jìn)一步的觀察可知,這些現(xiàn)象的產(chǎn)生是由于與平靜語(yǔ)音相比,在情感語(yǔ)音中,一些音素被模糊地發(fā)音、拖長(zhǎng)或省略掉了的緣故。
根據(jù)上述分析結(jié)果,我們可以利用情感語(yǔ)音的時(shí)間構(gòu)造很容易地區(qū)分悲傷和其它情感信號(hào)。也可以通過(guò)設(shè)定某些時(shí)間特征閥值,來(lái)區(qū)分歡快、憤怒、驚奇的情感信號(hào)。至于憤怒和驚奇情感信號(hào),顯然光利用時(shí)間構(gòu)造特征不足以進(jìn)行有效的區(qū)分。
2.2 振幅構(gòu)造的分析
一般來(lái)講,信號(hào)的振幅特征與各種情感信息具有較強(qiáng)的相關(guān)性[5]。在我們的實(shí)際活動(dòng)中也會(huì)有這樣的感覺,就是當(dāng)人們憤怒或者驚奇的時(shí)候,發(fā)音的音量往往變大,而當(dāng)人們沮喪或悲傷的時(shí)候,往往講話的聲音很低。因此,在一些有關(guān)情感分析的研究中,振幅構(gòu)造特性都是作為重要特征加以分析研究的。在本文中,我們主要針對(duì)振幅平均能量以及動(dòng)態(tài)范圍(分別簡(jiǎn)稱為A和Arange)等特征量進(jìn)行分析比較。我們求取語(yǔ)音信號(hào)每一幀的短時(shí)能量,分析它們隨時(shí)間的變化情況。而且為了避免發(fā)音中無(wú)聲部和噪音的影響,我們只考慮短時(shí)能量超過(guò)某一閾值時(shí)的振幅絕對(duì)值的平均值。分析結(jié)果如圖2所示。其中圖2(a)是話者B發(fā)語(yǔ)句1時(shí)的振幅能量的逐幀演示,圖2(b)是各情感類型振幅能量相對(duì)值的直方圖。
從分析結(jié)果可知,歡快、憤怒、驚奇三種情感發(fā)音信號(hào)和平靜發(fā)音信號(hào)相比振幅將變大;相反地,悲傷和平靜相比,振幅將減小。而且從聽取實(shí)驗(yàn)可知,情感信號(hào)具有這樣的傾向:歡快、憤怒、驚奇的平均振幅越大,悲傷的平均振幅越小,其情感效應(yīng)表現(xiàn)的越明顯。利用振幅特征,我們可以很清楚地把歡快、憤怒、驚奇、悲傷區(qū)分開來(lái),另外,振幅特性也具有一定的區(qū)分歡快、憤怒和驚奇情感信號(hào)的能力。
2.3 基頻構(gòu)造的分析
基音頻率也是反映情感信息的重要特征之一[5]。為了分析情感語(yǔ)音信號(hào)基頻構(gòu)造的特征,我們首先求出情感語(yǔ)音信號(hào)平滑的基頻軌跡曲線[1],然后分析不同情感信號(hào)基頻軌跡曲線的變化情況,找出不同的情感信號(hào)各自具有的基頻構(gòu)造特征。
本文分析了不同情感信號(hào)軌跡曲線的動(dòng)態(tài)范圍、整個(gè)曲線的基頻平均值以及變化率(分別簡(jiǎn)稱為F0,F(xiàn)0 range和F0 rate)等特征,這里的基頻變化率是指各幀語(yǔ)音信號(hào)基頻差分的絕對(duì)值的平均值,分析結(jié)果如圖3所示。其中圖3(a)是話者B發(fā)語(yǔ)句2時(shí)的基頻的逐幀演示,圖3(b)是各情感類型基頻參數(shù)相對(duì)值的直方圖。
與平靜語(yǔ)音信號(hào)相比,歡快、憤怒和驚奇的平均基頻、動(dòng)態(tài)范圍、平均變化率比較大,而相反,悲傷語(yǔ)音信號(hào)的則較小。對(duì)比較大的歡快、憤怒、驚奇來(lái)進(jìn),歡快語(yǔ)音信號(hào)的特征量最大,其次是驚奇和憤怒。另外,通過(guò)觀察語(yǔ)音信號(hào)的基頻軌跡曲線,我們發(fā)現(xiàn)了一個(gè)區(qū)分驚奇和其它情感信號(hào)的重要特征,那就是驚奇情感信號(hào)的基頻軌跡曲線在句尾的地方往往有上翹的特征。圖3反映了話者B發(fā)語(yǔ)句2時(shí)的基頻的逐幀演示。
2.4 共振峰構(gòu)造
共振峰是反映聲道特性的一個(gè)重要參數(shù)。因?yàn)椴煌楦械陌l(fā)音可能使聲道有不同的變化,所以,我們能夠預(yù)料到不同情感發(fā)音的共振峰的位置不同。本文首先用線性預(yù)測(cè)法求出預(yù)測(cè)系數(shù),然后用預(yù)測(cè)系數(shù)估計(jì)出聲道的功率譜,再用峰值檢出法(Peak Picking)[1]算出各共振峰的頻率。本文為了簡(jiǎn)單起見,只研究了第一共振峰頻率平均值、動(dòng)態(tài)范圍和變化率(分別簡(jiǎn)稱為F1,F(xiàn)1 range和F1 rate)。分析結(jié)果如圖4所示。其中圖4(a)是話者B發(fā)語(yǔ)句4時(shí)的第一共振峰頻率的逐幀演示;圖4(b)是各情感類型第一共振峰頻率參數(shù)相對(duì)值的直方圖。
從圖4中我們可以看出,相對(duì)于平靜發(fā)音,歡快和憤怒的第一共振峰頻率略微地升高了,而悲傷的第一共振峰頻率明顯地降低。通過(guò)進(jìn)一步的觀察,我們發(fā)現(xiàn),這是因?yàn)槿藗冊(cè)诒磉_(dá)歡快和憤怒時(shí),嘴比平靜發(fā)音時(shí)張得更大的緣故。而在表達(dá)悲傷時(shí),除了嘴張得比平時(shí)更小以外,還伴有模糊不清的鼻音。四種情感的第一共振峰頻率的動(dòng)態(tài)范圍均比平靜時(shí)要大,其中,驚奇最大。而四種情感的第一共振峰頻率的變化率均比平靜時(shí)要小,其中悲傷最小。
以上,我們從時(shí)間構(gòu)造、振幅構(gòu)造和基頻構(gòu)造三個(gè)方面,對(duì)含有歡快、憤怒、悲傷和驚奇四種情感的語(yǔ)音信號(hào)進(jìn)行了分析比較。綜合三方面的分析結(jié)果,我們可以歸納如下的情感信號(hào)的特征(均相對(duì)于平靜發(fā)音而言),結(jié)果如表2所示。
由于存在一定的個(gè)人差,所以對(duì)于不同的話者,以上總結(jié)的分析結(jié)果存在不同程度的差異,但分析結(jié)果的總趨勢(shì)是一致的。作為今后研究的課題,我們將進(jìn)一步分析感情語(yǔ)音同它的頻譜以及共振峰等特征之間的關(guān)系,為今后的情感語(yǔ)音信號(hào)處理尋找最佳的特征參數(shù)。
參考文獻(xiàn)
1 周迪偉等譯.計(jì)算機(jī)語(yǔ)音處理.北京:國(guó)防工業(yè)出版社,1987
2 王學(xué)仁,王松桂編譯.實(shí)用多元統(tǒng)計(jì)分析.上海:上??茖W(xué)技術(shù)出版社,1990
3 唐守正編著.多元統(tǒng)計(jì)分析方法.北京:中國(guó)林業(yè)出版社,1987
4 T.Shirasawa,T.Yamamura.Discriminating Emotion Intended In Speech.Japan:The preprint of the acoustical society of Japan,in 1996:96~38
5 大橋力等.情緒機(jī)器人的世界.講談社,1995