《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 業(yè)界動態(tài) > 包含在語音信號中情感特征的分析

包含在語音信號中情感特征的分析

2009-02-20
作者:錢向民

  摘 要: 分析了含有歡快、憤怒、驚奇、悲傷等4種情感語音信號的時間構(gòu)造、振幅構(gòu)造、基頻構(gòu)造和共振峰構(gòu)造的特征。通過與不帶情感的平靜的語音信號的比較,總結(jié)了不同情感語音信號情感特征的分布規(guī)律,為情感信號處理和識別提供了有實(shí)用價值的理論數(shù)據(jù)。
  關(guān)鍵詞: 情感特征 語音信號 時間構(gòu)造 振幅構(gòu)造 基頻構(gòu)造 共振峰構(gòu)造


  語言是人類交際的最重要的工具。人類的話語中不僅包含了文字符合信息,而且還包含了人們的感情和情緒等信息。例如,同樣一句話,往往由于說話人的情感不同,其意思和給聽者的印象就會不同,所謂“聽話聽音”就是這個道理。傳統(tǒng)的信息科學(xué)世界只是處理符號信息的“無神經(jīng)”的知識世界。例如,傳統(tǒng)的語音處理系統(tǒng)僅僅著眼于語音詞匯傳達(dá)的準(zhǔn)確性,而完全忽略了包含在語音信號中的情感因素。所以它只是反映了信息的一個方面。與知識世界相對應(yīng)且具有同等重要地位的感性科學(xué)世界,也是信息處理的重要組成部分。因此情感信號特征的人工處理,在信號處理和人工智能等領(lǐng)域具有重要意義。
  從語音信號提取情感特征,判斷說話人的喜怒哀樂,是國外近幾年剛剛興起的研究課題。由于剛剛起步,這方面的研究成果還很少[5],就目前的研究水平來看,一般也都只限于通過分析情感語音信號的持續(xù)時間、發(fā)音速度、振幅、基頻、頻譜等變化特點(diǎn),尋找能夠反映情感特征的物理參數(shù)。本文針對含有歡快、憤怒、驚奇、悲傷等4種情感的語音信號,分析了它們的時間構(gòu)造、振幅構(gòu)造、基頻構(gòu)造和共振峰構(gòu)造的特征。并且通過和不帶感情的平靜語音信號進(jìn)行比較,找出了不同情感信號特征的分布規(guī)律。作為情感信號處理的初步研究,為漢語情感語音信號處理和情感識別提供了有實(shí)用價值的理論數(shù)據(jù)。
1 情感分析用語音資料的選擇
  適當(dāng)選擇用于情感分析的語音信號具有重要意義。然而,國內(nèi)外現(xiàn)在還沒有提出情感分析用語音資料的條件和標(biāo)準(zhǔn)[4]。在我們的情感分析實(shí)驗(yàn)中,對實(shí)驗(yàn)用語句的選擇主要考慮了兩個方面:第一,所選擇的語句必須具有較高的情感自由度;第二,對同一個語句應(yīng)該能施加各種情感進(jìn)行分析比較。根據(jù)這兩個原則,我們選用了如表1所示的4個語句作為情感分析用語音資料。并邀請了5名善于表演的男性話者用平靜、歡快、憤怒、驚奇、悲傷等5種情感對每個句子各發(fā)音3遍,一共搜集了300個分析用語句。


  錄音是在安靜的房間里并且使用索尼DAT設(shè)備完成的。錄音數(shù)據(jù)使用創(chuàng)通公司PCI64位聲卡通過11025Hz采樣、16bit A/D變換轉(zhuǎn)化成數(shù)字信號存儲在PC機(jī)中。為了檢驗(yàn)所搜集的實(shí)驗(yàn)用情感語音數(shù)據(jù)的有效性,我們做了一個聽取實(shí)驗(yàn)。我們要求以上五名發(fā)音者以外的另三名實(shí)驗(yàn)者坐在電腦終端前,然后隨機(jī)播放所搜集到的帶有各種情感的語句,讓實(shí)驗(yàn)者通過主觀評價說出所放語音的情感類型。經(jīng)過反復(fù)聽取比較,對其中情感特征不明顯的句子進(jìn)行了刪除和重新制作。
2 分析實(shí)驗(yàn)和結(jié)果
  一般來說,語音中的情感特征往往通過語音韻律的變化表現(xiàn)出來[4]。例如,當(dāng)一個人發(fā)怒的時候,講話的速率會變快,音量會變大,音調(diào)會變高等,這些都是人們直接可以感覺到的。本文中,我們主要就含有歡快、憤怒、驚奇、悲傷等4種情感的語音信號的時間構(gòu)造、振幅構(gòu)造和基頻構(gòu)造等韻律特征和不含感情的平靜語音信號進(jìn)行比較,找出了不同情感信號特征的構(gòu)造特點(diǎn)和差別。
  為了求出分析所需要的語音信號韻律特征參數(shù),首先按12kHz的抽樣頻率對輸入信號進(jìn)行A/D變換,然后對抽樣信號加上窗長21.33ms(256點(diǎn)),窗移10ms的漢明窗,最后根據(jù)不同的分析需要求出短時能量,基音頻率等韻律特征參數(shù)。
  由于語音信號中的情感信息受到語句詞匯內(nèi)容的影響,所以為了使分析結(jié)果消除這方面的影響,一般都是通過分析情感語音和不帶感情的平靜語音的相對關(guān)系,找出這種相對特征的構(gòu)造、特點(diǎn)和分布規(guī)律,用來處理和識別不同的情感語音信號。
2.1 時間構(gòu)造的分析
  分析情感語音的時間構(gòu)造主要著眼于不同情感語音的發(fā)話時間構(gòu)造的差別,對由情感引起的持續(xù)時間等的變化進(jìn)行分析和比較。本文中我們主要就發(fā)話持續(xù)時間長度(簡稱為T)以及平均發(fā)話速率和情感的
  關(guān)系進(jìn)行了分析和比較。我們把上述300個語句按平靜語音和4種感情語音進(jìn)行分類。為了把情感發(fā)音和平靜發(fā)音進(jìn)行比較,我們分析了各類語句情感發(fā)音持續(xù)時間長度以及它們各自的發(fā)音速率的平均值和對應(yīng)的平靜發(fā)音響應(yīng)參數(shù)的比值,找出了情感語音時間構(gòu)造的特征。分析結(jié)果如圖1所示。


  從圖1所示的情感發(fā)音時間構(gòu)造分析結(jié)果可以看出,在發(fā)話的持續(xù)時間上,歡快、憤怒、驚奇的發(fā)音長度和平靜發(fā)音相比壓縮了,而悲傷的發(fā)音長度卻稍稍伸長了。在被壓縮的歡快、憤怒、驚奇中、憤怒的發(fā)音最短,其次是驚奇,然后是歡快。從發(fā)話速率和情感的關(guān)系來看,歡快、憤怒、驚奇和平靜發(fā)音相比變快了,而悲傷卻變慢了。通過進(jìn)一步的觀察可知,這些現(xiàn)象的產(chǎn)生是由于與平靜語音相比,在情感語音中,一些音素被模糊地發(fā)音、拖長或省略掉了的緣故。
  根據(jù)上述分析結(jié)果,我們可以利用情感語音的時間構(gòu)造很容易地區(qū)分悲傷和其它情感信號。也可以通過設(shè)定某些時間特征閥值,來區(qū)分歡快、憤怒、驚奇的情感信號。至于憤怒和驚奇情感信號,顯然光利用時間構(gòu)造特征不足以進(jìn)行有效的區(qū)分。
2.2 振幅構(gòu)造的分析
  一般來講,信號的振幅特征與各種情感信息具有較強(qiáng)的相關(guān)性[5]。在我們的實(shí)際活動中也會有這樣的感覺,就是當(dāng)人們憤怒或者驚奇的時候,發(fā)音的音量往往變大,而當(dāng)人們沮喪或悲傷的時候,往往講話的聲音很低。因此,在一些有關(guān)情感分析的研究中,振幅構(gòu)造特性都是作為重要特征加以分析研究的。在本文中,我們主要針對振幅平均能量以及動態(tài)范圍(分別簡稱為A和Arange)等特征量進(jìn)行分析比較。我們求取語音信號每一幀的短時能量,分析它們隨時間的變化情況。而且為了避免發(fā)音中無聲部和噪音的影響,我們只考慮短時能量超過某一閾值時的振幅絕對值的平均值。分析結(jié)果如圖2所示。其中圖2(a)是話者B發(fā)語句1時的振幅能量的逐幀演示,圖2(b)是各情感類型振幅能量相對值的直方圖。


  從分析結(jié)果可知,歡快、憤怒、驚奇三種情感發(fā)音信號和平靜發(fā)音信號相比振幅將變大;相反地,悲傷和平靜相比,振幅將減小。而且從聽取實(shí)驗(yàn)可知,情感信號具有這樣的傾向:歡快、憤怒、驚奇的平均振幅越大,悲傷的平均振幅越小,其情感效應(yīng)表現(xiàn)的越明顯。利用振幅特征,我們可以很清楚地把歡快、憤怒、驚奇、悲傷區(qū)分開來,另外,振幅特性也具有一定的區(qū)分歡快、憤怒和驚奇情感信號的能力。
2.3 基頻構(gòu)造的分析
  基音頻率也是反映情感信息的重要特征之一[5]。為了分析情感語音信號基頻構(gòu)造的特征,我們首先求出情感語音信號平滑的基頻軌跡曲線[1],然后分析不同情感信號基頻軌跡曲線的變化情況,找出不同的情感信號各自具有的基頻構(gòu)造特征。
  本文分析了不同情感信號軌跡曲線的動態(tài)范圍、整個曲線的基頻平均值以及變化率(分別簡稱為F0,F(xiàn)0 range和F0 rate)等特征,這里的基頻變化率是指各幀語音信號基頻差分的絕對值的平均值,分析結(jié)果如圖3所示。其中圖3(a)是話者B發(fā)語句2時的基頻的逐幀演示,圖3(b)是各情感類型基頻參數(shù)相對值的直方圖。


  與平靜語音信號相比,歡快、憤怒和驚奇的平均基頻、動態(tài)范圍、平均變化率比較大,而相反,悲傷語音信號的則較小。對比較大的歡快、憤怒、驚奇來進(jìn),歡快語音信號的特征量最大,其次是驚奇和憤怒。另外,通過觀察語音信號的基頻軌跡曲線,我們發(fā)現(xiàn)了一個區(qū)分驚奇和其它情感信號的重要特征,那就是驚奇情感信號的基頻軌跡曲線在句尾的地方往往有上翹的特征。圖3反映了話者B發(fā)語句2時的基頻的逐幀演示。
2.4 共振峰構(gòu)造
  共振峰是反映聲道特性的一個重要參數(shù)。因?yàn)椴煌楦械陌l(fā)音可能使聲道有不同的變化,所以,我們能夠預(yù)料到不同情感發(fā)音的共振峰的位置不同。本文首先用線性預(yù)測法求出預(yù)測系數(shù),然后用預(yù)測系數(shù)估計出聲道的功率譜,再用峰值檢出法(Peak Picking)[1]算出各共振峰的頻率。本文為了簡單起見,只研究了第一共振峰頻率平均值、動態(tài)范圍和變化率(分別簡稱為F1,F(xiàn)1 range和F1 rate)。分析結(jié)果如圖4所示。其中圖4(a)是話者B發(fā)語句4時的第一共振峰頻率的逐幀演示;圖4(b)是各情感類型第一共振峰頻率參數(shù)相對值的直方圖。


  從圖4中我們可以看出,相對于平靜發(fā)音,歡快和憤怒的第一共振峰頻率略微地升高了,而悲傷的第一共振峰頻率明顯地降低。通過進(jìn)一步的觀察,我們發(fā)現(xiàn),這是因?yàn)槿藗冊诒磉_(dá)歡快和憤怒時,嘴比平靜發(fā)音時張得更大的緣故。而在表達(dá)悲傷時,除了嘴張得比平時更小以外,還伴有模糊不清的鼻音。四種情感的第一共振峰頻率的動態(tài)范圍均比平靜時要大,其中,驚奇最大。而四種情感的第一共振峰頻率的變化率均比平靜時要小,其中悲傷最小。
  以上,我們從時間構(gòu)造、振幅構(gòu)造和基頻構(gòu)造三個方面,對含有歡快、憤怒、悲傷和驚奇四種情感的語音信號進(jìn)行了分析比較。綜合三方面的分析結(jié)果,我們可以歸納如下的情感信號的特征(均相對于平靜發(fā)音而言),結(jié)果如表2所示。


  由于存在一定的個人差,所以對于不同的話者,以上總結(jié)的分析結(jié)果存在不同程度的差異,但分析結(jié)果的總趨勢是一致的。作為今后研究的課題,我們將進(jìn)一步分析感情語音同它的頻譜以及共振峰等特征之間的關(guān)系,為今后的情感語音信號處理尋找最佳的特征參數(shù)。
參考文獻(xiàn)
1 周迪偉等譯.計算機(jī)語音處理.北京:國防工業(yè)出版社,1987
2 王學(xué)仁,王松桂編譯.實(shí)用多元統(tǒng)計分析.上海:上??茖W(xué)技術(shù)出版社,1990
3 唐守正編著.多元統(tǒng)計分析方法.北京:中國林業(yè)出版社,1987
4 T.Shirasawa,T.Yamamura.Discriminating Emotion Intended In Speech.Japan:The preprint of the acoustical society of Japan,in 1996:96~38
5 大橋力等.情緒機(jī)器人的世界.講談社,1995

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。