摘 要: 分析了含有歡快、憤怒、驚奇、悲傷等4種情感語音信號的時間構造、振幅構造、基頻構造和共振峰構造的特征。通過與不帶情感的平靜的語音信號的比較,總結了不同情感語音信號情感特征的分布規(guī)律,為情感信號處理和識別提供了有實用價值的理論數據。
關鍵詞: 情感特征 語音信號 時間構造 振幅構造 基頻構造 共振峰構造
語言是人類交際的最重要的工具。人類的話語中不僅包含了文字符合信息,而且還包含了人們的感情和情緒等信息。例如,同樣一句話,往往由于說話人的情感不同,其意思和給聽者的印象就會不同,所謂“聽話聽音”就是這個道理。傳統(tǒng)的信息科學世界只是處理符號信息的“無神經”的知識世界。例如,傳統(tǒng)的語音處理系統(tǒng)僅僅著眼于語音詞匯傳達的準確性,而完全忽略了包含在語音信號中的情感因素。所以它只是反映了信息的一個方面。與知識世界相對應且具有同等重要地位的感性科學世界,也是信息處理的重要組成部分。因此情感信號特征的人工處理,在信號處理和人工智能等領域具有重要意義。
從語音信號提取情感特征,判斷說話人的喜怒哀樂,是國外近幾年剛剛興起的研究課題。由于剛剛起步,這方面的研究成果還很少[5],就目前的研究水平來看,一般也都只限于通過分析情感語音信號的持續(xù)時間、發(fā)音速度、振幅、基頻、頻譜等變化特點,尋找能夠反映情感特征的物理參數。本文針對含有歡快、憤怒、驚奇、悲傷等4種情感的語音信號,分析了它們的時間構造、振幅構造、基頻構造和共振峰構造的特征。并且通過和不帶感情的平靜語音信號進行比較,找出了不同情感信號特征的分布規(guī)律。作為情感信號處理的初步研究,為漢語情感語音信號處理和情感識別提供了有實用價值的理論數據。
1 情感分析用語音資料的選擇
適當選擇用于情感分析的語音信號具有重要意義。然而,國內外現在還沒有提出情感分析用語音資料的條件和標準[4]。在我們的情感分析實驗中,對實驗用語句的選擇主要考慮了兩個方面:第一,所選擇的語句必須具有較高的情感自由度;第二,對同一個語句應該能施加各種情感進行分析比較。根據這兩個原則,我們選用了如表1所示的4個語句作為情感分析用語音資料。并邀請了5名善于表演的男性話者用平靜、歡快、憤怒、驚奇、悲傷等5種情感對每個句子各發(fā)音3遍,一共搜集了300個分析用語句。
錄音是在安靜的房間里并且使用索尼DAT設備完成的。錄音數據使用創(chuàng)通公司PCI64位聲卡通過11025Hz采樣、16bit A/D變換轉化成數字信號存儲在PC機中。為了檢驗所搜集的實驗用情感語音數據的有效性,我們做了一個聽取實驗。我們要求以上五名發(fā)音者以外的另三名實驗者坐在電腦終端前,然后隨機播放所搜集到的帶有各種情感的語句,讓實驗者通過主觀評價說出所放語音的情感類型。經過反復聽取比較,對其中情感特征不明顯的句子進行了刪除和重新制作。
2 分析實驗和結果
一般來說,語音中的情感特征往往通過語音韻律的變化表現出來[4]。例如,當一個人發(fā)怒的時候,講話的速率會變快,音量會變大,音調會變高等,這些都是人們直接可以感覺到的。本文中,我們主要就含有歡快、憤怒、驚奇、悲傷等4種情感的語音信號的時間構造、振幅構造和基頻構造等韻律特征和不含感情的平靜語音信號進行比較,找出了不同情感信號特征的構造特點和差別。
為了求出分析所需要的語音信號韻律特征參數,首先按12kHz的抽樣頻率對輸入信號進行A/D變換,然后對抽樣信號加上窗長21.33ms(256點),窗移10ms的漢明窗,最后根據不同的分析需要求出短時能量,基音頻率等韻律特征參數。
由于語音信號中的情感信息受到語句詞匯內容的影響,所以為了使分析結果消除這方面的影響,一般都是通過分析情感語音和不帶感情的平靜語音的相對關系,找出這種相對特征的構造、特點和分布規(guī)律,用來處理和識別不同的情感語音信號。
2.1 時間構造的分析
分析情感語音的時間構造主要著眼于不同情感語音的發(fā)話時間構造的差別,對由情感引起的持續(xù)時間等的變化進行分析和比較。本文中我們主要就發(fā)話持續(xù)時間長度(簡稱為T)以及平均發(fā)話速率和情感的
關系進行了分析和比較。我們把上述300個語句按平靜語音和4種感情語音進行分類。為了把情感發(fā)音和平靜發(fā)音進行比較,我們分析了各類語句情感發(fā)音持續(xù)時間長度以及它們各自的發(fā)音速率的平均值和對應的平靜發(fā)音響應參數的比值,找出了情感語音時間構造的特征。分析結果如圖1所示。
從圖1所示的情感發(fā)音時間構造分析結果可以看出,在發(fā)話的持續(xù)時間上,歡快、憤怒、驚奇的發(fā)音長度和平靜發(fā)音相比壓縮了,而悲傷的發(fā)音長度卻稍稍伸長了。在被壓縮的歡快、憤怒、驚奇中、憤怒的發(fā)音最短,其次是驚奇,然后是歡快。從發(fā)話速率和情感的關系來看,歡快、憤怒、驚奇和平靜發(fā)音相比變快了,而悲傷卻變慢了。通過進一步的觀察可知,這些現象的產生是由于與平靜語音相比,在情感語音中,一些音素被模糊地發(fā)音、拖長或省略掉了的緣故。
根據上述分析結果,我們可以利用情感語音的時間構造很容易地區(qū)分悲傷和其它情感信號。也可以通過設定某些時間特征閥值,來區(qū)分歡快、憤怒、驚奇的情感信號。至于憤怒和驚奇情感信號,顯然光利用時間構造特征不足以進行有效的區(qū)分。
2.2 振幅構造的分析
一般來講,信號的振幅特征與各種情感信息具有較強的相關性[5]。在我們的實際活動中也會有這樣的感覺,就是當人們憤怒或者驚奇的時候,發(fā)音的音量往往變大,而當人們沮喪或悲傷的時候,往往講話的聲音很低。因此,在一些有關情感分析的研究中,振幅構造特性都是作為重要特征加以分析研究的。在本文中,我們主要針對振幅平均能量以及動態(tài)范圍(分別簡稱為A和Arange)等特征量進行分析比較。我們求取語音信號每一幀的短時能量,分析它們隨時間的變化情況。而且為了避免發(fā)音中無聲部和噪音的影響,我們只考慮短時能量超過某一閾值時的振幅絕對值的平均值。分析結果如圖2所示。其中圖2(a)是話者B發(fā)語句1時的振幅能量的逐幀演示,圖2(b)是各情感類型振幅能量相對值的直方圖。
從分析結果可知,歡快、憤怒、驚奇三種情感發(fā)音信號和平靜發(fā)音信號相比振幅將變大;相反地,悲傷和平靜相比,振幅將減小。而且從聽取實驗可知,情感信號具有這樣的傾向:歡快、憤怒、驚奇的平均振幅越大,悲傷的平均振幅越小,其情感效應表現的越明顯。利用振幅特征,我們可以很清楚地把歡快、憤怒、驚奇、悲傷區(qū)分開來,另外,振幅特性也具有一定的區(qū)分歡快、憤怒和驚奇情感信號的能力。
2.3 基頻構造的分析
基音頻率也是反映情感信息的重要特征之一[5]。為了分析情感語音信號基頻構造的特征,我們首先求出情感語音信號平滑的基頻軌跡曲線[1],然后分析不同情感信號基頻軌跡曲線的變化情況,找出不同的情感信號各自具有的基頻構造特征。
本文分析了不同情感信號軌跡曲線的動態(tài)范圍、整個曲線的基頻平均值以及變化率(分別簡稱為F0,F0 range和F0 rate)等特征,這里的基頻變化率是指各幀語音信號基頻差分的絕對值的平均值,分析結果如圖3所示。其中圖3(a)是話者B發(fā)語句2時的基頻的逐幀演示,圖3(b)是各情感類型基頻參數相對值的直方圖。
與平靜語音信號相比,歡快、憤怒和驚奇的平均基頻、動態(tài)范圍、平均變化率比較大,而相反,悲傷語音信號的則較小。對比較大的歡快、憤怒、驚奇來進,歡快語音信號的特征量最大,其次是驚奇和憤怒。另外,通過觀察語音信號的基頻軌跡曲線,我們發(fā)現了一個區(qū)分驚奇和其它情感信號的重要特征,那就是驚奇情感信號的基頻軌跡曲線在句尾的地方往往有上翹的特征。圖3反映了話者B發(fā)語句2時的基頻的逐幀演示。
2.4 共振峰構造
共振峰是反映聲道特性的一個重要參數。因為不同情感的發(fā)音可能使聲道有不同的變化,所以,我們能夠預料到不同情感發(fā)音的共振峰的位置不同。本文首先用線性預測法求出預測系數,然后用預測系數估計出聲道的功率譜,再用峰值檢出法(Peak Picking)[1]算出各共振峰的頻率。本文為了簡單起見,只研究了第一共振峰頻率平均值、動態(tài)范圍和變化率(分別簡稱為F1,F1 range和F1 rate)。分析結果如圖4所示。其中圖4(a)是話者B發(fā)語句4時的第一共振峰頻率的逐幀演示;圖4(b)是各情感類型第一共振峰頻率參數相對值的直方圖。
從圖4中我們可以看出,相對于平靜發(fā)音,歡快和憤怒的第一共振峰頻率略微地升高了,而悲傷的第一共振峰頻率明顯地降低。通過進一步的觀察,我們發(fā)現,這是因為人們在表達歡快和憤怒時,嘴比平靜發(fā)音時張得更大的緣故。而在表達悲傷時,除了嘴張得比平時更小以外,還伴有模糊不清的鼻音。四種情感的第一共振峰頻率的動態(tài)范圍均比平靜時要大,其中,驚奇最大。而四種情感的第一共振峰頻率的變化率均比平靜時要小,其中悲傷最小。
以上,我們從時間構造、振幅構造和基頻構造三個方面,對含有歡快、憤怒、悲傷和驚奇四種情感的語音信號進行了分析比較。綜合三方面的分析結果,我們可以歸納如下的情感信號的特征(均相對于平靜發(fā)音而言),結果如表2所示。
由于存在一定的個人差,所以對于不同的話者,以上總結的分析結果存在不同程度的差異,但分析結果的總趨勢是一致的。作為今后研究的課題,我們將進一步分析感情語音同它的頻譜以及共振峰等特征之間的關系,為今后的情感語音信號處理尋找最佳的特征參數。
參考文獻
1 周迪偉等譯.計算機語音處理.北京:國防工業(yè)出版社,1987
2 王學仁,王松桂編譯.實用多元統(tǒng)計分析.上海:上??茖W技術出版社,1990
3 唐守正編著.多元統(tǒng)計分析方法.北京:中國林業(yè)出版社,1987
4 T.Shirasawa,T.Yamamura.Discriminating Emotion Intended In Speech.Japan:The preprint of the acoustical society of Japan,in 1996:96~38
5 大橋力等.情緒機器人的世界.講談社,1995