文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2020.08.007
引用格式: 鄭琳琳,孫蒙,張雄偉,等. 語音偽裝方法及其防御對策綜述[J].信息技術與網(wǎng)絡安全,2020,39(8):33-42.
語音是人們日常交流中的一種最直接、最有效和最常用的傳遞信息方式。由于說話人發(fā)音器官的生理差異和后天成長環(huán)境形成的行為差異,每個人的語音都帶有強烈的個性特征,能夠像虹膜、指紋、人臉等生物認證技術一樣,成為身份驗證的重要手段,稱為聲紋識別技術。聲紋技術因其具有經(jīng)濟、可靠、交互自然等優(yōu)勢而備受關注,具有重要研究意義和廣泛應用前景。
雖然每個說話人的語音有自己的個性特征,但是語音也是可以被模仿和偽裝的。目前,市面上流行的各類變聲器及變聲軟件可以對說話人的語音進行個性化改變,致使人耳甚至部分聲紋識別技術產(chǎn)品很難識別出說話人的身份。犯罪分子利用特定手段來偽裝自己的語音不被辨識出來,實施電話詐騙、恐嚇、綁架勒索等相關新聞報道也是數(shù)見不鮮。軍事上,某些組織成員通過使用全新的電話號碼和語音偽裝的方式來逃脫政府監(jiān)控的識別。隨著智能語音交互技術被廣泛應用到商業(yè)活動和軍事應用中,人們對信息安全的要求也越來越高。然而,語音偽裝嚴重影響聲紋識別效果,使犯罪分子有機可乘。
語音偽裝(Voice Disguise)是指對于正常語音的任何改變、扭曲或者偏離。它涵蓋了故意偽裝和非故意偽裝兩種形式。網(wǎng)絡空間安全領域更多關注的是故意偽裝,即“以掩蓋真實身份為目的,有意識地改變聲音,使其模糊、畸變、扭曲的發(fā)音方式”。偽裝語音的相關研究工作最早可追溯至20世紀六十年代初期的法庭說話人辨認,至今已有50多年的研究歷史。近年來,語音信號處理和互聯(lián)網(wǎng)技術的進步,以及語音數(shù)據(jù)獲取和共享的更加便捷,有力地推動了語音偽裝技術的發(fā)展。特別是基于機器學習和深度學習的語音合成技術能夠生成特定說話人的語音樣本,對聲紋識別接口的用戶構成了嚴重的隱私威脅。因此,語音偽裝受到學術界和產(chǎn)業(yè)界的廣泛關注,諸多國內外學者開展了與語音偽裝相關的研究。日本東京國立資訊研究所、法國國家信息與自動化研究所以及美國伊利諾理工大學等開展了語音偽裝方式的研究,進一步提高了偽裝語音的匿名化程度;中國刑警學院和多地公安部門針對偽裝語音變聲規(guī)律及其對自動說話人確認系統(tǒng)(Automatic Speaker Verification,ASV)的影響展開了相關工作;清華大學、南京郵電大學以及中山大學等在偽裝語音防御對策方面做了相關研究,并相繼取得了一些研究成果。
本文在簡要梳理語音偽裝的典型模型和基本方法的基礎上,介紹了語音偽裝的威脅量化評估方法,歸納了語音偽裝的防御對策,并總結了目前語音偽裝防御對策研究中仍存在的問題和挑戰(zhàn),對未來的發(fā)展方向作出了展望。
本文詳細內容請下載:http://ihrv.cn/resource/share/2000003244
作者信息:
鄭琳琳1,孫 蒙1,張雄偉1,潘志欣2
(1.陸軍工程大學,江蘇 南京210007;2.海軍工程大學,湖北 武漢430000)