楊景花1,王雙喜1,周思方2,3
?。?.商丘學(xué)院 計(jì)算機(jī)工程學(xué)院,河南 商丘 476000;2. 商丘師范學(xué)院 計(jì)算機(jī)與信息技術(shù)學(xué)院,河南 商丘 476000;3.商丘職業(yè)技術(shù)學(xué)院,河南 商丘 476000)
摘要:語音識(shí)別或語言轉(zhuǎn)化成文本的過程包括捕獲聲波,數(shù)字化聲波,轉(zhuǎn)換成基本的語言單位或者音素,根據(jù)音位和語境構(gòu)建詞語,分析詞語,保證拼寫正確,并且保證與聽到的詞語保持一致。該文把人工智能和神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用到語音識(shí)別系統(tǒng)中,通過學(xué)習(xí)獲得固定權(quán)重并應(yīng)用到模型,最后模型快速給出與輸入相匹配的輸出。文中涉及到的神經(jīng)網(wǎng)絡(luò)模型主要用來進(jìn)行語音識(shí)別。
關(guān)鍵詞:語音識(shí)別;神經(jīng)網(wǎng)絡(luò);人工智能;信號(hào)處理
0引言
人工智能的應(yīng)用在最近幾年迅速發(fā)展,特別是神經(jīng)網(wǎng)絡(luò)的應(yīng)用,神經(jīng)網(wǎng)絡(luò)系統(tǒng)是解決許多突出問題的一個(gè)工具,如模式識(shí)別和模式分類。1943年,神經(jīng)生物學(xué)家MCCULLOCH W S和青年數(shù)學(xué)家PITTS W合作,提出了第一個(gè)人工神經(jīng)元模型,并抽象出神經(jīng)元的數(shù)理模型,開創(chuàng)了人工神經(jīng)網(wǎng)絡(luò)的研究[1]。Hopfield模型是于1982年提出的,它是神經(jīng)網(wǎng)絡(luò)存儲(chǔ)和提取信息進(jìn)行非線性數(shù)學(xué)運(yùn)算的概括,使人工神經(jīng)網(wǎng)絡(luò)的構(gòu)造和學(xué)習(xí)有了理論指導(dǎo)[2]。隨后又有脈沖耦合神經(jīng)網(wǎng)絡(luò)等模型不斷被提出[35]。經(jīng)過多年的發(fā)展,更多經(jīng)過優(yōu)化、性能更強(qiáng)的神經(jīng)網(wǎng)絡(luò)模型被提出。
語音識(shí)別的研究工作開始于Bell實(shí)驗(yàn)室開發(fā)的第一個(gè)可識(shí)別10個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)。20世紀(jì)60年代,計(jì)算機(jī)的應(yīng)用推動(dòng)了語音識(shí)別的發(fā)展。出現(xiàn)了動(dòng)態(tài)規(guī)劃和線性預(yù)測(cè)分析技術(shù),較好地解決了語音信號(hào)產(chǎn)生模型的問題。隱馬爾可夫(HMM)模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語音識(shí)別中的應(yīng)用加快了語音識(shí)別模型的發(fā)展,隨后又有許多的模型出現(xiàn)[69]。隨著多媒體時(shí)代的來臨,迫切要求語音識(shí)別系統(tǒng)從實(shí)驗(yàn)室走向?qū)嵱?。我?guó)語音識(shí)別研究工作起步較晚,但近年來發(fā)展也很快,尤其實(shí)驗(yàn)室系統(tǒng)到市場(chǎng)化商品的發(fā)展[10 12]。
1模式識(shí)別
自動(dòng)識(shí)別、分類和分組模式作為重要的參數(shù)廣泛應(yīng)用于各種工程和科學(xué)學(xué)科,如生物學(xué)、心理學(xué)、醫(yī)學(xué)、市場(chǎng)營(yíng)銷、計(jì)算機(jī)視覺、人工智能、遙感等。模式可以是指紋圖像、手寫草書、人臉或語音信號(hào)。從處理問題的性質(zhì)和解決問題的方法等角度,模式識(shí)別可分為:
?。?)有監(jiān)督的分類,辨別分析、實(shí)驗(yàn)樣本所屬的類別是預(yù)先已知的;
?。?)無監(jiān)督的分類,實(shí)驗(yàn)樣本所屬的類別是預(yù)先未知的。
文中的模式識(shí)別問題是如何分類或者說是分類問題,其中類的定義是系統(tǒng)設(shè)計(jì)者設(shè)計(jì)的約束分類或者是無監(jiān)督分類下相似模型的學(xué)習(xí)。
模式識(shí)別的應(yīng)用包括特定數(shù)據(jù)的挖掘等。例如,數(shù)以百萬計(jì)的相關(guān)或獨(dú)立的多維模型中,文檔分類能有效搜索文本文檔、金融預(yù)測(cè)、多媒體數(shù)據(jù)庫和生物特征的組織與檢索。由于大型數(shù)據(jù)庫對(duì)速度、精度和成本要求很嚴(yán)格,所以自動(dòng)模式識(shí)別的需求正在迅速增長(zhǎng)。
識(shí)別系統(tǒng)模式的設(shè)計(jì)基本上包括以下三個(gè)方面:(1)收集、預(yù)處理和數(shù)據(jù)報(bào)告;(2)決策過程;(3)問題規(guī)模決定了預(yù)處理技術(shù)的選擇。
從一組例子中學(xué)習(xí)是大多數(shù)識(shí)別系統(tǒng)的一個(gè)重要性質(zhì)。人們?cè)谟^察事物或現(xiàn)象時(shí),通常會(huì)尋找它與其他事物或現(xiàn)象的不同之處,并根據(jù)一定的目的把各個(gè)相似的但又不完全相同的事物或現(xiàn)象組成一類[13 17]。常見的模式識(shí)別方法有:模式匹配、統(tǒng)計(jì)分類、句法方法等。
2神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征、進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。一些學(xué)者給出了節(jié)點(diǎn)之間交互定義:利用數(shù)學(xué)模型仿真生物學(xué)系統(tǒng)特征,并行處理信息;簡(jiǎn)單的實(shí)體類的算法,算法形成于數(shù)學(xué)模型(模型將這些策略分組成大量的算法,這些算法能解決大量復(fù)雜的問題)。
神經(jīng)網(wǎng)絡(luò)的活躍性體現(xiàn)在分類、編碼的過程和神經(jīng)網(wǎng)絡(luò)的特性方面。神經(jīng)網(wǎng)絡(luò)特性有:(1)抗噪聲。(2)靈活處理扭曲圖像。(3)并行協(xié)同處理信息。神經(jīng)網(wǎng)絡(luò)中的每個(gè)神經(jīng)元都可以根據(jù)接收到的信息進(jìn)行獨(dú)立的運(yùn)算和處理,并輸出結(jié)果,同一層中的各個(gè)神經(jīng)元的輸出結(jié)果可被同時(shí)計(jì)算下來,然后傳輸給下一層做進(jìn)一步處理,體現(xiàn)了神經(jīng)網(wǎng)絡(luò)并行運(yùn)算的特點(diǎn)。(4)對(duì)信息的處理具有自組織、自學(xué)習(xí)的特點(diǎn),便于聯(lián)想、綜合和推廣。神經(jīng)網(wǎng)絡(luò)的神經(jīng)元之間的連接強(qiáng)度用權(quán)值大小表示,這種權(quán)值可以通過對(duì)訓(xùn)練樣本的學(xué)習(xí)而不斷變化。
神經(jīng)網(wǎng)絡(luò)常見類型有:(1)Hopfield網(wǎng)絡(luò),一種單層的自聯(lián)想網(wǎng)絡(luò),無學(xué)習(xí)能力,多使用在聯(lián)想記憶方法來識(shí)別ASCII字符等領(lǐng)域。(2)感知器主要用來模擬人腦的感知特征,采取閾值單元作為傳遞函數(shù),所以只能輸出兩個(gè)值,適合簡(jiǎn)單模式分類問題。多用在文字識(shí)別、聲音識(shí)別領(lǐng)域。(3)自組織映射常尋找最優(yōu)參考矢量集合來對(duì)輸入模式集合進(jìn)行分類。(4)自適應(yīng)諧振理論將競(jìng)爭(zhēng)學(xué)習(xí)模型嵌入到一個(gè)自調(diào)節(jié)控制機(jī)構(gòu),使得當(dāng)輸入充分類似某一已存模式時(shí)系統(tǒng)才接受,不夠類似時(shí),只能作為新的類別來處理。
3處理過程
神經(jīng)網(wǎng)絡(luò)處理語音識(shí)別問題的處理過程如圖1所示。
3.1識(shí)別過程
(1)輸入信號(hào)送入計(jì)算機(jī),選擇單詞邊界,去掉孤立詞匯。
(2)聽覺信號(hào)處理,對(duì)語音信號(hào)進(jìn)行片段化(分幀),LPC分析,將Durbin算法作用于每個(gè)片段得到LPC倒譜系數(shù)的矢量,并使用K均值算法進(jìn)行量化。
(3)模式匹配和識(shí)別,利用人工神經(jīng)網(wǎng)絡(luò)對(duì)聲學(xué)參數(shù)近似度進(jìn)行計(jì)算。
(4)時(shí)間校正,模式序列識(shí)別。
語音信號(hào)作為神經(jīng)網(wǎng)絡(luò)的輸入,對(duì)語音信號(hào)分段后,神經(jīng)網(wǎng)絡(luò)接收到一組信號(hào)片段。每個(gè)片段對(duì)應(yīng)一組數(shù)字,表示信號(hào)的振幅范圍。所有的數(shù)字為計(jì)算神經(jīng)網(wǎng)絡(luò)輸出做準(zhǔn)備。如表1所示,每行是一幀的數(shù)字集合。
如圖2所示。其中,I表示一組數(shù)字中的數(shù)目,N表示數(shù)字集合(分割之后的幀信號(hào))的數(shù)目,輸入神經(jīng)元的數(shù)目已知,每個(gè)神經(jīng)元對(duì)應(yīng)一組數(shù)字,輸出層只有一個(gè)神經(jīng)元。輸出神經(jīng)元輸出的信號(hào)對(duì)應(yīng)識(shí)別所期望的輸出值。
其中,xqi表示一組數(shù)字中第i個(gè)xq的輸入值,yj為第j個(gè)神經(jīng)元的輸出值,wij為第i個(gè)神經(jīng)元和第j個(gè)神經(jīng)元的連接權(quán)值,βj為第j個(gè)神經(jīng)元的權(quán)值反饋。
3.2利用模型進(jìn)行語音識(shí)別
要計(jì)算神經(jīng)網(wǎng)絡(luò)的輸出,須完成以下步驟:
(1)初始化所有隱藏層中的所有神經(jīng)元的上下文;
(2)將第一組數(shù)字應(yīng)用于神經(jīng)網(wǎng)絡(luò),利用式(1)計(jì)算隱藏層的輸出。
要識(shí)別一個(gè)數(shù)字需要建立相應(yīng)的神經(jīng)網(wǎng)絡(luò)模型,這里建立10個(gè)相互有聯(lián)系的模型單元模仿神經(jīng)元。一個(gè)語音片段經(jīng)過片段化后輸入到神經(jīng)網(wǎng)絡(luò)模型中,經(jīng)過權(quán)值的迭代計(jì)算出期望的輸出。如訓(xùn)練神經(jīng)網(wǎng)絡(luò)識(shí)別一個(gè)數(shù)字時(shí),理想的輸出應(yīng)當(dāng)是對(duì)應(yīng)的數(shù)字,而不應(yīng)當(dāng)是其他的數(shù)字或者字母。表2列出了神經(jīng)網(wǎng)絡(luò)模型對(duì)數(shù)字0~9測(cè)試的準(zhǔn)確率。
神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)時(shí)按照量化均值調(diào)整規(guī)模,直到周圍的各種配置錯(cuò)誤到達(dá)一個(gè)可以接受的水平(由系統(tǒng)定義)。系統(tǒng)功能中的錯(cuò)誤按式(2)進(jìn)行計(jì)算。
N是神經(jīng)網(wǎng)絡(luò)例子中訓(xùn)練樣本的數(shù)目。一個(gè)神經(jīng)元的原型是生物學(xué)中的神經(jīng)細(xì)胞,一個(gè)神經(jīng)元由體細(xì)胞和兩個(gè)樹狀的分支——軸突和樹突組成。細(xì)胞體包含了細(xì)胞的必要元素,例如細(xì)胞核(內(nèi)含DNA)、細(xì)胞質(zhì)等。樹突可以接受刺激并將興奮傳入細(xì)胞體。每個(gè)神經(jīng)元只有一個(gè)軸突,傳遞興奮給其他神經(jīng)元。
神經(jīng)元的功能特點(diǎn)以及它們?nèi)绾谓Y(jié)合成一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)決定了神經(jīng)網(wǎng)絡(luò)的功能特點(diǎn)。多層神經(jīng)網(wǎng)絡(luò)和多層感知器能夠滿足苛刻的識(shí)別和管理要求。設(shè)計(jì)神經(jīng)元時(shí),每一個(gè)神經(jīng)元都會(huì)從前一層處理矢量信號(hào),圖3雙層神經(jīng)網(wǎng)絡(luò)模型并將處理結(jié)果傳給下一層。最小實(shí)現(xiàn)是一個(gè)雙層神經(jīng)網(wǎng)絡(luò),由輸入層、中間層(隱藏)、輸出層組成。如圖3所示。
4結(jié)論
基于人工神經(jīng)網(wǎng)絡(luò)的語音識(shí)別模型的研究目的是研究開發(fā)學(xué)習(xí)型神經(jīng)網(wǎng)絡(luò)。利用學(xué)習(xí)型神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)語音識(shí)別的功能。本文把人工智能和神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用到語音識(shí)別的系統(tǒng)中,通過學(xué)習(xí)獲得固定權(quán)重并應(yīng)用到模型,最后模型快速給出與輸入相匹配的輸出。在現(xiàn)有數(shù)據(jù)集實(shí)驗(yàn)的基礎(chǔ)上,識(shí)別準(zhǔn)確程度較好。
參考文獻(xiàn)
?。?] MCCULLOCH W S,PITTS W. A logical calculus of the ideas immanent in nervous activity[J]. Bulletin of Mathematical Biophysics,1943,10(5):115133.
[2] HOSPFIELD J.Neural networks and physical systems with emergent collective computer abilities[J].Proc Natl Acad Sci,1982,79(6):25542558.[3] RITTER G X, SUSSNER P. Morphological associative memories[J]. IEEE Transactions on Neural Networks, 1998,9(2):281292.
?。?] 馮乃勤,劉春紅,張聰品,等.形態(tài)學(xué)聯(lián)想記憶框架研究[J].計(jì)算機(jī)學(xué)報(bào),2010,33(1): 3140.
[5] SMADI A T A. Design and implementation of double base integer encoder of term metrical to direct binary[J].Journal of Signal and Information Processing,2015,4(4):370374.
?。?] CHOUDHARY A, KSHIRSAGAR R.(2012) Process speech recognition system using artificial intelligence technique[J].International Journal of Soft Computing and Engineering(IJSCE), 2012,2(5):239242.
?。?] CUI X, AFIFY M, GAO Y,et al.Stereo hidden Markov modeling for noise robust speech recognition[J].Computer Speech & Language,2013,27(2):407419.
[8] BENGIO Y, YAO L,ALAIN G,et al.Generalized denoising autoencoders as generative models[J].Advances in Neural Information Processing Systems,2013:899907.
[9] SRIVASTAVA N,HINTON G,KRIZHEVSKY A,et al.Dropout:a simple way to prevent neural networks from overfitting[J].The Journal of Machine Learning Research,2014,15(1):19291958.
?。?0] 邢銘生,朱浩,王宏斌.語音識(shí)別技術(shù)綜述[J].科協(xié)論壇,2010(3):6263.
[11] 林錫海.召喚式撿球機(jī)器人的語音識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].廣州:廣東工業(yè)大學(xué),2011.
?。?2] 史峰,王小川,郁磊,等.MATLAB 神經(jīng)網(wǎng)絡(luò)30個(gè)案例分析[M].北京:北京航空航天大學(xué)出版社,2010.
[15] 劉鈺,馬艷麗,董蓓蓓.語音識(shí)別技術(shù)概述[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2010(5):9899.
?。?6] 廖锎.淺析語音識(shí)別技術(shù)的發(fā)展及趨勢(shì)[J].科技傳播,2010(17):3436.
[17] 賈晶.基于STM32的嵌入式語音識(shí)別模塊設(shè)計(jì)[J].?dāng)?shù)字技術(shù)與應(yīng)用,2012(6):152153.