《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計應(yīng)用 > 詞類擴充方法在語音識別中的應(yīng)用
詞類擴充方法在語音識別中的應(yīng)用
2014年電子技術(shù)應(yīng)用第6期
楊林國
安徽職業(yè)技術(shù)學(xué)院, 安徽 合肥230061
摘要: 針對當(dāng)前基于N-gram的語言模型在特定領(lǐng)域的數(shù)據(jù)稀缺(如歌手名、音樂名等),提出了基于特定領(lǐng)域的詞類擴充方法,從而有效解決特定領(lǐng)域詞表即時擴充的問題。
中圖分類號: TP3
文獻標(biāo)識碼: A
文章編號: 0258-7998(2014)06-0123-03
An expansion method of word class used in ASR
Yang Linguo
Anhui Vocational Technical College, Hefei 230061, China
Abstract: This paper proposes an expansion method of word class used in specific areas. This method can solve the scarcity of data based on N-gram language model in specific areas(such as artist name, music, name, etc.).The test results show that it effectively solve the immediate expansion problem of domain-specific vocabulary.
Key words : ASR; dictation; LM; N-Gram; WFST;CMN

       近年來,自動語音識別ASR(Automatic Speech Recognition)在移動互聯(lián)網(wǎng)中受到越來越多的重視。其中,基于N-gram的統(tǒng)計語言模型LM(Language Model)訓(xùn)練是ASR中聽寫(dictation)應(yīng)用的重要組成部分。但是N-gram語言模型面臨兩個重大的問題, 即數(shù)據(jù)的稀疏性[1]和對訓(xùn)練語料的強依賴性。一般情況下,要訓(xùn)練相應(yīng)的N-gram的語言模型,必須在相應(yīng)的領(lǐng)域搜集大量的領(lǐng)域語料,并且利用各種有效的平滑算法[2]來解決數(shù)據(jù)的稀疏性。但是,在實際的應(yīng)用中,對于領(lǐng)域相關(guān)的語料需要大量的人力來搜集或者無法得到,同時特定領(lǐng)域具有特定的分類(如歌手名)和實時性,這限制了在特定領(lǐng)域中語音識別的應(yīng)用。因此,在這種情況下,基于特定領(lǐng)域的詞類擴充方法在語音識別中十分重要[3]。

        通常情況下,傳統(tǒng)的特定領(lǐng)域的語言模型流程是將一個通用的、訓(xùn)練充分的通用語言模型和一個特定領(lǐng)域的、訓(xùn)練不充分的特定領(lǐng)域模型通過某種方式組合成一個新的模型。因此,這種自適應(yīng)技術(shù)通常也叫話題自適應(yīng)或者領(lǐng)域自適應(yīng)技術(shù)??梢允褂么罅康奈谋居?xùn)練成一個通用的語言模型M,在給定特定領(lǐng)域的少量語料S 后,語言模型自適應(yīng)的目標(biāo)就是利用M和S為該特定領(lǐng)域生成一個特定領(lǐng)域模型。用這種方法能夠取得比較好的結(jié)果[4-5]。但是,這種傳統(tǒng)的方法無法滿足特定領(lǐng)域詞表的不斷擴充和實時性。

        為了解決特定領(lǐng)域的詞類擴充和自適應(yīng)問題,本文設(shè)計了基于分類的語言模型和HCLG[6]結(jié)合的新型解碼方法,如圖1所示。首先需要設(shè)計帶標(biāo)簽的詞類的語言模型,將通用和特定領(lǐng)域語料中的類別用標(biāo)簽替代,訓(xùn)練生成基礎(chǔ)詞類模型,通過構(gòu)圖生成相應(yīng)的HCLG。同時,將類別的詞表生成有限狀態(tài)圖。最后通過標(biāo)簽將兩個HCLG圖替換合并,生成自適應(yīng)特定領(lǐng)域HCLG。此外,由于類別詞表相當(dāng)于語料變動很小,可以不斷更新并快速地應(yīng)用到實際的環(huán)境中。

1 帶標(biāo)簽的分類語言模型

1.1 N-gram 語言模型

        N-gram模型[6]于1980年提出,是一種應(yīng)用廣泛的統(tǒng)計語言模型。它采用Markov的假設(shè),即每個詞的出現(xiàn)只與前n-1個歷史詞有關(guān),即:

        N-gram語言模型被廣泛應(yīng)用在語音識別、文本處理等各種領(lǐng)域。但是,N-gram語言模型存在一個問題,當(dāng)一些詞匯在學(xué)習(xí)語料集中沒有出現(xiàn)而出現(xiàn)在測試集中時,則會出現(xiàn)數(shù)據(jù)的稀疏性問題。在特定領(lǐng)域的應(yīng)用中,這種數(shù)據(jù)的稀疏性問題[7]尤為突出。雖然目前提出了很多平滑算法來解決此類問題。但是在特定領(lǐng)域中不能解決專業(yè)詞匯或者新詞的問題,如歌曲識別中的歌手名和歌曲名,在互聯(lián)網(wǎng)中每天都在更新且數(shù)量巨大。另一種方法是通過對單詞的聚類減小模型空間來解決數(shù)據(jù)的稀疏問題。本文基于改進的分類的語言模型來快速擴充詞匯,解決數(shù)特定領(lǐng)域的數(shù)據(jù)稀疏問題。

1.2 帶標(biāo)簽的分類語言模型

        在上文中,特定領(lǐng)域中語言模型的數(shù)據(jù)稀疏問題尤為突出。而基于詞類的語言模型是對基于詞的語言模型的改進,可以解決此類問題。

  假設(shè)類別用tag表示,如“我想聽青花瓷(tag)”,即: 

 

 

        由式(4)可以看出,tag是類別標(biāo)志,在學(xué)習(xí)訓(xùn)練時,將語料中的類別詞用tag來替換,訓(xùn)練生產(chǎn)的語言模型就是關(guān)于tag分類的語言模型,如圖2所示。

        目前的分類的語言模型在計算類別詞的概率時是通過平均類別的概率來計算的,在語音識別中,不能快速產(chǎn)生新的解碼圖結(jié)構(gòu),并且類別間的空間均分在實際的特定領(lǐng)域中時存在識別率降低的情況。因此,本文將帶標(biāo)簽的分類的語言模型在HCLG上進行合并,提高生成新模型的速度和特定領(lǐng)域的語音識別率。

2 HCLG的生產(chǎn)和合并

2.1 HCLG構(gòu)圖

        以加權(quán)有限狀態(tài)轉(zhuǎn)換器WFST(Weighted Finite State Transducer)[7-8]為框架的大詞匯量連續(xù)語音識別系統(tǒng)被廣泛的應(yīng)用,目前很多主流的語音識別系統(tǒng)均采用這一框架。語音識別的解碼任務(wù)可以看成是在語言模型、發(fā)音詞典規(guī)律、上下文相關(guān)和隱馬爾可夫模型等知識源限制下,尋找一個最有可能的隱馬爾可夫模型狀態(tài)序列的過程。

        語音識別解碼就是在給定輸入特征序列下尋找最優(yōu)的次序列w,即在式(5)中尋找最優(yōu)的次序列。將式(5)進行分解,表示成不同的知識源,并將它們表示成加權(quán)有限狀態(tài)轉(zhuǎn)換器的形式,如表1所示。 

        

        語音識別中的加權(quán)有限狀態(tài)轉(zhuǎn)換器(HCLG)的整體結(jié)構(gòu)如圖3所示[8-10]。

        通過分析可以看到,本文中主要是對語言模型(G)進行修改和改進。因此在下面的討論中,將HCLG簡化為G的圖結(jié)構(gòu)來討論,但是G具體包含了HCLG的所有信息,只是表示上方便。

2.2 HCLG合并

        在上一小節(jié)中,對HCLG的結(jié)構(gòu)進行了解析,在本小節(jié)中,對之前產(chǎn)生的帶標(biāo)簽的分類的語言模型在HCLG進行合并。以歌曲特定領(lǐng)域為例分析HCLG的合并過程,其中文中的HCLG是簡化了的HCLG。

        如圖4所示是一般的HCLG圖結(jié)構(gòu),在節(jié)點間的弧上是N-gram語言模型產(chǎn)生的連續(xù)連接詞。在1.2小節(jié)中介紹了帶標(biāo)簽的分類語言模型,如圖5所示即為產(chǎn)生的帶標(biāo)簽的分類的HCLG,即將圖4中的歌曲名和歌手名用tag-song和tag-singer來代替。帶標(biāo)簽的分類的HCLG是由圖產(chǎn)生的ALPA語言模型通過OpenFst 工具產(chǎn)生G.fst,再通過和發(fā)音詞典(L)、上下文相關(guān)音字模型(C)和隱馬爾科夫模型(H)一系列操作進行生產(chǎn)。

        對于類別的詞匯,需要建立字的HCLG,即將單個字做為一個詞建立ALPA,然后按照建立HCLG的流程生成類別的HCLG,如圖6所示。

       有了以上帶標(biāo)簽的分類的HCLG和類別的HCLG,即可以通過替換進行圖的合并。如圖7所示,將圖5中的tag-singer和tag-song的弧用類別的HCLG來代替,在替換弧的前后加上eps弧,以使在進行圖搜索的過程中與改變之前保持一致。

3 系統(tǒng)實現(xiàn)及討論

        實驗所采用的聲學(xué)模型是由100 h的863語言庫采用Kaldi[9-10]的DNN訓(xùn)練工具訓(xùn)練所得。實驗采用 39 維特征參數(shù),包括12 維Mel頻率參數(shù)(MFCC)和normalized Log能量值以及它們的一階、二階差分和倒譜均值正規(guī)化CMN(Cepstral Mean Normalization)。音素集合使用 CMU 重音詞典中定義的 39 個音素,加上一個 3 狀態(tài)的靜音模型和一個單狀態(tài)可跨越的短暫停模型。

        對于語言模型,針對歌曲特定領(lǐng)域,選取了兩個類別:歌曲名和歌手名。歌手列表2 000個,歌曲列表5 000個,語料是由百度歌曲知道和搜狗開放語料庫的文本混合而成(10 GB)。

        使用3個小型的測試集進行測試,每個測試集包括音樂相關(guān)的問題200句。在使用音樂的限定模型進行體驗測試,語音識別效果相對于普通的方面在3個測試集上都有所提高,并且歌手名和歌曲名的識別率得到提高,這使得在實際應(yīng)用中可以較好地利用這些準(zhǔn)確信息,例如QA系統(tǒng)的實體識別。

        本文提出了一種限定領(lǐng)域的詞類擴充方法,該方法從語言模型的改進和HCLG的合并兩方面來提高限定領(lǐng)域的語音識別結(jié)果。這種方法可以使得語言模型變得平滑,以適應(yīng)限定領(lǐng)域的詞匯擴充。同時,通過HCLG的標(biāo)簽替換可以減少HCLG的體積大小,從而提高搜索的效率。只要有分類的限定領(lǐng)域的詞表和合適的領(lǐng)域語料,該方法就能在語音識別中獲得不錯的識別結(jié)果。所以,這種方法在限定領(lǐng)域中有很多應(yīng)用。不過,在本文中沒有對詞類間的聯(lián)系進行統(tǒng)計和使用,使得在詞類間的查找缺乏一定的選擇方案,在接下來的研究中,將會探究詞類間的關(guān)系,進一步提高限定領(lǐng)域的語音識別效率。

參考文獻

[1] 邢永康, 馬少平. 統(tǒng)計語言模型綜述[J]. 計算機科學(xué), 2003,30(9):22-26.

[2] FEDERICO M. Efficient language model adaptation through MDI estimation[C]. Eurospeech, 1999:1583-1586. 

[3] 戴海生. 實用的家電語音控制系統(tǒng)的設(shè)計與實現(xiàn)[J]. 電子技術(shù)與應(yīng)用,2005,31(9):43-45.

[4] ROSENFELD R. A maximum entropy approach to adaptive statistical language modelling[J].Computer Speech & Language, 1996,10(3):187-228.

[5] JELINEK F, MERCER R L. Interpolated estimation of Markov source parameters from sparse data[C].Pattern recognition in practice,1980:381-397.

[6] SLAVA K. Estimation of probabilities from sparse data for  the language model component of a speech recognizer[J].Acoustics, Speech and Signal Processing, IEEE Transactions on,1987,35(3):400-401.

[7] MEHRYAR M, PEREIRA F, RILEY M. Weighted finitestate transducers in speech recognition[J]. Computer Speech & Language, 2002,16(1):69-88.

[8] 肖吉.基于有限狀態(tài)圖的語音識別系統(tǒng)的構(gòu)建[D].北京:清華大學(xué), 2011.

[9] DARREN M, DINES J, DOSS M M, et al. Juicer: A weighted finite-state transducer speech decoder[C].Machine Learning for Multimodal Interaction, Springer Berlin Heidelberg, 2006:285-296.

[10] ALLAUZEN C, SCHALKWYK J, SKUT W,et al.Open Fst: A general and efficient weighted finite-state transducer library[C].Implementation and Application of Automata. Springer Berlin Heidelberg, 2007:11-23.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。