《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 詞類擴充方法在語音識別中的應用
詞類擴充方法在語音識別中的應用
2014年電子技術應用第6期
楊林國
安徽職業(yè)技術學院, 安徽 合肥230061
摘要: 針對當前基于N-gram的語言模型在特定領域的數據稀缺(如歌手名、音樂名等),提出了基于特定領域的詞類擴充方法,從而有效解決特定領域詞表即時擴充的問題。
中圖分類號: TP3
文獻標識碼: A
文章編號: 0258-7998(2014)06-0123-03
An expansion method of word class used in ASR
Yang Linguo
Anhui Vocational Technical College, Hefei 230061, China
Abstract: This paper proposes an expansion method of word class used in specific areas. This method can solve the scarcity of data based on N-gram language model in specific areas(such as artist name, music, name, etc.).The test results show that it effectively solve the immediate expansion problem of domain-specific vocabulary.
Key words : ASR; dictation; LM; N-Gram; WFST;CMN

       近年來,自動語音識別ASR(Automatic Speech Recognition)在移動互聯網中受到越來越多的重視。其中,基于N-gram的統計語言模型LM(Language Model)訓練是ASR中聽寫(dictation)應用的重要組成部分。但是N-gram語言模型面臨兩個重大的問題, 即數據的稀疏性[1]和對訓練語料的強依賴性。一般情況下,要訓練相應的N-gram的語言模型,必須在相應的領域搜集大量的領域語料,并且利用各種有效的平滑算法[2]來解決數據的稀疏性。但是,在實際的應用中,對于領域相關的語料需要大量的人力來搜集或者無法得到,同時特定領域具有特定的分類(如歌手名)和實時性,這限制了在特定領域中語音識別的應用。因此,在這種情況下,基于特定領域的詞類擴充方法在語音識別中十分重要[3]。

        通常情況下,傳統的特定領域的語言模型流程是將一個通用的、訓練充分的通用語言模型和一個特定領域的、訓練不充分的特定領域模型通過某種方式組合成一個新的模型。因此,這種自適應技術通常也叫話題自適應或者領域自適應技術??梢允褂么罅康奈谋居柧毘梢粋€通用的語言模型M,在給定特定領域的少量語料S 后,語言模型自適應的目標就是利用M和S為該特定領域生成一個特定領域模型。用這種方法能夠取得比較好的結果[4-5]。但是,這種傳統的方法無法滿足特定領域詞表的不斷擴充和實時性。

        為了解決特定領域的詞類擴充和自適應問題,本文設計了基于分類的語言模型和HCLG[6]結合的新型解碼方法,如圖1所示。首先需要設計帶標簽的詞類的語言模型,將通用和特定領域語料中的類別用標簽替代,訓練生成基礎詞類模型,通過構圖生成相應的HCLG。同時,將類別的詞表生成有限狀態(tài)圖。最后通過標簽將兩個HCLG圖替換合并,生成自適應特定領域HCLG。此外,由于類別詞表相當于語料變動很小,可以不斷更新并快速地應用到實際的環(huán)境中。

1 帶標簽的分類語言模型

1.1 N-gram 語言模型

        N-gram模型[6]于1980年提出,是一種應用廣泛的統計語言模型。它采用Markov的假設,即每個詞的出現只與前n-1個歷史詞有關,即:

        N-gram語言模型被廣泛應用在語音識別、文本處理等各種領域。但是,N-gram語言模型存在一個問題,當一些詞匯在學習語料集中沒有出現而出現在測試集中時,則會出現數據的稀疏性問題。在特定領域的應用中,這種數據的稀疏性問題[7]尤為突出。雖然目前提出了很多平滑算法來解決此類問題。但是在特定領域中不能解決專業(yè)詞匯或者新詞的問題,如歌曲識別中的歌手名和歌曲名,在互聯網中每天都在更新且數量巨大。另一種方法是通過對單詞的聚類減小模型空間來解決數據的稀疏問題。本文基于改進的分類的語言模型來快速擴充詞匯,解決數特定領域的數據稀疏問題。

1.2 帶標簽的分類語言模型

        在上文中,特定領域中語言模型的數據稀疏問題尤為突出。而基于詞類的語言模型是對基于詞的語言模型的改進,可以解決此類問題。

  假設類別用tag表示,如“我想聽青花瓷(tag)”,即: 

 

 

        由式(4)可以看出,tag是類別標志,在學習訓練時,將語料中的類別詞用tag來替換,訓練生產的語言模型就是關于tag分類的語言模型,如圖2所示。

        目前的分類的語言模型在計算類別詞的概率時是通過平均類別的概率來計算的,在語音識別中,不能快速產生新的解碼圖結構,并且類別間的空間均分在實際的特定領域中時存在識別率降低的情況。因此,本文將帶標簽的分類的語言模型在HCLG上進行合并,提高生成新模型的速度和特定領域的語音識別率。

2 HCLG的生產和合并

2.1 HCLG構圖

        以加權有限狀態(tài)轉換器WFST(Weighted Finite State Transducer)[7-8]為框架的大詞匯量連續(xù)語音識別系統被廣泛的應用,目前很多主流的語音識別系統均采用這一框架。語音識別的解碼任務可以看成是在語言模型、發(fā)音詞典規(guī)律、上下文相關和隱馬爾可夫模型等知識源限制下,尋找一個最有可能的隱馬爾可夫模型狀態(tài)序列的過程。

        語音識別解碼就是在給定輸入特征序列下尋找最優(yōu)的次序列w,即在式(5)中尋找最優(yōu)的次序列。將式(5)進行分解,表示成不同的知識源,并將它們表示成加權有限狀態(tài)轉換器的形式,如表1所示。 

        

        語音識別中的加權有限狀態(tài)轉換器(HCLG)的整體結構如圖3所示[8-10]。

        通過分析可以看到,本文中主要是對語言模型(G)進行修改和改進。因此在下面的討論中,將HCLG簡化為G的圖結構來討論,但是G具體包含了HCLG的所有信息,只是表示上方便。

2.2 HCLG合并

        在上一小節(jié)中,對HCLG的結構進行了解析,在本小節(jié)中,對之前產生的帶標簽的分類的語言模型在HCLG進行合并。以歌曲特定領域為例分析HCLG的合并過程,其中文中的HCLG是簡化了的HCLG。

        如圖4所示是一般的HCLG圖結構,在節(jié)點間的弧上是N-gram語言模型產生的連續(xù)連接詞。在1.2小節(jié)中介紹了帶標簽的分類語言模型,如圖5所示即為產生的帶標簽的分類的HCLG,即將圖4中的歌曲名和歌手名用tag-song和tag-singer來代替。帶標簽的分類的HCLG是由圖產生的ALPA語言模型通過OpenFst 工具產生G.fst,再通過和發(fā)音詞典(L)、上下文相關音字模型(C)和隱馬爾科夫模型(H)一系列操作進行生產。

        對于類別的詞匯,需要建立字的HCLG,即將單個字做為一個詞建立ALPA,然后按照建立HCLG的流程生成類別的HCLG,如圖6所示。

       有了以上帶標簽的分類的HCLG和類別的HCLG,即可以通過替換進行圖的合并。如圖7所示,將圖5中的tag-singer和tag-song的弧用類別的HCLG來代替,在替換弧的前后加上eps弧,以使在進行圖搜索的過程中與改變之前保持一致。

3 系統實現及討論

        實驗所采用的聲學模型是由100 h的863語言庫采用Kaldi[9-10]的DNN訓練工具訓練所得。實驗采用 39 維特征參數,包括12 維Mel頻率參數(MFCC)和normalized Log能量值以及它們的一階、二階差分和倒譜均值正規(guī)化CMN(Cepstral Mean Normalization)。音素集合使用 CMU 重音詞典中定義的 39 個音素,加上一個 3 狀態(tài)的靜音模型和一個單狀態(tài)可跨越的短暫停模型。

        對于語言模型,針對歌曲特定領域,選取了兩個類別:歌曲名和歌手名。歌手列表2 000個,歌曲列表5 000個,語料是由百度歌曲知道和搜狗開放語料庫的文本混合而成(10 GB)。

        使用3個小型的測試集進行測試,每個測試集包括音樂相關的問題200句。在使用音樂的限定模型進行體驗測試,語音識別效果相對于普通的方面在3個測試集上都有所提高,并且歌手名和歌曲名的識別率得到提高,這使得在實際應用中可以較好地利用這些準確信息,例如QA系統的實體識別。

        本文提出了一種限定領域的詞類擴充方法,該方法從語言模型的改進和HCLG的合并兩方面來提高限定領域的語音識別結果。這種方法可以使得語言模型變得平滑,以適應限定領域的詞匯擴充。同時,通過HCLG的標簽替換可以減少HCLG的體積大小,從而提高搜索的效率。只要有分類的限定領域的詞表和合適的領域語料,該方法就能在語音識別中獲得不錯的識別結果。所以,這種方法在限定領域中有很多應用。不過,在本文中沒有對詞類間的聯系進行統計和使用,使得在詞類間的查找缺乏一定的選擇方案,在接下來的研究中,將會探究詞類間的關系,進一步提高限定領域的語音識別效率。

參考文獻

[1] 邢永康, 馬少平. 統計語言模型綜述[J]. 計算機科學, 2003,30(9):22-26.

[2] FEDERICO M. Efficient language model adaptation through MDI estimation[C]. Eurospeech, 1999:1583-1586. 

[3] 戴海生. 實用的家電語音控制系統的設計與實現[J]. 電子技術與應用,2005,31(9):43-45.

[4] ROSENFELD R. A maximum entropy approach to adaptive statistical language modelling[J].Computer Speech & Language, 1996,10(3):187-228.

[5] JELINEK F, MERCER R L. Interpolated estimation of Markov source parameters from sparse data[C].Pattern recognition in practice,1980:381-397.

[6] SLAVA K. Estimation of probabilities from sparse data for  the language model component of a speech recognizer[J].Acoustics, Speech and Signal Processing, IEEE Transactions on,1987,35(3):400-401.

[7] MEHRYAR M, PEREIRA F, RILEY M. Weighted finitestate transducers in speech recognition[J]. Computer Speech & Language, 2002,16(1):69-88.

[8] 肖吉.基于有限狀態(tài)圖的語音識別系統的構建[D].北京:清華大學, 2011.

[9] DARREN M, DINES J, DOSS M M, et al. Juicer: A weighted finite-state transducer speech decoder[C].Machine Learning for Multimodal Interaction, Springer Berlin Heidelberg, 2006:285-296.

[10] ALLAUZEN C, SCHALKWYK J, SKUT W,et al.Open Fst: A general and efficient weighted finite-state transducer library[C].Implementation and Application of Automata. Springer Berlin Heidelberg, 2007:11-23.

此內容為AET網站原創(chuàng),未經授權禁止轉載。