文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.211437
中文引用格式: 楊政,尹春林,蔡迪,等. 一種基于成詞率和譜聚類的電力文本領域詞發(fā)現(xiàn)方法[J].電子技術應用,2021,47(10):29-32,37.
英文引用格式: Yang Zheng,Yin Chunlin,Cai Di,et al. A power text domain word discovery method based on word formation rate and spectral clustering[J]. Application of Electronic Technique,2021,47(10):29-32,37.
0 引言
針對特定領域的文本數(shù)據(jù),領域詞的詞庫構建是最為關鍵的任務之一。傳統(tǒng)領域詞發(fā)現(xiàn)方法依賴互信息或鄰接熵得到候選詞集,進而利用word2vec進行詞向量轉化、K-means進行聚類[1],最終得到行業(yè)領域詞。傳統(tǒng)方法對詞語組合規(guī)律運用得不夠全面,因此這類方法篩選的候選詞集存在諸多不合理的詞語。領域詞發(fā)現(xiàn)分為候選詞集篩選與字符串過濾兩個步驟。
在候選詞集篩選方面,領域詞發(fā)現(xiàn)算法主要是基于詞語統(tǒng)計特性的無監(jiān)督方法或序列模式機器學習的有監(jiān)督算法。基于無監(jiān)督的方法中,互信息和凝固度是最常見的用來篩選詞語的度量,劉偉童等[2]提出使用互信息初步篩選詞集,隨后用鄰接熵對詞集進行再過濾的方法。劉昱彤等[3]使用改進的類Apriori算法,通過組合、統(tǒng)計頻率、過濾3個步驟來篩選候選詞集。杜麗萍等[4]提出利用改進的互信息,同時結合一定的構詞規(guī)則篩選候選詞集。無監(jiān)督算法泛化性優(yōu)良,但缺少規(guī)則,會遺留有較多垃圾串與非領域詞?;诒O(jiān)督的機器學習詞集篩選方法有馬建紅等[5]提出的基于CNN和LSTM抽取詞特征,隨后使用半馬爾科夫條件隨機場(SCRF)來識別詞語邊界。Fu Guohong等[6]在隱馬爾可夫模型(HMM)的框架下運用命名實體識別(NER)的思路,同時結合上下文篩選出候選詞集。陳飛等[7]提出運用條件隨機場來判斷分詞的詞匯邊界是否為候選詞邊界的方法。監(jiān)督方法通常需要大量標注數(shù)據(jù)進行訓練,耗費高額的人工成本。此外,部分方法選擇基于純規(guī)則的構詞法[8-9](即漢語成詞規(guī)則)與一些領域先驗知識結合,進行候選詞集的篩選。這種方式雖然準確性相對較高,但是規(guī)則維護復雜,基本無跨域能力。
本文詳細內容請下載:http://ihrv.cn/resource/share/2000003777。
作者信息:
楊 政1,尹春林1,蔡 迪2,李慧斌2
(1.云南電網有限責任公司電力科學研究院,云南 昆明650217;2.西安交通大學 數(shù)學與統(tǒng)計學院,陜西 西安710049)