文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.179024
中文引用格式: 李剛,黃永峰. 一種面向微博文本的命名實體識別方法[J].電子技術(shù)應(yīng)用,2018,44(1):118-120,124.
英文引用格式: Li Gang,Huang Yongfeng. An approach to named entity recognition towards micro-blog[J]. Application of Electronic Technique,2018,44(1):118-120,124.
0 引言
命名實體識別(Named Entity Recognition)是指識別文本中的各種實體,如人名、地名、機構(gòu)名或其他特有標識[1],是自然語言處理(Natural Language Processing,NLP)中非常重要的一項基礎(chǔ)性技術(shù)。近年來,Twitter、新浪微博等新型社交平臺發(fā)展迅速,成為命名實體識別的新方向。RITTER A[2]等人設(shè)計了一個應(yīng)用于Twitter上的T-NER系統(tǒng),重構(gòu)了命名實體識別的流程。TURIAN J等人[3]利用半監(jiān)督的系統(tǒng)進行命名實體識別,大大減少了識別的成本。Liu Xiaohua等人[4]在一個半監(jiān)督的框架下把K近鄰分類器和CRF模型結(jié)合起來,識別Twitter中的命名實體,取得了較好的效果。
上述工作都是基于Twitter的,沒有考慮中文的深層語義,且多使用有限自建數(shù)據(jù)集,沒有考慮人工標記的代價和不足,因此需要加以改進。本文研究面向中文微博的命名實體識別,將識別視為一個序列標注問題,通過改進的基于概率模型的算法優(yōu)化識別效果。針對微博文本短小、信息量少和文體不正規(guī)、語意含糊的特點,引入外部數(shù)據(jù)源提取深層語義特征;針對微博數(shù)據(jù)集人工處理代價大的問題,引入主動學習算法,以較小的人工代價獲得識別效果的提升。
1 面向微博的命名實體識別方法
參照CoNLL2003的標準,給定一條微博,需要識別出其中的人名、地名、機構(gòu)名和其他實體共4類命名實體[5]。
研究的基礎(chǔ)模型采用了CRF[6]模型。
1.1 特征選取
基礎(chǔ)特征采用當前詞和前后位置詞的詞型和詞性特征,這也是大多數(shù)CRF模型會采用的特征。由此生成的模型作為基礎(chǔ)模型,對應(yīng)的實驗結(jié)果作為基線。
1.1.1 主題特征
(Latent Dirichlet Allocation,LDA)模型[7]是一種無監(jiān)督的概率主題模型。每個主題下都分布著出現(xiàn)概率較高的詞語,這些詞都與這個主題有很強的相關(guān)性,利用這種相關(guān)性能在一定程度上解決一詞多義、同義詞等問題。模型的訓(xùn)練使用了外部數(shù)據(jù)源,主題個數(shù)k可以事先指定。
獲得LDA模型后,對于給定k個主題,通過p(w|t),將每個主題視為一個特征,將訓(xùn)練集中的每個詞看作是由k個特征表示的K維向量,則每個詞都可以表示成一個k維向量,即:
其中,vi表示第i個詞的向量,λk表示該詞在第k個主題上的權(quán)重,N是詞表的大小。
1.1.2 詞向量特征
詞向量源于HINTON G E[8]提出的Distributed Representation。一個流行的詞向量訓(xùn)練工具是word2vec,由MIKOLOV T[9]于2013年提出。word2vec能把詞映射到d維的向量空間,用向量空間的相似度表示文本語義上的相似度,有利于解決微博語義含糊的問題。
詞向量一般有200~500維,如果直接將詞向量作為特征引入CRF模型,則計算量過大。這里需要利用的是其相似性,因此可以用聚類的方法進行簡化。實驗中選擇將詞語表示為200~500維的詞向量,再利用k-means進行聚類,將類別作為特征輸入模型。特別需要指出的是,相比采用單一的聚類結(jié)果,更好的辦法是多層聚類(multi-layer cluster)。
1.2 模型強化
人工處理微博語料人工處理代價高昂,為了以最小的人工代價獲得最大的系統(tǒng)性能提升,研究采用了主動學習算法。主動學習算法包含兩部分,一個是分類器,另一個是抽樣策略[10]。分類器采用前文所述的改進型CRF模型。抽樣策略可采用如下方法。
抽樣不確定度是一中常見的衡量樣本信息含量的方法,在序列標注模型中,可以根據(jù)最小置信度(Least Confidence)φLC(x)來確定抽樣不確定度。
其中,x表示一個樣本,y*是對應(yīng)概率最大的標記。對于一個訓(xùn)練好的CRF模型,可以在對每條微博進行標記的同時輸出對應(yīng)概率P?,F(xiàn)給出整個算法框架。
算法1:基于置信度的主動學習算法
輸入:有標記語料DL、未標記語料DU
輸出:分類器C
用DL訓(xùn)練分類器C(CRF classifier)
重復(fù):
2 實驗
實驗用到了3個數(shù)據(jù)集,分別是訓(xùn)練集、擴展集和測試集。其中3 000條標記語料作為訓(xùn)練集,2 000條標記語料作為測試集。另外2 000條作為擴展集用于主動學習,不需標注。另有500萬條經(jīng)過除重去噪的微博作為外部源,分別用于LDA模型訓(xùn)練和詞向量模型訓(xùn)練,供抽取外部特征使用。
2.1 評價標準
本文采用的評價標準包括準確率P(Precision)、召回率R(Recall)和F1值(F1-measure)3個指標。F1是準確率和召回率的調(diào)和平均值,是一個綜合性的指標。
2.2 實驗數(shù)據(jù)及分析
(1)使用訓(xùn)練集提取基礎(chǔ)特征,建立基礎(chǔ)模型,在測試集上進行評估。結(jié)果如表1所示。此結(jié)果將作為基線與后續(xù)實驗結(jié)果進行對比。
(2)引入外部特征進行了多組實驗。圖1左側(cè)是引入主題特征后的提升效果,雖然有效果但不明顯。圖1右側(cè)是將400維的詞向量進行聚類后作為特征引入模型的效果。F1值在聚類個數(shù)為400時達到了63.96%,較基線有明顯提升。究其原因,主要是詞向量的分量中隱含了豐富的上下文語法和語義信息,而LDA模型內(nèi)部采用了詞袋模型,僅考慮了詞的共現(xiàn)關(guān)系而沒有考慮上下文關(guān)系,這樣簡化了模型,但不可避免地帶來了信息的損失。
多層聚類的實驗效果如圖2所示,每個維度下前4個柱圖表示單層聚類(分別是聚成200、300、400、500個類簇)時的效果,最后一個表示同時使用前4個聚類結(jié)果作為多層聚類時的效果,顯然效果比單層聚類更好。
同時將所有的外部特征添加到基礎(chǔ)模型進行實驗,F(xiàn)1值提高到65.41%。
(3)采用主動學習的方法進一步強化模型。提升效果如圖3所示。詳細的數(shù)據(jù)參見表2。曲線Model_ba表示僅用外部特征而不進行主動學習的模型效果。曲線Model_la表示把一次性把包括訓(xùn)練集DL和擴展集DU在內(nèi)的所有語料都進行標記(label all)并用于模型訓(xùn)練。Model_al1、Model_al2和model_al3是使用主動學習策略但閾值不同的模型。總體看,無論是取哪個閾值,相比不進行主動學習,主動學習都能提高F1值,且收斂速度很快。
表2進一步說明了主動學習的優(yōu)點。Model_la需要標記微博2 080條,約9萬個詞,人工代價太大。相比之下,3個主動學習模型能明顯降低人工標記量。其中Model_al2比Model_al3的F1值要高0.25%,標記量僅提升了12.9%;而Model_al1與Model_al2相比,F(xiàn)1值僅提升了0.1%,但代價是標記量提升了17%,且多迭代了兩次。綜合考慮,取Model_al2作為最終的實驗結(jié)果。此時僅需標記457條微博,約37 000個標記,F(xiàn)1值達到67.23%,相較最初的模型提升4.54%。
3 結(jié)語
本文提出了一種面向中文微博的命名實體識別方法,先引入外部特征訓(xùn)練CRF模型,再采用主動學習算法強化訓(xùn)練結(jié)果。實際工作中發(fā)現(xiàn),中文分詞效果不佳影響了后續(xù)的工作,主動學習仍然引入了二次標記,不利于大規(guī)模的識別任務(wù)。這些都需要在以后的工作中加以改進。
參考文獻
[1] NADEAU D,SEKINE S.A survey of named entity recognition and classification[J].Lingvisticae Investigationes,2007,30(1):3-26.
[2] RITTER A,CLARK S,ETZIONI O.Named entity recognition in tweets: an experimental study[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2011:1524-1534.
[3] TURIAN J,RATINOV L,BENGIO Y.Word representations:a simple and general method for semi-supervised learning[C].Proceedings of the 48th annual meeting of the association for computational linguistics.Association for Computational Linguistics,2010:384-394.
[4] Liu Xiaohua,Zhang Shaodian,Wei Furu,et al.Recognizing named entities in tweets[C].Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies-Volume 1. Association for Computational Linguistics,2011:359-367.
[5] TJONG KIM SANG E F,DE MEULDER F.Introduction to the CoNLL-2003 shared task:Language-independent named entity recognition[C].Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Vol-ume 4.Association for Computational Linguistics,2003:142-147.
[6] LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C].Eighteenth International Conference on Machine Learning.Morgan Kaufmann Publishers Inc.,2001:282-289.
[7] BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.
[8] HINTON G E.Learning distributed representations of concepts[C].Proceedings of the Eighth Annual Conference of the Cognitive Science Society,1986,1:12.
[9] MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed representations of words and phrases and their compositionality[C].Advances in Neural Information Processing Systems,2013:3111-3119.
[10] WU Y,KOZINTSEV I,BOUGUET J Y,et al.Sampling strategies for active learning in personal photo retrieval[C].Multimedia and Expo,2006 IEEE International Conference on.IEEE,2006:529-532.