文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.179024
中文引用格式: 李剛,黃永峰. 一種面向微博文本的命名實(shí)體識(shí)別方法[J].電子技術(shù)應(yīng)用,2018,44(1):118-120,124.
英文引用格式: Li Gang,Huang Yongfeng. An approach to named entity recognition towards micro-blog[J]. Application of Electronic Technique,2018,44(1):118-120,124.
0 引言
命名實(shí)體識(shí)別(Named Entity Recognition)是指識(shí)別文本中的各種實(shí)體,如人名、地名、機(jī)構(gòu)名或其他特有標(biāo)識(shí)[1],是自然語(yǔ)言處理(Natural Language Processing,NLP)中非常重要的一項(xiàng)基礎(chǔ)性技術(shù)。近年來(lái),Twitter、新浪微博等新型社交平臺(tái)發(fā)展迅速,成為命名實(shí)體識(shí)別的新方向。RITTER A[2]等人設(shè)計(jì)了一個(gè)應(yīng)用于Twitter上的T-NER系統(tǒng),重構(gòu)了命名實(shí)體識(shí)別的流程。TURIAN J等人[3]利用半監(jiān)督的系統(tǒng)進(jìn)行命名實(shí)體識(shí)別,大大減少了識(shí)別的成本。Liu Xiaohua等人[4]在一個(gè)半監(jiān)督的框架下把K近鄰分類(lèi)器和CRF模型結(jié)合起來(lái),識(shí)別Twitter中的命名實(shí)體,取得了較好的效果。
上述工作都是基于Twitter的,沒(méi)有考慮中文的深層語(yǔ)義,且多使用有限自建數(shù)據(jù)集,沒(méi)有考慮人工標(biāo)記的代價(jià)和不足,因此需要加以改進(jìn)。本文研究面向中文微博的命名實(shí)體識(shí)別,將識(shí)別視為一個(gè)序列標(biāo)注問(wèn)題,通過(guò)改進(jìn)的基于概率模型的算法優(yōu)化識(shí)別效果。針對(duì)微博文本短小、信息量少和文體不正規(guī)、語(yǔ)意含糊的特點(diǎn),引入外部數(shù)據(jù)源提取深層語(yǔ)義特征;針對(duì)微博數(shù)據(jù)集人工處理代價(jià)大的問(wèn)題,引入主動(dòng)學(xué)習(xí)算法,以較小的人工代價(jià)獲得識(shí)別效果的提升。
1 面向微博的命名實(shí)體識(shí)別方法
參照CoNLL2003的標(biāo)準(zhǔn),給定一條微博,需要識(shí)別出其中的人名、地名、機(jī)構(gòu)名和其他實(shí)體共4類(lèi)命名實(shí)體[5]。
研究的基礎(chǔ)模型采用了CRF[6]模型。
1.1 特征選取
基礎(chǔ)特征采用當(dāng)前詞和前后位置詞的詞型和詞性特征,這也是大多數(shù)CRF模型會(huì)采用的特征。由此生成的模型作為基礎(chǔ)模型,對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果作為基線。
1.1.1 主題特征
(Latent Dirichlet Allocation,LDA)模型[7]是一種無(wú)監(jiān)督的概率主題模型。每個(gè)主題下都分布著出現(xiàn)概率較高的詞語(yǔ),這些詞都與這個(gè)主題有很強(qiáng)的相關(guān)性,利用這種相關(guān)性能在一定程度上解決一詞多義、同義詞等問(wèn)題。模型的訓(xùn)練使用了外部數(shù)據(jù)源,主題個(gè)數(shù)k可以事先指定。
獲得LDA模型后,對(duì)于給定k個(gè)主題,通過(guò)p(w|t),將每個(gè)主題視為一個(gè)特征,將訓(xùn)練集中的每個(gè)詞看作是由k個(gè)特征表示的K維向量,則每個(gè)詞都可以表示成一個(gè)k維向量,即:
其中,vi表示第i個(gè)詞的向量,λk表示該詞在第k個(gè)主題上的權(quán)重,N是詞表的大小。
1.1.2 詞向量特征
詞向量源于HINTON G E[8]提出的Distributed Representation。一個(gè)流行的詞向量訓(xùn)練工具是word2vec,由MIKOLOV T[9]于2013年提出。word2vec能把詞映射到d維的向量空間,用向量空間的相似度表示文本語(yǔ)義上的相似度,有利于解決微博語(yǔ)義含糊的問(wèn)題。
詞向量一般有200~500維,如果直接將詞向量作為特征引入CRF模型,則計(jì)算量過(guò)大。這里需要利用的是其相似性,因此可以用聚類(lèi)的方法進(jìn)行簡(jiǎn)化。實(shí)驗(yàn)中選擇將詞語(yǔ)表示為200~500維的詞向量,再利用k-means進(jìn)行聚類(lèi),將類(lèi)別作為特征輸入模型。特別需要指出的是,相比采用單一的聚類(lèi)結(jié)果,更好的辦法是多層聚類(lèi)(multi-layer cluster)。
1.2 模型強(qiáng)化
人工處理微博語(yǔ)料人工處理代價(jià)高昂,為了以最小的人工代價(jià)獲得最大的系統(tǒng)性能提升,研究采用了主動(dòng)學(xué)習(xí)算法。主動(dòng)學(xué)習(xí)算法包含兩部分,一個(gè)是分類(lèi)器,另一個(gè)是抽樣策略[10]。分類(lèi)器采用前文所述的改進(jìn)型CRF模型。抽樣策略可采用如下方法。
抽樣不確定度是一中常見(jiàn)的衡量樣本信息含量的方法,在序列標(biāo)注模型中,可以根據(jù)最小置信度(Least Confidence)φLC(x)來(lái)確定抽樣不確定度。
其中,x表示一個(gè)樣本,y*是對(duì)應(yīng)概率最大的標(biāo)記。對(duì)于一個(gè)訓(xùn)練好的CRF模型,可以在對(duì)每條微博進(jìn)行標(biāo)記的同時(shí)輸出對(duì)應(yīng)概率P?,F(xiàn)給出整個(gè)算法框架。
算法1:基于置信度的主動(dòng)學(xué)習(xí)算法
輸入:有標(biāo)記語(yǔ)料DL、未標(biāo)記語(yǔ)料DU
輸出:分類(lèi)器C
用DL訓(xùn)練分類(lèi)器C(CRF classifier)
重復(fù):
2 實(shí)驗(yàn)
實(shí)驗(yàn)用到了3個(gè)數(shù)據(jù)集,分別是訓(xùn)練集、擴(kuò)展集和測(cè)試集。其中3 000條標(biāo)記語(yǔ)料作為訓(xùn)練集,2 000條標(biāo)記語(yǔ)料作為測(cè)試集。另外2 000條作為擴(kuò)展集用于主動(dòng)學(xué)習(xí),不需標(biāo)注。另有500萬(wàn)條經(jīng)過(guò)除重去噪的微博作為外部源,分別用于LDA模型訓(xùn)練和詞向量模型訓(xùn)練,供抽取外部特征使用。
2.1 評(píng)價(jià)標(biāo)準(zhǔn)
本文采用的評(píng)價(jià)標(biāo)準(zhǔn)包括準(zhǔn)確率P(Precision)、召回率R(Recall)和F1值(F1-measure)3個(gè)指標(biāo)。F1是準(zhǔn)確率和召回率的調(diào)和平均值,是一個(gè)綜合性的指標(biāo)。
2.2 實(shí)驗(yàn)數(shù)據(jù)及分析
(1)使用訓(xùn)練集提取基礎(chǔ)特征,建立基礎(chǔ)模型,在測(cè)試集上進(jìn)行評(píng)估。結(jié)果如表1所示。此結(jié)果將作為基線與后續(xù)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。
(2)引入外部特征進(jìn)行了多組實(shí)驗(yàn)。圖1左側(cè)是引入主題特征后的提升效果,雖然有效果但不明顯。圖1右側(cè)是將400維的詞向量進(jìn)行聚類(lèi)后作為特征引入模型的效果。F1值在聚類(lèi)個(gè)數(shù)為400時(shí)達(dá)到了63.96%,較基線有明顯提升。究其原因,主要是詞向量的分量中隱含了豐富的上下文語(yǔ)法和語(yǔ)義信息,而LDA模型內(nèi)部采用了詞袋模型,僅考慮了詞的共現(xiàn)關(guān)系而沒(méi)有考慮上下文關(guān)系,這樣簡(jiǎn)化了模型,但不可避免地帶來(lái)了信息的損失。
多層聚類(lèi)的實(shí)驗(yàn)效果如圖2所示,每個(gè)維度下前4個(gè)柱圖表示單層聚類(lèi)(分別是聚成200、300、400、500個(gè)類(lèi)簇)時(shí)的效果,最后一個(gè)表示同時(shí)使用前4個(gè)聚類(lèi)結(jié)果作為多層聚類(lèi)時(shí)的效果,顯然效果比單層聚類(lèi)更好。
同時(shí)將所有的外部特征添加到基礎(chǔ)模型進(jìn)行實(shí)驗(yàn),F(xiàn)1值提高到65.41%。
(3)采用主動(dòng)學(xué)習(xí)的方法進(jìn)一步強(qiáng)化模型。提升效果如圖3所示。詳細(xì)的數(shù)據(jù)參見(jiàn)表2。曲線Model_ba表示僅用外部特征而不進(jìn)行主動(dòng)學(xué)習(xí)的模型效果。曲線Model_la表示把一次性把包括訓(xùn)練集DL和擴(kuò)展集DU在內(nèi)的所有語(yǔ)料都進(jìn)行標(biāo)記(label all)并用于模型訓(xùn)練。Model_al1、Model_al2和model_al3是使用主動(dòng)學(xué)習(xí)策略但閾值不同的模型。總體看,無(wú)論是取哪個(gè)閾值,相比不進(jìn)行主動(dòng)學(xué)習(xí),主動(dòng)學(xué)習(xí)都能提高F1值,且收斂速度很快。
表2進(jìn)一步說(shuō)明了主動(dòng)學(xué)習(xí)的優(yōu)點(diǎn)。Model_la需要標(biāo)記微博2 080條,約9萬(wàn)個(gè)詞,人工代價(jià)太大。相比之下,3個(gè)主動(dòng)學(xué)習(xí)模型能明顯降低人工標(biāo)記量。其中Model_al2比Model_al3的F1值要高0.25%,標(biāo)記量?jī)H提升了12.9%;而Model_al1與Model_al2相比,F(xiàn)1值僅提升了0.1%,但代價(jià)是標(biāo)記量提升了17%,且多迭代了兩次。綜合考慮,取Model_al2作為最終的實(shí)驗(yàn)結(jié)果。此時(shí)僅需標(biāo)記457條微博,約37 000個(gè)標(biāo)記,F(xiàn)1值達(dá)到67.23%,相較最初的模型提升4.54%。
3 結(jié)語(yǔ)
本文提出了一種面向中文微博的命名實(shí)體識(shí)別方法,先引入外部特征訓(xùn)練CRF模型,再采用主動(dòng)學(xué)習(xí)算法強(qiáng)化訓(xùn)練結(jié)果。實(shí)際工作中發(fā)現(xiàn),中文分詞效果不佳影響了后續(xù)的工作,主動(dòng)學(xué)習(xí)仍然引入了二次標(biāo)記,不利于大規(guī)模的識(shí)別任務(wù)。這些都需要在以后的工作中加以改進(jìn)。
參考文獻(xiàn)
[1] NADEAU D,SEKINE S.A survey of named entity recognition and classification[J].Lingvisticae Investigationes,2007,30(1):3-26.
[2] RITTER A,CLARK S,ETZIONI O.Named entity recognition in tweets: an experimental study[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2011:1524-1534.
[3] TURIAN J,RATINOV L,BENGIO Y.Word representations:a simple and general method for semi-supervised learning[C].Proceedings of the 48th annual meeting of the association for computational linguistics.Association for Computational Linguistics,2010:384-394.
[4] Liu Xiaohua,Zhang Shaodian,Wei Furu,et al.Recognizing named entities in tweets[C].Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies-Volume 1. Association for Computational Linguistics,2011:359-367.
[5] TJONG KIM SANG E F,DE MEULDER F.Introduction to the CoNLL-2003 shared task:Language-independent named entity recognition[C].Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Vol-ume 4.Association for Computational Linguistics,2003:142-147.
[6] LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C].Eighteenth International Conference on Machine Learning.Morgan Kaufmann Publishers Inc.,2001:282-289.
[7] BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.
[8] HINTON G E.Learning distributed representations of concepts[C].Proceedings of the Eighth Annual Conference of the Cognitive Science Society,1986,1:12.
[9] MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed representations of words and phrases and their compositionality[C].Advances in Neural Information Processing Systems,2013:3111-3119.
[10] WU Y,KOZINTSEV I,BOUGUET J Y,et al.Sampling strategies for active learning in personal photo retrieval[C].Multimedia and Expo,2006 IEEE International Conference on.IEEE,2006:529-532.