趙曉東,柳先輝
?。ㄍ瑵?jì)大學(xué) 電子與信息工程學(xué)院,上海 201804)
摘要:在線主題模型基于先時(shí)間離散后主題建模的思想,存在文本流切分帶來的模型無法平滑過渡的問題,同時(shí)時(shí)間片大小的選擇對在線話題的抽取質(zhì)量影響顯著。提出了一種新的在線短文本流主題演化模型OnlineBTOT。模型在遺傳計(jì)算方法上進(jìn)行了改良,不僅考慮時(shí)間片上的總體主題強(qiáng)度對遺傳權(quán)重的影響,也將時(shí)間片上主題強(qiáng)度的變化納入先驗(yàn)參數(shù)的計(jì)算中。同時(shí),為了得到主題強(qiáng)度在時(shí)間片上的連續(xù)變化和克服短文本的稀疏性,在單時(shí)間片上結(jié)合了TOT模型和BTM模型。通過在微博短文本語料上與OLDA模型和OBTM模型的對比實(shí)驗(yàn),證明OnlineBTOT模型能夠有效地分析在線短文本流的主題演化。
關(guān)鍵詞:主題演化;短文本;Online-BTOT;主題模型
中圖分類號(hào):TP181文獻(xiàn)標(biāo)識(shí)碼:ADOI: 10.19358/j.issn.1674-7720.2017.08.016
引用格式:林特,趙曉東,柳先輝.一種改進(jìn)的短文本流主題演化模型[J].微型機(jī)與應(yīng)用,2017,36(8):48-50,55.
0引言
隨著互聯(lián)網(wǎng)愈發(fā)傾向移動(dòng)化,新的信息交互方式,比如微博、微信、朋友圈,公眾號(hào)等社交網(wǎng)絡(luò)和自媒體已成為公眾日常生活須臾不可離的一部分。新的交互方式塑造了輕量化和高頻率的新形式的移動(dòng)交互語言——短文本。短文本規(guī)模龐大,基于其上的話題演化分析能夠有效地從冗雜的文檔集中提取話題按時(shí)間順序的發(fā)展演化過程,從而幫助公眾分析話題在強(qiáng)度和內(nèi)容上隨時(shí)間的變化。因此,短文本的話題演化研究具有重要的應(yīng)用背景。
近年來,概率主題模型在文本挖掘領(lǐng)域受到廣泛的關(guān)注和研究。BLEI D M等人提出的LDA(Latent Dirichlet Allocation)模型[1]基于詞袋假設(shè),認(rèn)為文檔是由特定的隱含主題序列生成的,奠定了主題模型的基礎(chǔ)。本質(zhì)上,傳統(tǒng)的主題模型在主題抽取方面隱式基于文本層面的詞共現(xiàn)現(xiàn)象。然而,短文本在文本層面上的稀疏性致使傳統(tǒng)的主題模型在短文本的隱含主題抽取的準(zhǔn)確性普遍不高。為了克服稀疏性, Yan Xiaohui等人提出的BTM(Biterm Topic Model)模型[2]通過顯式地對共現(xiàn)詞對建模,同時(shí)將文本層面的詞共現(xiàn)現(xiàn)象擴(kuò)大到整個(gè)文本集層面,從而克服了短文本的稀疏性,主題抽取的準(zhǔn)確性較傳統(tǒng)主題模型有顯著提高。
借助主題模型,通過引入時(shí)間信息,研究話題隨時(shí)間的演化,是當(dāng)前主題演化的研究熱點(diǎn)。研究者們提出的方法大致分為兩類。一是先主題抽取后離散,反映主題在時(shí)間上的強(qiáng)度變化的TOT(Topic Over Time)模型[3]和記錄主題內(nèi)容和強(qiáng)度演化信息的DTM(Dynamic Topic Model)模型[4]都屬于此范疇,由于需要全局建模,不適合在線文本流分析。二是按時(shí)間先離散,OLDA(OnlineLDA)模型[5]通過遺傳計(jì)算的方法將歷史分布作為當(dāng)前時(shí)間片的先驗(yàn)參數(shù),從而具備在線處理的能力。但時(shí)間片大小的選擇、遺傳權(quán)重的確定對話題抽取質(zhì)量影響顯著。
針對短文本的稀疏性問題和在線主題模型存在的問題,本文采用按時(shí)間先離散方法的同時(shí)在每個(gè)時(shí)間片上引入每篇文本的時(shí)間信息,結(jié)合BTM和TOT模型的思想建模主題強(qiáng)度在時(shí)間片上的連續(xù)變化,從主題強(qiáng)度和主題強(qiáng)度變化兩方面改善在線主題模型在主題遺傳度上的計(jì)算方法。
1相關(guān)工作
1.1BTM模型
BTM模型由Yan Xiaohui等人提出,基于共詞頻率愈大愈傾向于同一個(gè)主題的思想,不同的是,模型模擬詞對的產(chǎn)生過程,通過整合整個(gè)文檔集的詞對克服文本稀疏性。假設(shè)α和β是模型的Dirichlet先驗(yàn)。文本集詞對的產(chǎn)生過程可以描述如下:
(1)對于每個(gè)主題,從參數(shù)β的Dirichlet分布中采樣k~Dir(β),采樣K次;
(2)對于整個(gè)文本集,從參數(shù)α的Dirichlet分布中采樣θ~Dir(α),采樣1次;
(3)對于每個(gè)詞對b,從θ多項(xiàng)分布中采樣詞對主題z~Multi(θ),從k多項(xiàng)分布中采樣兩個(gè)詞wi和wj。
1.2OLDA模型
OLDA模型根據(jù)文本流的時(shí)間信息將文本流分成多個(gè)時(shí)間片,在每個(gè)時(shí)間片上采用K個(gè)主題的LDA模型對文本集建模,超參數(shù)β來源于對歷史時(shí)間片中主題詞個(gè)數(shù)估計(jì)的遺傳。歷史信息保存在三維矩陣B中,Bt-1k表示主題k在t-1時(shí)間片上的主題詞的個(gè)數(shù)向量k,并通過一個(gè)權(quán)重向量ωδ,決定歷史數(shù)據(jù)對當(dāng)前文本流St先驗(yàn)參數(shù)的影響程度。因此,時(shí)間片t上的主題詞分布的先驗(yàn)參數(shù)計(jì)算如下:
βtk=Bt-1kωδ(1)
歷史信息的遺傳使各個(gè)時(shí)間片中推斷出的主題可以自動(dòng)對齊,同時(shí)通過DJS距離度量算法:
計(jì)算鄰近時(shí)間片上的主題相似度,從而發(fā)現(xiàn)新主題。
2改進(jìn)的短文本流主題演化模型
2.1Online-BTOT模型
單時(shí)間片上,模型隱含主題的抽取不僅受詞共現(xiàn)的影響,還受到時(shí)間戳信息的影響。文本時(shí)間戳信息是連續(xù)的,為了避免離散化,時(shí)間戳信息將被標(biāo)準(zhǔn)化以滿足0~1上的Beta分布。模型模擬了短文本集中詞對和時(shí)間戳的產(chǎn)生過程。模型的概率圖模型如圖1所示。
對于一個(gè)給定的含有ND個(gè)文本的文本集,每篇文本通過詞對提取,假設(shè)總共包含NB個(gè)詞對,每個(gè)詞對的格式如bi=(wi,1,wi,2),同時(shí)對應(yīng)源文本的時(shí)間戳信息ti。假設(shè)文本集有K個(gè)主題,W個(gè)不同的詞。文本集主題對應(yīng)K維多項(xiàng)分布={θk}Kk=1,主題詞分布可以表示成K×W維的矩陣Φ,每個(gè)主題上強(qiáng)度時(shí)間滿足Beta(ψk,0,ψk,1)分布,為了簡化模型計(jì)算和隱參數(shù)估計(jì)的難度,模型采用共軛分布的思想,θ,k采樣于超參數(shù)為,的Dirichlet分布。模型的聯(lián)合概率:
2.2參數(shù)估計(jì)
與LDA模型類似,模型隱參數(shù),,Φ,Ψ無法確定,因此采用Gibbs采樣方法對隱參數(shù)做近似估計(jì)。通過推導(dǎo)可以得出zi的全條件概率:
向量的第k項(xiàng)n(k)表示詞對集合中屬于主題k的詞對個(gè)數(shù)。向量nk的第w項(xiàng)n(w)k表示主題k下的詞w出現(xiàn)的詞數(shù)。使用矩估計(jì)方法估計(jì)Ψ:
2.3遺傳計(jì)算
為了將歷史文本估計(jì)得到的主題強(qiáng)度和主題強(qiáng)度的變化都作為先驗(yàn)知識(shí)納入到當(dāng)前時(shí)間片的先驗(yàn)參數(shù)計(jì)算中,本文提出了一種新的采用積分形式的遺傳權(quán)重計(jì)算方法,概率圖模型如圖1所示?! 〖僭O(shè)當(dāng)前時(shí)間為T,定義δ×K維矩陣NT-1α為前δ個(gè)時(shí)間片的主題詞對個(gè)數(shù)矩陣,δ×K×W維矩陣NT-1β為前δ個(gè)時(shí)間片的主題詞個(gè)數(shù)矩陣,λT-1為前δ個(gè)時(shí)間片預(yù)設(shè)的權(quán)重向量,ψT-1為前δ個(gè)時(shí)間片滿足Beta分布的強(qiáng)度變化的參數(shù)矩陣,其中ψj,k表示時(shí)間片j、主題k的擬合主題強(qiáng)度變化的Beta函數(shù)的參數(shù)對(ψj,k,0,ψj,k,1)。時(shí)間片j主題k的遺傳系數(shù)可以計(jì)算如下:
3實(shí)驗(yàn)
本文通過抓取20151112至20151119新浪微博平臺(tái)上的總計(jì)6 051 518條微博作為話題演化和分析的實(shí)驗(yàn)數(shù)據(jù)集。以O(shè)LDA和OBTM(OnlineBTM)兩種主題演化模型作為參照,對本文提出的模型的有效性進(jìn)行驗(yàn)證。OBTM采用了Yan Xiaohui的開源代碼,OLDA采用了GibbsLDA++的開源實(shí)現(xiàn)。實(shí)驗(yàn)均在搭載OS X系統(tǒng),配置4 GB內(nèi)存和Intel Core i5 1.5 GHz CPU的硬件環(huán)境下進(jìn)行。實(shí)驗(yàn)參數(shù)K通過調(diào)優(yōu),選取50,初始值設(shè)定為50/K,β初始值設(shè)定為0.005,Gibbs采樣迭代頻次設(shè)定為100次,遺傳系數(shù)λ取經(jīng)驗(yàn)值0.6,同時(shí)Online-BTOT的遺傳窗口設(shè)定為4。
預(yù)處理階段:以1天為時(shí)間單元切分?jǐn)?shù)據(jù)集,通過nlpir分詞工具對微博做分詞處理,過濾@開頭的詞和停用詞,然后過濾詞數(shù)<2的微博,經(jīng)過上述處理后再去除語料中總詞頻<10的詞,最后再次過濾詞數(shù)<2的微博。通過預(yù)處理,有效微博數(shù)減少至5 441 333條,平均每天微博數(shù)量為680 166條。
3.1話題抽取的準(zhǔn)確性
本文采用了主題關(guān)聯(lián)性指標(biāo)Topic Coherence[6]衡量主題的準(zhǔn)確性。直觀得,如果一組詞屬于同一個(gè)話題,那么在同一篇文檔中,它們共現(xiàn)的頻次相應(yīng)地會(huì)較高。Topic Coherence正是基于這個(gè)思想,定義如下:
其中D(v)表示詞v至少出現(xiàn)了一次的文檔頻次,D(v,v′)表示詞v和詞v′同時(shí)至少出現(xiàn)了一次的文檔頻次,V(t)表示主題下t最可能出現(xiàn)的前M個(gè)詞組成的列表。Topic Coherence指標(biāo)越大,話題的準(zhǔn)確性越高。
為了評估所有K個(gè)主題的話題準(zhǔn)確性,每個(gè)時(shí)間片上三種模型均取K個(gè)Topic Coherence指標(biāo)的均值:
實(shí)驗(yàn)取M=5,計(jì)算得到的Topic Coherence均值如圖2所示。
圖2主題關(guān)聯(lián)性指標(biāo)Topic Coherence均值(K=50, M=5)
實(shí)驗(yàn)結(jié)果與定性分析預(yù)期的結(jié)果一致,OLDA由于稀疏性,對于短文本的話題抽取準(zhǔn)確性要明顯低于OBTM模型和Online-BTOT模型,同時(shí)隨著時(shí)間推移,Online-BTOT模型的準(zhǔn)確性普遍高于OBTM模型,這得益于Online-BTOT模型在切面上的平滑過渡和遺傳計(jì)算方法上的改良。
3.2話題內(nèi)容演化
同一個(gè)話題隨著時(shí)間的推進(jìn),話題的側(cè)重點(diǎn)會(huì)有所偏移,反映到主題模型上,就是主題詞概率分布會(huì)發(fā)生變化。表1展示了巴黎恐襲子話題IS極端組織話題在連續(xù)時(shí)間片上的概率最高的前10個(gè)詞??梢钥吹絀S極端組織話題開始時(shí)與巴黎恐襲關(guān)聯(lián),在17日開始與俄羅斯空難關(guān)聯(lián),在19日開始與中國公民被綁架殺害關(guān)聯(lián)。
通過Jensen-Shannon距離公式計(jì)算主題之間的關(guān)聯(lián)度,可以定量分析話題在內(nèi)容上的演化。圖3所示為OnlineBTOT模型從2015-11-12日開始#5主題相鄰時(shí)間片的主題距離計(jì)算結(jié)果??梢钥吹?4日的主題距離明顯高于其他時(shí)間點(diǎn),此時(shí)主題發(fā)生了變化(出現(xiàn)了巴黎公布襲擊事件)。同時(shí)可以看到在17日和19日主題距離有小幅的增長,正好對應(yīng)了前面提到的話題在內(nèi)容上的演化。
4結(jié)論
Online-BTOT模型通過引入主題強(qiáng)度在時(shí)間片上的變化特征優(yōu)化在線主題模型的遺傳權(quán)重計(jì)算,同時(shí)在單時(shí)間片上引入時(shí)間信息參與主題建模,提高了話題抽取的準(zhǔn)確度,有效改善了時(shí)間片大小選擇不當(dāng)和文本流切分造成的在線話題抽取質(zhì)量不高的問題。模型基于Gibbs采樣算法,如何將模型拓展到多線程環(huán)境是下一步要努力的方向。
參考文獻(xiàn)
[1] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3): 993-1022.
?。?] Yan Xiaohui, Guo Jiafeng, Lan Yanyan, et al. A biterm topic model for short texts[C].Proceedings of the 22nd International Conference on World Wide Web, ACM, 2013: 14451456.[3] Wang Xuerui, MCCALLUM A. Topics over time: a nonMarkov continuoustime model of topical trends[C].Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM, 2006: 424-433.
?。?] BLEI D M, LAFFERTY J D. Dynamic topic models[C].Proceedings of the 23rd International Conference on Machine Learning,ACM, 2006: 113-120.
?。?] AlSUMAIT L, BARBAR D, DOMENICONI C. Online LDA: adaptive topic models for mining text streams with applications to topic detection and tracking[C].2008 Eighth IEEE International Conference on Data Mining,IEEE,2008: 3-12.
?。?] MIMNO D, WALLACH H M, TALLEY E, et al. Optimizing semantic coherence in topic models[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, 2011: 262-272.