少妇又紧又色又爽又刺激视频,2021国产麻豆剧传媒电影,在线a亚洲v天堂网2019无码

一種改進的短文本流主題演化模型

日期： 2017-05-27

作者：林特，趙曉東，柳先輝

來源：2017年微型機與應(yīng)用第8期

關(guān)鍵詞： 主題演化短文本 Online-BTOT 主題模型

　　趙曉東，柳先輝

　?。ㄍ瑵髮W 電子與信息工程學院，上海 201804）

摘要：在線主題模型基于先時間離散后主題建模的思想，存在文本流切分帶來的模型無法平滑過渡的問題，同時時間片大小的選擇對在線話題的抽取質(zhì)量影響顯著。提出了一種新的在線短文本流主題演化模型OnlineBTOT。模型在遺傳計算方法上進行了改良，不僅考慮時間片上的總體主題強度對遺傳權(quán)重的影響，也將時間片上主題強度的變化納入先驗參數(shù)的計算中。同時，為了得到主題強度在時間片上的連續(xù)變化和克服短文本的稀疏性，在單時間片上結(jié)合了TOT模型和BTM模型。通過在微博短文本語料上與OLDA模型和OBTM模型的對比實驗，證明OnlineBTOT模型能夠有效地分析在線短文本流的主題演化。

　　關(guān)鍵詞：主題演化；短文本；Online-BTOT；主題模型

　　中圖分類號：TP181文獻標識碼：ADOI： 10.19358/j.issn.1674-7720.2017.08.016

　　引用格式：林特，趙曉東，柳先輝.一種改進的短文本流主題演化模型［J］.微型機與應(yīng)用，2017,36（8）：48-50，55.

0引言

　　隨著互聯(lián)網(wǎng)愈發(fā)傾向移動化，新的信息交互方式，比如微博、微信、朋友圈，公眾號等社交網(wǎng)絡(luò)和自媒體已成為公眾日常生活須臾不可離的一部分。新的交互方式塑造了輕量化和高頻率的新形式的移動交互語言——短文本。短文本規(guī)模龐大，基于其上的話題演化分析能夠有效地從冗雜的文檔集中提取話題按時間順序的發(fā)展演化過程，從而幫助公眾分析話題在強度和內(nèi)容上隨時間的變化。因此，短文本的話題演化研究具有重要的應(yīng)用背景。

　　近年來，概率主題模型在文本挖掘領(lǐng)域受到廣泛的關(guān)注和研究。BLEI D M等人提出的LDA（Latent Dirichlet Allocation）模型［1］基于詞袋假設(shè)，認為文檔是由特定的隱含主題序列生成的，奠定了主題模型的基礎(chǔ)。本質(zhì)上，傳統(tǒng)的主題模型在主題抽取方面隱式基于文本層面的詞共現(xiàn)現(xiàn)象。然而，短文本在文本層面上的稀疏性致使傳統(tǒng)的主題模型在短文本的隱含主題抽取的準確性普遍不高。為了克服稀疏性， Yan Xiaohui等人提出的BTM（Biterm Topic Model）模型［2］通過顯式地對共現(xiàn)詞對建模，同時將文本層面的詞共現(xiàn)現(xiàn)象擴大到整個文本集層面，從而克服了短文本的稀疏性，主題抽取的準確性較傳統(tǒng)主題模型有顯著提高。

　　借助主題模型，通過引入時間信息，研究話題隨時間的演化，是當前主題演化的研究熱點。研究者們提出的方法大致分為兩類。一是先主題抽取后離散，反映主題在時間上的強度變化的TOT（Topic Over Time）模型［3］和記錄主題內(nèi)容和強度演化信息的DTM（Dynamic Topic Model）模型［4］都屬于此范疇，由于需要全局建模，不適合在線文本流分析。二是按時間先離散，OLDA（OnlineLDA）模型［5］通過遺傳計算的方法將歷史分布作為當前時間片的先驗參數(shù)，從而具備在線處理的能力。但時間片大小的選擇、遺傳權(quán)重的確定對話題抽取質(zhì)量影響顯著。

　　針對短文本的稀疏性問題和在線主題模型存在的問題，本文采用按時間先離散方法的同時在每個時間片上引入每篇文本的時間信息，結(jié)合BTM和TOT模型的思想建模主題強度在時間片上的連續(xù)變化，從主題強度和主題強度變化兩方面改善在線主題模型在主題遺傳度上的計算方法。

1相關(guān)工作

　　1.1BTM模型

　　BTM模型由Yan Xiaohui等人提出，基于共詞頻率愈大愈傾向于同一個主題的思想，不同的是，模型模擬詞對的產(chǎn)生過程，通過整合整個文檔集的詞對克服文本稀疏性。假設(shè)α和β是模型的Dirichlet先驗。文本集詞對的產(chǎn)生過程可以描述如下：

　　(1)對于每個主題，從參數(shù)β的Dirichlet分布中采樣k~Dir(β)，采樣K次；

　　(2)對于整個文本集，從參數(shù)α的Dirichlet分布中采樣θ~Dir(α)，采樣1次；

　　(3)對于每個詞對b，從θ多項分布中采樣詞對主題z~Multi(θ)，從k多項分布中采樣兩個詞wi和wj。

　　1.2OLDA模型

　　OLDA模型根據(jù)文本流的時間信息將文本流分成多個時間片，在每個時間片上采用K個主題的LDA模型對文本集建模，超參數(shù)β來源于對歷史時間片中主題詞個數(shù)估計的遺傳。歷史信息保存在三維矩陣B中，Bt-1k表示主題k在t-1時間片上的主題詞的個數(shù)向量k，并通過一個權(quán)重向量ωδ，決定歷史數(shù)據(jù)對當前文本流St先驗參數(shù)的影響程度。因此，時間片t上的主題詞分布的先驗參數(shù)計算如下：

　　βtk=Bt-1kωδ（1）

　　歷史信息的遺傳使各個時間片中推斷出的主題可以自動對齊，同時通過DJS距離度量算法：

　　 `1OKXB_HB]IV_CS4W@8WSAR.png

　　計算鄰近時間片上的主題相似度，從而發(fā)現(xiàn)新主題。

2改進的短文本流主題演化模型

　　2.1Online-BTOT模型

　　單時間片上，模型隱含主題的抽取不僅受詞共現(xiàn)的影響，還受到時間戳信息的影響。文本時間戳信息是連續(xù)的，為了避免離散化，時間戳信息將被標準化以滿足0~1上的Beta分布。模型模擬了短文本集中詞對和時間戳的產(chǎn)生過程。模型的概率圖模型如圖1所示。

　　對于一個給定的含有ND個文本的文本集，每篇文本通過詞對提取，假設(shè)總共包含NB個詞對，每個詞對的格式如bi=(wi,1,wi,2)，同時對應(yīng)源文本的時間戳信息ti。假設(shè)文本集有K個主題，W個不同的詞。文本集主題對應(yīng)K維多項分布={θk}Kk=1，主題詞分布可以表示成K×W維的矩陣Φ，每個主題上強度時間滿足Beta(ψk,0,ψk,1)分布，為了簡化模型計算和隱參數(shù)估計的難度，模型采用共軛分布的思想，θ，k采樣于超參數(shù)為，的Dirichlet分布。模型的聯(lián)合概率：

　　 $$JE{)YUT2%)NT37_$T]%RN8.png$

　　2.2參數(shù)估計

　　與LDA模型類似，模型隱參數(shù),,Φ,Ψ無法確定，因此采用Gibbs采樣方法對隱參數(shù)做近似估計。通過推導(dǎo)可以得出zi的全條件概率：

　　 Z8L@_ABWDT(4F74@2}33_}2.png

　　向量的第k項n(k)表示詞對集合中屬于主題k的詞對個數(shù)。向量nk的第w項n(w)k表示主題k下的詞w出現(xiàn)的詞數(shù)。使用矩估計方法估計Ψ：

　　 $T{@BD(_)SL3$2$F$~[KU@P9.png$

　　2.3遺傳計算

　　為了將歷史文本估計得到的主題強度和主題強度的變化都作為先驗知識納入到當前時間片的先驗參數(shù)計算中，本文提出了一種新的采用積分形式的遺傳權(quán)重計算方法，概率圖模型如圖1所示。　　假設(shè)當前時間為T,定義δ×K維矩陣NT-1α為前δ個時間片的主題詞對個數(shù)矩陣，δ×K×W維矩陣NT-1β為前δ個時間片的主題詞個數(shù)矩陣，λT-1為前δ個時間片預(yù)設(shè)的權(quán)重向量，ψT-1為前δ個時間片滿足Beta分布的強度變化的參數(shù)矩陣，其中ψj,k表示時間片j、主題k的擬合主題強度變化的Beta函數(shù)的參數(shù)對(ψj,k,0,ψj,k,1)。時間片j主題k的遺傳系數(shù)可以計算如下：

　　 `]T${R73N95TYEXJHYG}@(J.png

3實驗

　　本文通過抓取20151112至20151119新浪微博平臺上的總計6 051 518條微博作為話題演化和分析的實驗數(shù)據(jù)集。以O(shè)LDA和OBTM（OnlineBTM）兩種主題演化模型作為參照，對本文提出的模型的有效性進行驗證。OBTM采用了Yan Xiaohui的開源代碼，OLDA采用了GibbsLDA++的開源實現(xiàn)。實驗均在搭載OS X系統(tǒng)，配置4 GB內(nèi)存和Intel Core i5 1.5 GHz CPU的硬件環(huán)境下進行。實驗參數(shù)K通過調(diào)優(yōu)，選取50，初始值設(shè)定為50/K，β初始值設(shè)定為0.005，Gibbs采樣迭代頻次設(shè)定為100次，遺傳系數(shù)λ取經(jīng)驗值0.6，同時Online-BTOT的遺傳窗口設(shè)定為4。

　　預(yù)處理階段：以1天為時間單元切分數(shù)據(jù)集，通過nlpir分詞工具對微博做分詞處理，過濾@開頭的詞和停用詞，然后過濾詞數(shù)<2的微博，經(jīng)過上述處理后再去除語料中總詞頻<10的詞，最后再次過濾詞數(shù)<2的微博。通過預(yù)處理，有效微博數(shù)減少至5 441 333條，平均每天微博數(shù)量為680 166條。

　　3.1話題抽取的準確性

　　本文采用了主題關(guān)聯(lián)性指標Topic Coherence［6］衡量主題的準確性。直觀得，如果一組詞屬于同一個話題，那么在同一篇文檔中，它們共現(xiàn)的頻次相應(yīng)地會較高。Topic Coherence正是基于這個思想，定義如下：

　　 $_2ND~]]YCHVAZ%{R%JWFDCU.png$

　　其中D(v)表示詞v至少出現(xiàn)了一次的文檔頻次，D(v,v′)表示詞v和詞v′同時至少出現(xiàn)了一次的文檔頻次，V(t)表示主題下t最可能出現(xiàn)的前M個詞組成的列表。Topic Coherence指標越大，話題的準確性越高。

　　為了評估所有K個主題的話題準確性，每個時間片上三種模型均取K個Topic Coherence指標的均值：

　　 9%1NSX54L2CZ}1}SF{D)KVS.png

　　實驗取M=5，計算得到的Topic Coherence均值如圖2所示。

　　圖2主題關(guān)聯(lián)性指標Topic Coherence均值(K=50, M=5)

　　實驗結(jié)果與定性分析預(yù)期的結(jié)果一致，OLDA由于稀疏性，對于短文本的話題抽取準確性要明顯低于OBTM模型和Online-BTOT模型，同時隨著時間推移，Online-BTOT模型的準確性普遍高于OBTM模型，這得益于Online-BTOT模型在切面上的平滑過渡和遺傳計算方法上的改良。

　　3.2話題內(nèi)容演化

　　同一個話題隨著時間的推進，話題的側(cè)重點會有所偏移，反映到主題模型上，就是主題詞概率分布會發(fā)生變化。表1展示了巴黎恐襲子話題IS極端組織話題在連續(xù)時間片上的概率最高的前10個詞?？梢钥吹絀S極端組織話題開始時與巴黎恐襲關(guān)聯(lián)，在17日開始與俄羅斯空難關(guān)聯(lián)，在19日開始與中國公民被綁架殺害關(guān)聯(lián)。

　　通過Jensen-Shannon距離公式計算主題之間的關(guān)聯(lián)度，可以定量分析話題在內(nèi)容上的演化。圖3所示為OnlineBTOT模型從2015-11-12日開始#5主題相鄰時間片的主題距離計算結(jié)果?？梢钥吹?4日的主題距離明顯高于其他時間點，此時主題發(fā)生了變化（出現(xiàn)了巴黎公布襲擊事件）。同時可以看到在17日和19日主題距離有小幅的增長，正好對應(yīng)了前面提到的話題在內(nèi)容上的演化。

4結(jié)論

　　Online-BTOT模型通過引入主題強度在時間片上的變化特征優(yōu)化在線主題模型的遺傳權(quán)重計算，同時在單時間片上引入時間信息參與主題建模，提高了話題抽取的準確度，有效改善了時間片大小選擇不當和文本流切分造成的在線話題抽取質(zhì)量不高的問題。模型基于Gibbs采樣算法，如何將模型拓展到多線程環(huán)境是下一步要努力的方向。

　　參考文獻

　　［1］ BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation［J］. Journal of Machine Learning Research, 2003(3): 993-1022.

　?。?］ Yan Xiaohui, Guo Jiafeng, Lan Yanyan, et al. A biterm topic model for short texts［C］.Proceedings of the 22nd International Conference on World Wide Web, ACM, 2013: 14451456.［3］ Wang Xuerui, MCCALLUM A. Topics over time: a nonMarkov continuoustime model of topical trends［C］.Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM, 2006: 424-433.

　　［4］ BLEI D M, LAFFERTY J D. Dynamic topic models［C］．Proceedings of the 23rd International Conference on Machine Learning，ACM, 2006: 113-120.

　?。?］ AlSUMAIT L, BARBAR D, DOMENICONI C. Online LDA: adaptive topic models for mining text streams with applications to topic detection and tracking［C］.2008 Eighth IEEE International Conference on Data Mining，IEEE,2008: 3-12.

　?。?］ MIMNO D, WALLACH H M, TALLEY E, et al. Optimizing semantic coherence in topic models［C］.Proceedings of the Conference on Empirical Methods in Natural Language Processing， Association for Computational Linguistics, 2011: 262-272.

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

一種改進的短文本流主題演化模型

日期： 2017-05-27

作者：林特，趙曉東，柳先輝

來源：2017年微型機與應(yīng)用第8期

相關(guān)內(nèi)容

作者：林特，趙曉東，柳先輝