文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.191367
中文引用格式: 李海磊,楊文忠,李東昊,等. 基于特征融合的K-means微博話(huà)題發(fā)現(xiàn)模型[J].電子技術(shù)應(yīng)用,2020,46(4):24-28,33.
英文引用格式: Li Hailei,Yang Wenzhong,Li Donghao,et al. K-means Weibo topic discovery model based on feature fusion[J]. Application of Electronic Technique,2020,46(4):24-28,33.
0 引言
根據(jù)CNNIC《中國(guó)互聯(lián)網(wǎng)信息中心》的第43次中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告,截至2018年12月,我國(guó)網(wǎng)民規(guī)模達(dá)8.29億,普及率達(dá)59.6%[1]。隨著互聯(lián)網(wǎng)和智能手機(jī)技術(shù)的快速發(fā)展,每個(gè)人都成為了信息的制造者、傳播者和分享者。作為社交娛樂(lè)、新聞來(lái)源和信息傳播的主要渠道之一,微博已經(jīng)成為越來(lái)越受歡迎的平臺(tái),微博的用戶(hù)群體龐大,每天都產(chǎn)生海量的數(shù)據(jù),相比傳統(tǒng)的媒體(如報(bào)刊、電視、廣播),人們可以在微博上及時(shí)獲得社會(huì)上的熱點(diǎn)話(huà)題,因此,吸引了大量的研究者進(jìn)行研究,并取得了大量的研究成果。對(duì)于熱點(diǎn)話(huà)題的研究不僅可以幫助政府發(fā)現(xiàn)網(wǎng)絡(luò)輿情并監(jiān)管網(wǎng)絡(luò)輿情的走向;還可以幫助企業(yè)了解消費(fèi)者的需求,及時(shí)調(diào)整公司的營(yíng)銷(xiāo)戰(zhàn)略;還可以幫助用戶(hù)更好地提升閱讀的體驗(yàn),及時(shí)了解國(guó)家大事、社會(huì)熱點(diǎn)事件。因此,對(duì)微博的話(huà)題發(fā)現(xiàn)進(jìn)行研究具有重要的意義。
1 國(guó)內(nèi)外研究現(xiàn)狀
TDT(Topic Detection and Tracking)是美國(guó)國(guó)際高級(jí)研究計(jì)劃局(DARPA)發(fā)起倡議的,主要用于在新聞報(bào)道流中發(fā)現(xiàn)和跟蹤新事件。傳統(tǒng)的話(huà)題檢測(cè)技術(shù)在長(zhǎng)文本中可以得到很好的結(jié)果,但是在微博短文本中很難得到好的效果。這是由于微博短文本的稀疏性問(wèn)題,以及網(wǎng)絡(luò)用語(yǔ)不規(guī)范化、口語(yǔ)化嚴(yán)重,且文本中包含表情符號(hào)、圖片、視頻,這給微博話(huà)題的發(fā)現(xiàn)帶來(lái)了極大的挑戰(zhàn)。
TDT的核心思想是將類(lèi)似的文檔聚集在一起形成主題。針對(duì)微博短文本熱點(diǎn)話(huà)題發(fā)現(xiàn)的方法主要有以下3種:基于統(tǒng)計(jì)分析、學(xué)習(xí)模型分析和改進(jìn)相似度度量的方法?;诮y(tǒng)計(jì)分析的方法中,研究者們認(rèn)為在微博平臺(tái)上,熱點(diǎn)事件往往在短時(shí)間內(nèi)引起很多人的關(guān)注,會(huì)導(dǎo)致大量的評(píng)論和轉(zhuǎn)發(fā)信息。根據(jù)這一特征,學(xué)者們統(tǒng)計(jì)給定時(shí)間內(nèi)話(huà)題關(guān)鍵詞出現(xiàn)的頻率來(lái)檢測(cè)熱點(diǎn)話(huà)題。文獻(xiàn)[2]中Zheng Jun 等提出了一種通過(guò)劃分時(shí)間窗,并根據(jù)每個(gè)時(shí)間窗中微博數(shù)據(jù)詞頻增長(zhǎng)率和相對(duì)詞頻的兩個(gè)因素提取微博數(shù)據(jù)的主題詞,從而聚類(lèi)得到熱點(diǎn)話(huà)題的方法。文獻(xiàn)[3]中BENNY A通過(guò)使用特定的關(guān)鍵字收集tweet,然后對(duì)其進(jìn)行匯總以找出與該關(guān)鍵字相關(guān)的主題。文獻(xiàn)[4]中張雪松等針對(duì)傳統(tǒng)文本聚類(lèi)方法忽略詞之間的語(yǔ)義關(guān)系問(wèn)題,提出了一種基于頻繁詞集的文本聚類(lèi)方法,得到更好的聚類(lèi)效果。
在基于學(xué)習(xí)模型分析的方法中,主要是通過(guò)對(duì)傳統(tǒng)的LDA主題模型的改進(jìn)來(lái)挖掘潛在主題進(jìn)行熱點(diǎn)話(huà)題檢測(cè)。文獻(xiàn)[5]中LIU G提出了將微博的時(shí)間屬性和標(biāo)簽屬性引入到LDA模型中的多屬性潛在狄利克雷分配(MA-LDA)模型。文獻(xiàn)[6]石磊等提出一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)和主題模型的突發(fā)話(huà)題發(fā)現(xiàn)(RTM-SBTD)方法,結(jié)果表明所提出的方法在多種評(píng)價(jià)指標(biāo)上優(yōu)于對(duì)比方法。文獻(xiàn)[7]中車(chē)?yán)偬岢隽艘环N多特征融合文本聚類(lèi)方法,來(lái)發(fā)現(xiàn)新聞話(huà)題。文獻(xiàn)[8]中曾祥坤等提出了一種文本主題提取模型和技術(shù),解決以往交通事故統(tǒng)計(jì)中交通違法行為難以挖掘的問(wèn)題,以實(shí)例驗(yàn)證了該模型的有效性。
基于改進(jìn)相似度度量的方法中,研究者們運(yùn)用不同的方法以得到更好的結(jié)果。文獻(xiàn)[9]中ZHAO Y等針對(duì)傳統(tǒng)新聞話(huà)題檢測(cè)忽略其他屬性的問(wèn)題,提出了將文本與時(shí)間相似度結(jié)合起來(lái)的熱點(diǎn)話(huà)題檢測(cè)方法。文獻(xiàn)[10]中黃建一提出了一種基于上下文相似度矩陣的Single-Pass短文本聚類(lèi)方法。文獻(xiàn)[11]中李勇等針對(duì)現(xiàn)有話(huà)題檢測(cè)技術(shù)的不足,利用VSM和LDA模型對(duì)微博文本數(shù)據(jù)進(jìn)行混合建模,融合微博社會(huì)關(guān)系,提出了SPWSR聚類(lèi)算法進(jìn)行熱點(diǎn)話(huà)題發(fā)現(xiàn)。文獻(xiàn)[12]中MA R等人提出一種結(jié)合過(guò)濾數(shù)據(jù)和基于特征詞的文本相似度改進(jìn)的方法,提高了聚類(lèi)的精度。文獻(xiàn)[13]中李征提出了一種基于改進(jìn)文本相似度計(jì)算的聚類(lèi)方法,并且得到了很好的效果。
綜上前3種微博話(huà)題的檢測(cè)研究雖然在一定程度上提高了話(huà)題發(fā)現(xiàn)的準(zhǔn)確性,但是未能很好地解決微博短文本存在的高維稀疏的缺陷。因此,本文在現(xiàn)有的研究基礎(chǔ)上,根據(jù)微博短文本的特點(diǎn),提出了一種特征融合的文本表示方法。首先,對(duì)微博文本數(shù)據(jù)集進(jìn)行預(yù)處理,然后使用基于詞對(duì)的向量空間模型(Biterm_VSM)代替?zhèn)鹘y(tǒng)的向量空間模型對(duì)文本進(jìn)行建模;同時(shí)為減少后面聚類(lèi)過(guò)程中語(yǔ)言二義性對(duì)聚類(lèi)準(zhǔn)確度產(chǎn)生的影響,本文引入LDA主題模型對(duì)微博文本進(jìn)行建模,利用主題模型的優(yōu)點(diǎn)挖掘出微博短文本中潛在的語(yǔ)義知識(shí)。最后結(jié)合詞對(duì)向量空間模型和LDA主題模型,將基于統(tǒng)計(jì)的方法和基于學(xué)習(xí)模型的方法融合為一體,達(dá)到提高微博短文本聚類(lèi)質(zhì)量的目的。分析了常用的幾種聚類(lèi)算法的特點(diǎn)后,本文選擇了劃分聚類(lèi)算法的經(jīng)典模型K-means算法,并且把上一步得到的融合特征輸入到K-means聚類(lèi)算法中,進(jìn)行微博話(huà)題聚類(lèi)。
2 相關(guān)介紹
為解決傳統(tǒng)的話(huà)題檢測(cè)方法在微博短文本上存在的缺陷,文中使用詞對(duì)向量空間模型(Biterm_VSM)來(lái)替代傳統(tǒng)的向量空間模型(VSM),并與LDA主題模型進(jìn)行結(jié)合,更好地進(jìn)行話(huà)題發(fā)現(xiàn)。
2.1 詞對(duì)向量空間的基本概念
在一句文本中,往往僅用少量的詞就可以充分地表示這個(gè)句子的語(yǔ)義,因此考慮使用多個(gè)詞作為一個(gè)文本的基本單元,但是同時(shí)帶來(lái)的是高維度,使得模型過(guò)于復(fù)雜[14]。所以本文使用在一句文本中共現(xiàn)的詞對(duì)作為文本表示的基本單位。
這個(gè)文本預(yù)處理之后為“重慶|ns路|n公交車(chē)|n人|n爭(zhēng)執(zhí)|v秒|n互毆|v個(gè)人|n錯(cuò)過(guò)|v站|n錯(cuò)過(guò)|v后半生|n愿|v逝者|n安息|v”。這個(gè)文本產(chǎn)生的詞對(duì)集合為{(重慶,路),(重慶,公交車(chē)),…,(逝者,安息)}。由于數(shù)據(jù)集中的詞對(duì)比詞在文本中出現(xiàn)的頻率要低,因此其權(quán)重不使用詞對(duì)的詞頻-逆文檔頻率值(Vtf-idf)來(lái)表示,而是由詞對(duì)中兩個(gè)詞的Vtf-idf的和來(lái)表示:
2.2 LDA基本概念
話(huà)題發(fā)現(xiàn)模型應(yīng)用最廣泛的是基于詞袋理論的層次貝葉斯模型-隱含狄利克雷分布監(jiān)督話(huà)題模型LDA,它可以計(jì)算出每篇文檔的主題概率分布[15-16]。在LDA主題模型中假設(shè)文檔是多個(gè)潛在隱含主題上的混合分布,文檔中的詞語(yǔ)屬于各個(gè)主題。LDA概率模型圖如圖1所示。
2.3 文本聚類(lèi)算法介紹
文本聚類(lèi)的主要算法有6種[7],分別為基于層次的、基于密度的、基于網(wǎng)格的、基于模型的、基于圖論的和基于劃分的聚類(lèi)算法。層次聚類(lèi)算法是通過(guò)對(duì)數(shù)據(jù)集合按照某種指定的方式進(jìn)行層次劃分,直到滿(mǎn)足某種收斂或者滿(mǎn)足某種符合的條件時(shí)算法停止,層次聚類(lèi)算法分為凝聚式層次聚類(lèi)和分裂式層次聚類(lèi);基于密度的算法是基于密度的,不同于其他的聚類(lèi)算法是基于不同距離計(jì)算方式計(jì)算數(shù)據(jù)對(duì)象之間的距離,克服了基于距離算法只能發(fā)現(xiàn)一定距離內(nèi)的類(lèi)簇的局限性;基于網(wǎng)格的算法是通過(guò)將數(shù)據(jù)空間形成有限的數(shù)目的網(wǎng)格單元,然后在這些網(wǎng)格單元中進(jìn)行聚類(lèi)運(yùn)算;基于模型的算法是對(duì)數(shù)據(jù)建立數(shù)學(xué)模型,并將數(shù)據(jù)集合與該模型進(jìn)行擬合;基于圖論的聚類(lèi)方法通過(guò)對(duì)樣本數(shù)據(jù)的拉普拉斯矩陣的特征向量進(jìn)行聚類(lèi),從而達(dá)到對(duì)樣本數(shù)據(jù)聚類(lèi)的目的;基于劃分的算法是首先將數(shù)據(jù)分為K組,通過(guò)迭代的方法將數(shù)據(jù)劃分到不同的分組中,使得最終的分組滿(mǎn)足一定的條件,類(lèi)簇間達(dá)到最大距離,類(lèi)簇內(nèi)達(dá)到最小距離。
3 基于特征融合的微博話(huà)題發(fā)現(xiàn)模型
3.1 基本流程
本文方法的基本流程如圖2所示,主要包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、文本建模、計(jì)算相似度、基于K-means算法進(jìn)行文本聚類(lèi)、聚類(lèi)得到相應(yīng)的微博話(huà)題。其中,文本建模過(guò)程包括:Biterm_VSM特征詞建模、LDA的主題建模。計(jì)算相似度包括:計(jì)算基于詞對(duì)特征值的文本相似度、計(jì)算基于主題的文本相似度。
3.2 特征融合的文本相似度計(jì)算
在本文中,確定文本相似度是進(jìn)行下面文本聚類(lèi)分析的關(guān)鍵一步。本文采用線(xiàn)性組合的方式將基于TF-IDF的詞對(duì)向量空間模型和基于LDA主題模型結(jié)合,得到文本相似度,即本文的特征融合文本相似度。
線(xiàn)性結(jié)合的公式如式(5)所示:
式中,simBiterm_vsm(d1,d2)為兩個(gè)文本間詞對(duì)向量空間模型的文本相似度,simLDA(d1,d2)為兩個(gè)文本間主題向量空間模型的文本相似度。
3.2.1 詞對(duì)向量空間模型文本相似度計(jì)算
不同的模型需要用不同的相似度計(jì)算方法,采用詞對(duì)的標(biāo)準(zhǔn)化TF-IDF值來(lái)衡量詞對(duì)向量空間模型中的文本,采用歐氏距離來(lái)計(jì)算文本的相似度。
計(jì)算公式如式(6)所示:
其中,t1和t2分別為兩個(gè)文本,xi為文本t1的第i個(gè)特征向量,yi為文本t2的第i個(gè)特征向量。
在詞對(duì)向量空間模型中,文本向量的每個(gè)特征向量(詞對(duì))W的計(jì)算公式是式(1)。
3.2.2 主題向量空間模型文本相似度計(jì)算
采用服從Dirichlet分布的主題概率向量來(lái)表示LDA主題模型中的文本,同樣采用歐氏距離來(lái)計(jì)算文本的相似度,公式如式(7)所示:
其中,p和q為兩個(gè)文本的主題概率分布,ai和bi為兩個(gè)文本中主題θi的概率分布。
3.3 特征融合的文本聚類(lèi)算法
本文聚類(lèi)算法采用的是經(jīng)典算法K-means算法[18],該算法思想簡(jiǎn)單,易于實(shí)現(xiàn),可以快速有效地處理大規(guī)模數(shù)據(jù)。
K-means聚類(lèi)算法的基本思想如下:
輸入:簇?cái)?shù)目K,特征融合的文本向量矩陣
輸出:簇的集合D
步驟:
(1)從集合D中隨機(jī)選擇K個(gè)數(shù)據(jù)點(diǎn)作為話(huà)題簇的初始聚類(lèi)中心點(diǎn);
(2)計(jì)算每個(gè)微博向量與聚類(lèi)中心點(diǎn)的距離,并將該微博向量分配到最近的中心點(diǎn);
(3)重新計(jì)算K個(gè)簇的聚類(lèi)中心并更新;
(4)重復(fù)上面的2個(gè)過(guò)程,直到話(huà)題簇的中心點(diǎn)不再變化,或者達(dá)到收斂的條件停止算法;
(5)輸出聚類(lèi)簇的結(jié)果。
4 實(shí)驗(yàn)
4.1 實(shí)驗(yàn)環(huán)境
本文的實(shí)驗(yàn)是利用PyCharm平臺(tái)下的Python語(yǔ)言實(shí)現(xiàn)的。所有實(shí)驗(yàn)均在一臺(tái)操作系統(tǒng)為64位的Windows 10家庭中文版的Lenovo臺(tái)式電腦上,處理器為Inter CoreTM i7-7700 CPU@3.60 GHz 3.60 GHz,內(nèi)存為8 GB。
4.2 實(shí)驗(yàn)數(shù)據(jù)
通過(guò)使用八爪魚(yú)爬蟲(chóng)工具,采用關(guān)鍵詞爬取的方式采集2018年10月29日-2018年11月4日期間的12個(gè)新浪微博的話(huà)題數(shù)據(jù)共11 289條。
為了提高后續(xù)聚類(lèi)檢測(cè)的速度和準(zhǔn)確率,應(yīng)該盡可能剔除垃圾數(shù)據(jù),并在分詞之前過(guò)濾掉微博文本中的無(wú)用信息。
(1)微博賬號(hào)中有一些“僵尸賬號(hào)”。這些微博用戶(hù)發(fā)布的微博數(shù)很少,粉絲也很少,有些甚至接近于0。
(2)“@用戶(hù)”等信息具有主題的指向性或用戶(hù)對(duì)話(huà)。這種對(duì)話(huà)是一般性的,與熱門(mén)話(huà)題無(wú)關(guān)。根據(jù)一些官方微博和大V,眾所周知,微博的熱門(mén)話(huà)題很少涉及特定的用戶(hù)。因此,應(yīng)該去掉“@用戶(hù)”以提高檢測(cè)的準(zhǔn)確性。
(3)按照上述的步驟對(duì)微博文本進(jìn)行處理后,采用Jieba分詞工具對(duì)文本進(jìn)行分詞。Jieba分詞是Python語(yǔ)言的一個(gè)中文分詞包,不僅可以分詞,還可以進(jìn)行詞性標(biāo)注,不同的詞性在語(yǔ)篇中起著不同的作用。主題的表達(dá)和關(guān)鍵功能的識(shí)別是動(dòng)詞、名詞。形容詞、介詞、虛詞和數(shù)字等表達(dá)效果要低得多。因此,要保留動(dòng)詞、名詞、地名詞,其余的詞均刪除,可以使得文本建模過(guò)程中的維度進(jìn)一步降低。
4.3 評(píng)價(jià)指標(biāo)
話(huà)題發(fā)現(xiàn)是一個(gè)聚類(lèi)的過(guò)程,而且實(shí)驗(yàn)使用的數(shù)據(jù)是無(wú)標(biāo)簽的,因而無(wú)法使用類(lèi)似于分類(lèi)過(guò)程中的評(píng)價(jià)體系,例如準(zhǔn)確率、精確率、召回率以及由精確率和召回率得到的F1值。因此本文實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)采用的是聚類(lèi)的一種評(píng)價(jià)指標(biāo)——調(diào)整蘭德系數(shù)(Adjusted Rand Index,ARI)。
蘭德系數(shù)(Rand Index,RI),RI取值范圍為[0,1],值越大意味著聚類(lèi)結(jié)果與真實(shí)情況越接近。
其中,E(RI)為蘭德系數(shù)的平均值,max(RI)為蘭德系數(shù)的最大值。
4.4 對(duì)比試驗(yàn)
4.4.1 實(shí)驗(yàn)1
本文的對(duì)比實(shí)驗(yàn)1分別由下面的4部分組成:
(1)采用基于詞特征的傳統(tǒng)向量空間模型對(duì)微博文本進(jìn)行表示,并由K-means聚類(lèi)算法進(jìn)行進(jìn)行聚類(lèi)實(shí)驗(yàn);
(2)采用基于詞對(duì)特征的向量空間模型對(duì)微博文本進(jìn)行表示,并由K-means聚類(lèi)算法進(jìn)行進(jìn)行聚類(lèi)實(shí)驗(yàn);
(3)采用基于主題向量空間模型對(duì)微博文本進(jìn)行表示,并由K-means聚類(lèi)算法進(jìn)行進(jìn)行聚類(lèi)實(shí)驗(yàn);
(4)采用基于詞對(duì)特征向量空間模型和基于主題向量空間模型融合來(lái)對(duì)微博文本進(jìn)行表示,并由K-means聚類(lèi)算法進(jìn)行聚類(lèi)實(shí)驗(yàn)。
實(shí)驗(yàn)結(jié)果如圖3所示。
圖3中顯示了特征融合模型(Biterm_LDA)與其他模型(VSM、Biterm_VSM和LDA)的評(píng)價(jià)指標(biāo)對(duì)比情況。從圖3中可以看出,結(jié)合了Biterm_VSM模型和LDA模型的Biterm_LDA模型比單純的VSM的性能要優(yōu);單獨(dú)使用Biterm_VSM模型和LDA模型性能差不多;相比于前3個(gè)模型,本文提出的特征融合模型的性能是最優(yōu)的。
4.4.2 實(shí)驗(yàn)2
本文的實(shí)驗(yàn)2是主題為不同K值況下采用本文方法的對(duì)比情況,實(shí)驗(yàn)結(jié)果如圖4所示。
從圖4中可以看出,當(dāng)主題的數(shù)目越接近真實(shí)的微博話(huà)題數(shù)目時(shí),效果越來(lái)越好;當(dāng)主題的數(shù)目超過(guò)真實(shí)的微博話(huà)題數(shù)目時(shí),效果越來(lái)越差。因此,主題模型K值的設(shè)定是很重要的。從實(shí)驗(yàn)結(jié)果中可以看出,當(dāng)K=12時(shí),得到的聚類(lèi)結(jié)果是最好的,而且和實(shí)際的微博話(huà)題數(shù)目是最接近的,說(shuō)明本文提出的模型是有效的。
4.4.3 實(shí)驗(yàn)3
本文的實(shí)驗(yàn)3為K-means算法與密度聚類(lèi)的DBCAN算法、譜聚類(lèi)算法和凝聚式層次聚類(lèi)算法3種算法之間的對(duì)比實(shí)驗(yàn),并且是在主題的數(shù)目K=12的情況下進(jìn)行的。實(shí)驗(yàn)結(jié)果如圖5所示。
從圖5中可以看出,本文提出的模型在微博短文本上,K-means聚類(lèi)算法比其余的3種算法效果表現(xiàn)更好,分析可知,DBSCAN密度聚類(lèi)算法對(duì)噪聲數(shù)據(jù)比較敏感,而且對(duì)參數(shù)的設(shè)置要求也較高,因此得到的結(jié)果有很大的差異。譜聚類(lèi)和凝聚式層次聚類(lèi)在本文數(shù)據(jù)上的性能表現(xiàn)沒(méi)有K-means聚類(lèi)算法好。
5 結(jié)論
本文針對(duì)傳統(tǒng)話(huà)題檢測(cè)方法的缺陷,提出了一種改進(jìn)的特征融合短文本聚類(lèi)的微博話(huà)題發(fā)現(xiàn)模型,改進(jìn)了傳統(tǒng)的向量空間模型對(duì)微博短文本的表示方式,引入詞對(duì)向量空間模型,并結(jié)合主題空間模型在潛在語(yǔ)義挖掘上的優(yōu)點(diǎn),提高了微博話(huà)題發(fā)現(xiàn)的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的特征融合模型具有更優(yōu)的話(huà)題發(fā)現(xiàn)效果。
雖然詞對(duì)比詞更能表達(dá)文本的語(yǔ)義信息,但是微博短文本數(shù)據(jù)集中詞對(duì)的數(shù)量要遠(yuǎn)遠(yuǎn)多于詞的數(shù)量,這會(huì)造成文本轉(zhuǎn)化為向量時(shí)的維度過(guò)高。而且K-means聚類(lèi)算法對(duì)初始聚類(lèi)中心點(diǎn)較為敏感,對(duì)最終的聚類(lèi)結(jié)果有影響,因此下一步的工作方向就是解決主題K值的自適應(yīng)和K-means聚類(lèi)算法初始中心點(diǎn)選擇的問(wèn)題。
參考文獻(xiàn)
[1] 中國(guó)互聯(lián)網(wǎng)信息中心.第43次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].北京:中國(guó)互聯(lián)網(wǎng)信息中心,2019.
[2] Zheng Jun,Li Yuanjun.A hot topic detection method for Chinese Microblog based on topic words[C].International Conference on Information Technology & Electronic Commerce,2015.
[3] BENNY A,PHILIP M.Keyword based tweet extraction and detection of related topics[J].Procedia Computer Science,2015,46(46):364-371.
[4] 張雪松,賈彩燕.一種基于頻繁詞集表示的新文本聚類(lèi)方法[J].計(jì)算機(jī)研究與發(fā)展,2018,55(1):102-112.
[5] LIU G,XU X,ZHU Y,et al.An improved latent Dirichlet allocation model for hot topic extraction[C].2014 IEEE International Conference on Big Data and Cloud Computing(BdCloud).IEEE Computer Society,2014.
[6] 石磊,杜軍平,梁美玉.基于RNN和主題模型的社交網(wǎng)絡(luò)突發(fā)話(huà)題發(fā)現(xiàn)[J].通信學(xué)報(bào),2018,39(4):189-198.
[7] 車(chē)?yán)?,楊小?多特征融合文本聚類(lèi)的新聞話(huà)題發(fā)現(xiàn)模型[J].國(guó)防科技大學(xué)學(xué)報(bào),2017,39(3):85-90.
[8] 曾祥坤,張俊輝,石拓,等.基于主題提取模型的交通違法行為文本數(shù)據(jù)的挖掘[J].電子技術(shù)應(yīng)用,2019,45(6):41-45.
[9] ZHAO Y,ZHANG K,ZHANG H,et al.-Hot topic detection based on combined content and time similarity[C].2017 International Conference on Progress in Informatics and Computing(PIC),Nanjing,2017:399-403.
[10] 黃建一,李建江,王錚,等.基于上下文相似度矩陣的Single-Pass短文本聚類(lèi)[J].計(jì)算機(jī)科學(xué),2019,46(4):50-56.
[11] 李勇,張克亮.面向LDA和VSM模型的微博熱點(diǎn)話(huà)題發(fā)現(xiàn)研究[J].自動(dòng)化技術(shù)與應(yīng)用,2016,35(8):52-57.
[12] MA R,XU P,LI L,et al.Hotspot detection in social media based on improved strategy clustering[C].International Conference on Big Data,2019.
[13] 李征,李斌.一種基于改進(jìn)相似度計(jì)算的文本聚類(lèi)方法[J].河南大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,48(4):415-420.
[14] 張文博,米成剛,楊雅婷.基于詞對(duì)向量的中文新聞話(huà)題檢測(cè)方法[J].廈門(mén)大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,58(2):231-236.
[15] BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet allocation[J].The Journal of Machine Learning Research,2003,3(4/5):993-1022.
[16] ZHANG Q,SUN Y.The collocation model based on LDA[C].SPIE Sixth International Conference on Electronics and Information Engineering,Dalian,China,2015.
[17] 譚夢(mèng)婕,呂鑫,陶飛飛.基于多特征融合的財(cái)經(jīng)新聞話(huà)題檢測(cè)研究[J].計(jì)算機(jī)工程,2019,45(3):293-299,308.
[18] 張杰,卓靈,朱韻攸.一種K-means聚類(lèi)算法的改進(jìn)與應(yīng)用[J].電子技術(shù)應(yīng)用,2015,41(1):125-128.
作者信息:
李海磊1,楊文忠1,2,李東昊1,溫杰彬1,錢(qián)蕓蕓1
(1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;
2.中國(guó)電子科學(xué)研究院 社會(huì)安全風(fēng)險(xiǎn)感知與防控大數(shù)據(jù)應(yīng)用國(guó)家工程實(shí)驗(yàn)室,北京 100041)