《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于特征融合的K-means微博話(huà)題發(fā)現(xiàn)模型
基于特征融合的K-means微博話(huà)題發(fā)現(xiàn)模型
2020年電子技術(shù)應(yīng)用第4期
李海磊1,楊文忠1,2,李東昊1,溫杰彬1,錢(qián)蕓蕓1
1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046; 2.中國(guó)電子科學(xué)研究院 社會(huì)安全風(fēng)險(xiǎn)感知與防控大數(shù)據(jù)應(yīng)用國(guó)家工程實(shí)驗(yàn)室,北京 100041
摘要: 針對(duì)傳統(tǒng)話(huà)題檢測(cè)方法在微博短文本上存在高維稀疏的缺陷,提出了一種基于特征融合的K-means微博話(huà)題發(fā)現(xiàn)模型。為了更好地表達(dá)微博話(huà)題的語(yǔ)義信息,使用在句子中共現(xiàn)的詞對(duì)向量模型(Biterm_VSM)代替?zhèn)鹘y(tǒng)的向量空間模型(Vector Space Model,VSM),并結(jié)合主題模型(Latent Dirichlet Allocation,LDA)挖掘出微博短文本中的潛在語(yǔ)義,把兩個(gè)模型得到的特征進(jìn)行特征融合,并應(yīng)用K-means聚類(lèi)算法進(jìn)行話(huà)題的發(fā)現(xiàn)。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的話(huà)題檢測(cè)方法相比,該模型的調(diào)整蘭德系數(shù)(Adjusted Rand index,ARI)為0.80,比傳統(tǒng)的話(huà)題檢測(cè)方法提高了3%~6%。
中圖分類(lèi)號(hào): TN06;TP391.1
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.191367
中文引用格式: 李海磊,楊文忠,李東昊,等. 基于特征融合的K-means微博話(huà)題發(fā)現(xiàn)模型[J].電子技術(shù)應(yīng)用,2020,46(4):24-28,33.
英文引用格式: Li Hailei,Yang Wenzhong,Li Donghao,et al. K-means Weibo topic discovery model based on feature fusion[J]. Application of Electronic Technique,2020,46(4):24-28,33.
K-means Weibo topic discovery model based on feature fusion
Li Hailei1,Yang Wenzhong1,2,Li Donghao1,Wen Jiebin1,Qian Yunyun1
1.College of Information Science and Engineering,Xinjiang University,Urumqi 830046,China; 2.National Engineering Laboratory for Public Safety Risk Perception and Control by Big Data(PSRPC), China Academy of Electronics and Information Technology,Beijing 100041,China
Abstract: Aiming at the shortcomings of high-dimensional sparseness in the short text of Weibo on traditional topic detection methods, a K-means Weibo topic discovery model based on feature fusion was proposed. In order to better express the semantic information of Weibo topics in this paper, the word-pair vector model(Biterm_VSM) co-occurring in sentences is used instead of the traditional vector space model(VSM), and combined with the topic model(Latent Dirichlet Allocation,LDA) to mine the potential semantics of Weibo short text, merging features obtained from the two models, and applying K-means clustering algorithm to discover topics. The Experimental results show that compared with the traditional topic detection method, the model′s adjusted Rand index(ARI) is 0.80, which is 3%~6% higher than the traditional topic detection method.
Key words : topic detection;Biterm_VSM;LDA;feature fusion;K-means

0 引言

    根據(jù)CNNIC《中國(guó)互聯(lián)網(wǎng)信息中心》的第43次中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告,截至2018年12月,我國(guó)網(wǎng)民規(guī)模達(dá)8.29億,普及率達(dá)59.6%[1]。隨著互聯(lián)網(wǎng)和智能手機(jī)技術(shù)的快速發(fā)展,每個(gè)人都成為了信息的制造者、傳播者和分享者。作為社交娛樂(lè)、新聞來(lái)源和信息傳播的主要渠道之一,微博已經(jīng)成為越來(lái)越受歡迎的平臺(tái),微博的用戶(hù)群體龐大,每天都產(chǎn)生海量的數(shù)據(jù),相比傳統(tǒng)的媒體(如報(bào)刊、電視、廣播),人們可以在微博上及時(shí)獲得社會(huì)上的熱點(diǎn)話(huà)題,因此,吸引了大量的研究者進(jìn)行研究,并取得了大量的研究成果。對(duì)于熱點(diǎn)話(huà)題的研究不僅可以幫助政府發(fā)現(xiàn)網(wǎng)絡(luò)輿情并監(jiān)管網(wǎng)絡(luò)輿情的走向;還可以幫助企業(yè)了解消費(fèi)者的需求,及時(shí)調(diào)整公司的營(yíng)銷(xiāo)戰(zhàn)略;還可以幫助用戶(hù)更好地提升閱讀的體驗(yàn),及時(shí)了解國(guó)家大事、社會(huì)熱點(diǎn)事件。因此,對(duì)微博的話(huà)題發(fā)現(xiàn)進(jìn)行研究具有重要的意義。

1 國(guó)內(nèi)外研究現(xiàn)狀

    TDT(Topic Detection and Tracking)是美國(guó)國(guó)際高級(jí)研究計(jì)劃局(DARPA)發(fā)起倡議的,主要用于在新聞報(bào)道流中發(fā)現(xiàn)和跟蹤新事件。傳統(tǒng)的話(huà)題檢測(cè)技術(shù)在長(zhǎng)文本中可以得到很好的結(jié)果,但是在微博短文本中很難得到好的效果。這是由于微博短文本的稀疏性問(wèn)題,以及網(wǎng)絡(luò)用語(yǔ)不規(guī)范化、口語(yǔ)化嚴(yán)重,且文本中包含表情符號(hào)、圖片、視頻,這給微博話(huà)題的發(fā)現(xiàn)帶來(lái)了極大的挑戰(zhàn)。

    TDT的核心思想是將類(lèi)似的文檔聚集在一起形成主題。針對(duì)微博短文本熱點(diǎn)話(huà)題發(fā)現(xiàn)的方法主要有以下3種:基于統(tǒng)計(jì)分析、學(xué)習(xí)模型分析和改進(jìn)相似度度量的方法?;诮y(tǒng)計(jì)分析的方法中,研究者們認(rèn)為在微博平臺(tái)上,熱點(diǎn)事件往往在短時(shí)間內(nèi)引起很多人的關(guān)注,會(huì)導(dǎo)致大量的評(píng)論和轉(zhuǎn)發(fā)信息。根據(jù)這一特征,學(xué)者們統(tǒng)計(jì)給定時(shí)間內(nèi)話(huà)題關(guān)鍵詞出現(xiàn)的頻率來(lái)檢測(cè)熱點(diǎn)話(huà)題。文獻(xiàn)[2]中Zheng Jun 等提出了一種通過(guò)劃分時(shí)間窗,并根據(jù)每個(gè)時(shí)間窗中微博數(shù)據(jù)詞頻增長(zhǎng)率和相對(duì)詞頻的兩個(gè)因素提取微博數(shù)據(jù)的主題詞,從而聚類(lèi)得到熱點(diǎn)話(huà)題的方法。文獻(xiàn)[3]中BENNY A通過(guò)使用特定的關(guān)鍵字收集tweet,然后對(duì)其進(jìn)行匯總以找出與該關(guān)鍵字相關(guān)的主題。文獻(xiàn)[4]中張雪松等針對(duì)傳統(tǒng)文本聚類(lèi)方法忽略詞之間的語(yǔ)義關(guān)系問(wèn)題,提出了一種基于頻繁詞集的文本聚類(lèi)方法,得到更好的聚類(lèi)效果。

    在基于學(xué)習(xí)模型分析的方法中,主要是通過(guò)對(duì)傳統(tǒng)的LDA主題模型的改進(jìn)來(lái)挖掘潛在主題進(jìn)行熱點(diǎn)話(huà)題檢測(cè)。文獻(xiàn)[5]中LIU G提出了將微博的時(shí)間屬性和標(biāo)簽屬性引入到LDA模型中的多屬性潛在狄利克雷分配(MA-LDA)模型。文獻(xiàn)[6]石磊等提出一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)和主題模型的突發(fā)話(huà)題發(fā)現(xiàn)(RTM-SBTD)方法,結(jié)果表明所提出的方法在多種評(píng)價(jià)指標(biāo)上優(yōu)于對(duì)比方法。文獻(xiàn)[7]中車(chē)?yán)偬岢隽艘环N多特征融合文本聚類(lèi)方法,來(lái)發(fā)現(xiàn)新聞話(huà)題。文獻(xiàn)[8]中曾祥坤等提出了一種文本主題提取模型和技術(shù),解決以往交通事故統(tǒng)計(jì)中交通違法行為難以挖掘的問(wèn)題,以實(shí)例驗(yàn)證了該模型的有效性。

    基于改進(jìn)相似度度量的方法中,研究者們運(yùn)用不同的方法以得到更好的結(jié)果。文獻(xiàn)[9]中ZHAO Y等針對(duì)傳統(tǒng)新聞話(huà)題檢測(cè)忽略其他屬性的問(wèn)題,提出了將文本與時(shí)間相似度結(jié)合起來(lái)的熱點(diǎn)話(huà)題檢測(cè)方法。文獻(xiàn)[10]中黃建一提出了一種基于上下文相似度矩陣的Single-Pass短文本聚類(lèi)方法。文獻(xiàn)[11]中李勇等針對(duì)現(xiàn)有話(huà)題檢測(cè)技術(shù)的不足,利用VSM和LDA模型對(duì)微博文本數(shù)據(jù)進(jìn)行混合建模,融合微博社會(huì)關(guān)系,提出了SPWSR聚類(lèi)算法進(jìn)行熱點(diǎn)話(huà)題發(fā)現(xiàn)。文獻(xiàn)[12]中MA R等人提出一種結(jié)合過(guò)濾數(shù)據(jù)和基于特征詞的文本相似度改進(jìn)的方法,提高了聚類(lèi)的精度。文獻(xiàn)[13]中李征提出了一種基于改進(jìn)文本相似度計(jì)算的聚類(lèi)方法,并且得到了很好的效果。

    綜上前3種微博話(huà)題的檢測(cè)研究雖然在一定程度上提高了話(huà)題發(fā)現(xiàn)的準(zhǔn)確性,但是未能很好地解決微博短文本存在的高維稀疏的缺陷。因此,本文在現(xiàn)有的研究基礎(chǔ)上,根據(jù)微博短文本的特點(diǎn),提出了一種特征融合的文本表示方法。首先,對(duì)微博文本數(shù)據(jù)集進(jìn)行預(yù)處理,然后使用基于詞對(duì)的向量空間模型(Biterm_VSM)代替?zhèn)鹘y(tǒng)的向量空間模型對(duì)文本進(jìn)行建模;同時(shí)為減少后面聚類(lèi)過(guò)程中語(yǔ)言二義性對(duì)聚類(lèi)準(zhǔn)確度產(chǎn)生的影響,本文引入LDA主題模型對(duì)微博文本進(jìn)行建模,利用主題模型的優(yōu)點(diǎn)挖掘出微博短文本中潛在的語(yǔ)義知識(shí)。最后結(jié)合詞對(duì)向量空間模型和LDA主題模型,將基于統(tǒng)計(jì)的方法和基于學(xué)習(xí)模型的方法融合為一體,達(dá)到提高微博短文本聚類(lèi)質(zhì)量的目的。分析了常用的幾種聚類(lèi)算法的特點(diǎn)后,本文選擇了劃分聚類(lèi)算法的經(jīng)典模型K-means算法,并且把上一步得到的融合特征輸入到K-means聚類(lèi)算法中,進(jìn)行微博話(huà)題聚類(lèi)。

2 相關(guān)介紹

    為解決傳統(tǒng)的話(huà)題檢測(cè)方法在微博短文本上存在的缺陷,文中使用詞對(duì)向量空間模型(Biterm_VSM)來(lái)替代傳統(tǒng)的向量空間模型(VSM),并與LDA主題模型進(jìn)行結(jié)合,更好地進(jìn)行話(huà)題發(fā)現(xiàn)。

2.1 詞對(duì)向量空間的基本概念

    在一句文本中,往往僅用少量的詞就可以充分地表示這個(gè)句子的語(yǔ)義,因此考慮使用多個(gè)詞作為一個(gè)文本的基本單元,但是同時(shí)帶來(lái)的是高維度,使得模型過(guò)于復(fù)雜[14]。所以本文使用在一句文本中共現(xiàn)的詞對(duì)作為文本表示的基本單位。

rgzn1-gs1-s1.gif

    這個(gè)文本預(yù)處理之后為“重慶|ns路|n公交車(chē)|n人|n爭(zhēng)執(zhí)|v秒|n互毆|v個(gè)人|n錯(cuò)過(guò)|v站|n錯(cuò)過(guò)|v后半生|n愿|v逝者|n安息|v”。這個(gè)文本產(chǎn)生的詞對(duì)集合為{(重慶,路),(重慶,公交車(chē)),…,(逝者,安息)}。由于數(shù)據(jù)集中的詞對(duì)比詞在文本中出現(xiàn)的頻率要低,因此其權(quán)重不使用詞對(duì)的詞頻-逆文檔頻率值(Vtf-idf)來(lái)表示,而是由詞對(duì)中兩個(gè)詞的Vtf-idf的和來(lái)表示:

    rgzn1-gs1.gif

2.2 LDA基本概念

    話(huà)題發(fā)現(xiàn)模型應(yīng)用最廣泛的是基于詞袋理論的層次貝葉斯模型-隱含狄利克雷分布監(jiān)督話(huà)題模型LDA,它可以計(jì)算出每篇文檔的主題概率分布[15-16]。在LDA主題模型中假設(shè)文檔是多個(gè)潛在隱含主題上的混合分布,文檔中的詞語(yǔ)屬于各個(gè)主題。LDA概率模型圖如圖1所示。

rgzn1-t1.gif

rgzn1-gs2-4.gif

2.3 文本聚類(lèi)算法介紹

    文本聚類(lèi)的主要算法有6種[7],分別為基于層次的、基于密度的、基于網(wǎng)格的、基于模型的、基于圖論的和基于劃分的聚類(lèi)算法。層次聚類(lèi)算法是通過(guò)對(duì)數(shù)據(jù)集合按照某種指定的方式進(jìn)行層次劃分,直到滿(mǎn)足某種收斂或者滿(mǎn)足某種符合的條件時(shí)算法停止,層次聚類(lèi)算法分為凝聚式層次聚類(lèi)和分裂式層次聚類(lèi);基于密度的算法是基于密度的,不同于其他的聚類(lèi)算法是基于不同距離計(jì)算方式計(jì)算數(shù)據(jù)對(duì)象之間的距離,克服了基于距離算法只能發(fā)現(xiàn)一定距離內(nèi)的類(lèi)簇的局限性;基于網(wǎng)格的算法是通過(guò)將數(shù)據(jù)空間形成有限的數(shù)目的網(wǎng)格單元,然后在這些網(wǎng)格單元中進(jìn)行聚類(lèi)運(yùn)算;基于模型的算法是對(duì)數(shù)據(jù)建立數(shù)學(xué)模型,并將數(shù)據(jù)集合與該模型進(jìn)行擬合;基于圖論的聚類(lèi)方法通過(guò)對(duì)樣本數(shù)據(jù)的拉普拉斯矩陣的特征向量進(jìn)行聚類(lèi),從而達(dá)到對(duì)樣本數(shù)據(jù)聚類(lèi)的目的;基于劃分的算法是首先將數(shù)據(jù)分為K組,通過(guò)迭代的方法將數(shù)據(jù)劃分到不同的分組中,使得最終的分組滿(mǎn)足一定的條件,類(lèi)簇間達(dá)到最大距離,類(lèi)簇內(nèi)達(dá)到最小距離。

3 基于特征融合的微博話(huà)題發(fā)現(xiàn)模型

3.1 基本流程

    本文方法的基本流程如圖2所示,主要包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、文本建模、計(jì)算相似度、基于K-means算法進(jìn)行文本聚類(lèi)、聚類(lèi)得到相應(yīng)的微博話(huà)題。其中,文本建模過(guò)程包括:Biterm_VSM特征詞建模、LDA的主題建模。計(jì)算相似度包括:計(jì)算基于詞對(duì)特征值的文本相似度、計(jì)算基于主題的文本相似度。

rgzn1-t2.gif

3.2 特征融合的文本相似度計(jì)算

    在本文中,確定文本相似度是進(jìn)行下面文本聚類(lèi)分析的關(guān)鍵一步。本文采用線(xiàn)性組合的方式將基于TF-IDF的詞對(duì)向量空間模型和基于LDA主題模型結(jié)合,得到文本相似度,即本文的特征融合文本相似度。

    線(xiàn)性結(jié)合的公式如式(5)所示:

    rgzn1-gs5.gif

式中,simBiterm_vsm(d1,d2)為兩個(gè)文本間詞對(duì)向量空間模型的文本相似度,simLDA(d1,d2)為兩個(gè)文本間主題向量空間模型的文本相似度。

3.2.1 詞對(duì)向量空間模型文本相似度計(jì)算

    不同的模型需要用不同的相似度計(jì)算方法,采用詞對(duì)的標(biāo)準(zhǔn)化TF-IDF值來(lái)衡量詞對(duì)向量空間模型中的文本,采用歐氏距離來(lái)計(jì)算文本的相似度。

    計(jì)算公式如式(6)所示:

    rgzn1-gs6.gif

其中,t1和t2分別為兩個(gè)文本,xi為文本t1的第i個(gè)特征向量,yi為文本t2的第i個(gè)特征向量。

    在詞對(duì)向量空間模型中,文本向量的每個(gè)特征向量(詞對(duì))W的計(jì)算公式是式(1)。

3.2.2 主題向量空間模型文本相似度計(jì)算

    采用服從Dirichlet分布的主題概率向量來(lái)表示LDA主題模型中的文本,同樣采用歐氏距離來(lái)計(jì)算文本的相似度,公式如式(7)所示:

    rgzn1-gs7.gif

其中,p和q為兩個(gè)文本的主題概率分布,ai和bi為兩個(gè)文本中主題θi的概率分布。

3.3 特征融合的文本聚類(lèi)算法

    本文聚類(lèi)算法采用的是經(jīng)典算法K-means算法[18],該算法思想簡(jiǎn)單,易于實(shí)現(xiàn),可以快速有效地處理大規(guī)模數(shù)據(jù)。

    K-means聚類(lèi)算法的基本思想如下:

    輸入:簇?cái)?shù)目K,特征融合的文本向量矩陣

    輸出:簇的集合D

    步驟:

    (1)從集合D中隨機(jī)選擇K個(gè)數(shù)據(jù)點(diǎn)作為話(huà)題簇的初始聚類(lèi)中心點(diǎn);

    (2)計(jì)算每個(gè)微博向量與聚類(lèi)中心點(diǎn)的距離,并將該微博向量分配到最近的中心點(diǎn);

    (3)重新計(jì)算K個(gè)簇的聚類(lèi)中心并更新;

    (4)重復(fù)上面的2個(gè)過(guò)程,直到話(huà)題簇的中心點(diǎn)不再變化,或者達(dá)到收斂的條件停止算法;

    (5)輸出聚類(lèi)簇的結(jié)果。

4 實(shí)驗(yàn)

4.1 實(shí)驗(yàn)環(huán)境

    本文的實(shí)驗(yàn)是利用PyCharm平臺(tái)下的Python語(yǔ)言實(shí)現(xiàn)的。所有實(shí)驗(yàn)均在一臺(tái)操作系統(tǒng)為64位的Windows 10家庭中文版的Lenovo臺(tái)式電腦上,處理器為Inter CoreTM i7-7700 CPU@3.60 GHz 3.60 GHz,內(nèi)存為8 GB。

4.2 實(shí)驗(yàn)數(shù)據(jù)

    通過(guò)使用八爪魚(yú)爬蟲(chóng)工具,采用關(guān)鍵詞爬取的方式采集2018年10月29日-2018年11月4日期間的12個(gè)新浪微博的話(huà)題數(shù)據(jù)共11 289條。

    為了提高后續(xù)聚類(lèi)檢測(cè)的速度和準(zhǔn)確率,應(yīng)該盡可能剔除垃圾數(shù)據(jù),并在分詞之前過(guò)濾掉微博文本中的無(wú)用信息。

    (1)微博賬號(hào)中有一些“僵尸賬號(hào)”。這些微博用戶(hù)發(fā)布的微博數(shù)很少,粉絲也很少,有些甚至接近于0。

    (2)“@用戶(hù)”等信息具有主題的指向性或用戶(hù)對(duì)話(huà)。這種對(duì)話(huà)是一般性的,與熱門(mén)話(huà)題無(wú)關(guān)。根據(jù)一些官方微博和大V,眾所周知,微博的熱門(mén)話(huà)題很少涉及特定的用戶(hù)。因此,應(yīng)該去掉“@用戶(hù)”以提高檢測(cè)的準(zhǔn)確性。

    (3)按照上述的步驟對(duì)微博文本進(jìn)行處理后,采用Jieba分詞工具對(duì)文本進(jìn)行分詞。Jieba分詞是Python語(yǔ)言的一個(gè)中文分詞包,不僅可以分詞,還可以進(jìn)行詞性標(biāo)注,不同的詞性在語(yǔ)篇中起著不同的作用。主題的表達(dá)和關(guān)鍵功能的識(shí)別是動(dòng)詞、名詞。形容詞、介詞、虛詞和數(shù)字等表達(dá)效果要低得多。因此,要保留動(dòng)詞、名詞、地名詞,其余的詞均刪除,可以使得文本建模過(guò)程中的維度進(jìn)一步降低。

4.3 評(píng)價(jià)指標(biāo)

    話(huà)題發(fā)現(xiàn)是一個(gè)聚類(lèi)的過(guò)程,而且實(shí)驗(yàn)使用的數(shù)據(jù)是無(wú)標(biāo)簽的,因而無(wú)法使用類(lèi)似于分類(lèi)過(guò)程中的評(píng)價(jià)體系,例如準(zhǔn)確率、精確率、召回率以及由精確率和召回率得到的F1值。因此本文實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)采用的是聚類(lèi)的一種評(píng)價(jià)指標(biāo)——調(diào)整蘭德系數(shù)(Adjusted Rand Index,ARI)。

    蘭德系數(shù)(Rand Index,RI),RI取值范圍為[0,1],值越大意味著聚類(lèi)結(jié)果與真實(shí)情況越接近。

rgzn1-gs8-9.gif

其中,E(RI)為蘭德系數(shù)的平均值,max(RI)為蘭德系數(shù)的最大值。

4.4 對(duì)比試驗(yàn)

4.4.1 實(shí)驗(yàn)1

    本文的對(duì)比實(shí)驗(yàn)1分別由下面的4部分組成:

    (1)采用基于詞特征的傳統(tǒng)向量空間模型對(duì)微博文本進(jìn)行表示,并由K-means聚類(lèi)算法進(jìn)行進(jìn)行聚類(lèi)實(shí)驗(yàn);

    (2)采用基于詞對(duì)特征的向量空間模型對(duì)微博文本進(jìn)行表示,并由K-means聚類(lèi)算法進(jìn)行進(jìn)行聚類(lèi)實(shí)驗(yàn);

    (3)采用基于主題向量空間模型對(duì)微博文本進(jìn)行表示,并由K-means聚類(lèi)算法進(jìn)行進(jìn)行聚類(lèi)實(shí)驗(yàn);

    (4)采用基于詞對(duì)特征向量空間模型和基于主題向量空間模型融合來(lái)對(duì)微博文本進(jìn)行表示,并由K-means聚類(lèi)算法進(jìn)行聚類(lèi)實(shí)驗(yàn)。

    實(shí)驗(yàn)結(jié)果如圖3所示。

rgzn1-t3.gif

    圖3中顯示了特征融合模型(Biterm_LDA)與其他模型(VSM、Biterm_VSM和LDA)的評(píng)價(jià)指標(biāo)對(duì)比情況。從圖3中可以看出,結(jié)合了Biterm_VSM模型和LDA模型的Biterm_LDA模型比單純的VSM的性能要優(yōu);單獨(dú)使用Biterm_VSM模型和LDA模型性能差不多;相比于前3個(gè)模型,本文提出的特征融合模型的性能是最優(yōu)的。

4.4.2 實(shí)驗(yàn)2

    本文的實(shí)驗(yàn)2是主題為不同K值況下采用本文方法的對(duì)比情況,實(shí)驗(yàn)結(jié)果如圖4所示。

rgzn1-t4.gif

    從圖4中可以看出,當(dāng)主題的數(shù)目越接近真實(shí)的微博話(huà)題數(shù)目時(shí),效果越來(lái)越好;當(dāng)主題的數(shù)目超過(guò)真實(shí)的微博話(huà)題數(shù)目時(shí),效果越來(lái)越差。因此,主題模型K值的設(shè)定是很重要的。從實(shí)驗(yàn)結(jié)果中可以看出,當(dāng)K=12時(shí),得到的聚類(lèi)結(jié)果是最好的,而且和實(shí)際的微博話(huà)題數(shù)目是最接近的,說(shuō)明本文提出的模型是有效的。

4.4.3 實(shí)驗(yàn)3

    本文的實(shí)驗(yàn)3為K-means算法與密度聚類(lèi)的DBCAN算法、譜聚類(lèi)算法和凝聚式層次聚類(lèi)算法3種算法之間的對(duì)比實(shí)驗(yàn),并且是在主題的數(shù)目K=12的情況下進(jìn)行的。實(shí)驗(yàn)結(jié)果如圖5所示。

rgzn1-t5.gif

    從圖5中可以看出,本文提出的模型在微博短文本上,K-means聚類(lèi)算法比其余的3種算法效果表現(xiàn)更好,分析可知,DBSCAN密度聚類(lèi)算法對(duì)噪聲數(shù)據(jù)比較敏感,而且對(duì)參數(shù)的設(shè)置要求也較高,因此得到的結(jié)果有很大的差異。譜聚類(lèi)和凝聚式層次聚類(lèi)在本文數(shù)據(jù)上的性能表現(xiàn)沒(méi)有K-means聚類(lèi)算法好。

5 結(jié)論

    本文針對(duì)傳統(tǒng)話(huà)題檢測(cè)方法的缺陷,提出了一種改進(jìn)的特征融合短文本聚類(lèi)的微博話(huà)題發(fā)現(xiàn)模型,改進(jìn)了傳統(tǒng)的向量空間模型對(duì)微博短文本的表示方式,引入詞對(duì)向量空間模型,并結(jié)合主題空間模型在潛在語(yǔ)義挖掘上的優(yōu)點(diǎn),提高了微博話(huà)題發(fā)現(xiàn)的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的特征融合模型具有更優(yōu)的話(huà)題發(fā)現(xiàn)效果。

    雖然詞對(duì)比詞更能表達(dá)文本的語(yǔ)義信息,但是微博短文本數(shù)據(jù)集中詞對(duì)的數(shù)量要遠(yuǎn)遠(yuǎn)多于詞的數(shù)量,這會(huì)造成文本轉(zhuǎn)化為向量時(shí)的維度過(guò)高。而且K-means聚類(lèi)算法對(duì)初始聚類(lèi)中心點(diǎn)較為敏感,對(duì)最終的聚類(lèi)結(jié)果有影響,因此下一步的工作方向就是解決主題K值的自適應(yīng)和K-means聚類(lèi)算法初始中心點(diǎn)選擇的問(wèn)題。

參考文獻(xiàn)

[1] 中國(guó)互聯(lián)網(wǎng)信息中心.第43次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].北京:中國(guó)互聯(lián)網(wǎng)信息中心,2019.

[2] Zheng Jun,Li Yuanjun.A hot topic detection method for Chinese Microblog based on topic words[C].International Conference on Information Technology & Electronic Commerce,2015.

[3] BENNY A,PHILIP M.Keyword based tweet extraction and detection of related topics[J].Procedia Computer Science,2015,46(46):364-371.

[4] 張雪松,賈彩燕.一種基于頻繁詞集表示的新文本聚類(lèi)方法[J].計(jì)算機(jī)研究與發(fā)展,2018,55(1):102-112.

[5] LIU G,XU X,ZHU Y,et al.An improved latent Dirichlet allocation model for hot topic extraction[C].2014 IEEE International Conference on Big Data and Cloud Computing(BdCloud).IEEE Computer Society,2014.

[6] 石磊,杜軍平,梁美玉.基于RNN和主題模型的社交網(wǎng)絡(luò)突發(fā)話(huà)題發(fā)現(xiàn)[J].通信學(xué)報(bào),2018,39(4):189-198.

[7] 車(chē)?yán)?,楊小?多特征融合文本聚類(lèi)的新聞話(huà)題發(fā)現(xiàn)模型[J].國(guó)防科技大學(xué)學(xué)報(bào),2017,39(3):85-90.

[8] 曾祥坤,張俊輝,石拓,等.基于主題提取模型的交通違法行為文本數(shù)據(jù)的挖掘[J].電子技術(shù)應(yīng)用,2019,45(6):41-45.

[9] ZHAO Y,ZHANG K,ZHANG H,et al.-Hot topic detection based on combined content and time similarity[C].2017 International Conference on Progress in Informatics and Computing(PIC),Nanjing,2017:399-403.

[10] 黃建一,李建江,王錚,等.基于上下文相似度矩陣的Single-Pass短文本聚類(lèi)[J].計(jì)算機(jī)科學(xué),2019,46(4):50-56. 

[11] 李勇,張克亮.面向LDA和VSM模型的微博熱點(diǎn)話(huà)題發(fā)現(xiàn)研究[J].自動(dòng)化技術(shù)與應(yīng)用,2016,35(8):52-57.

[12] MA R,XU P,LI L,et al.Hotspot detection in social media based on improved strategy clustering[C].International Conference on Big Data,2019.

[13] 李征,李斌.一種基于改進(jìn)相似度計(jì)算的文本聚類(lèi)方法[J].河南大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,48(4):415-420.

[14] 張文博,米成剛,楊雅婷.基于詞對(duì)向量的中文新聞話(huà)題檢測(cè)方法[J].廈門(mén)大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,58(2):231-236.

[15] BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet allocation[J].The Journal of Machine Learning Research,2003,3(4/5):993-1022.

[16] ZHANG Q,SUN Y.The collocation model based on LDA[C].SPIE Sixth International Conference on Electronics and Information Engineering,Dalian,China,2015.

[17] 譚夢(mèng)婕,呂鑫,陶飛飛.基于多特征融合的財(cái)經(jīng)新聞話(huà)題檢測(cè)研究[J].計(jì)算機(jī)工程,2019,45(3):293-299,308.

[18] 張杰,卓靈,朱韻攸.一種K-means聚類(lèi)算法的改進(jìn)與應(yīng)用[J].電子技術(shù)應(yīng)用,2015,41(1):125-128.



作者信息:

李海磊1,楊文忠1,2,李東昊1,溫杰彬1,錢(qián)蕓蕓1

(1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;

2.中國(guó)電子科學(xué)研究院 社會(huì)安全風(fēng)險(xiǎn)感知與防控大數(shù)據(jù)應(yīng)用國(guó)家工程實(shí)驗(yàn)室,北京 100041)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。