123,123,123

基于机器学习的网络媒体热点话题预测方法研究与实现

2014年微型机与应用第15期

梁野1，2，郭宁宁1，李碧萩1，李超2，邢春晓2

1.北京外国语大学计算机系2.清华大学信息技术研究院

摘要： 针对目前互联网“富信息化”现象，提出了基于机器学习的网络热点话题预测的思想。该思想通过总结能尽量准确描述热点话题的一组特征，得到每篇新闻各自的特征向量，并针对大量近期已知是否热门的随机新闻样本内容进行聚类处理。基于健壮精准的分类算法，利用支持向量机将向量映射到高维空间达到分类目的。在机器学习过程中，采用大量试验的方法修改并完善特征向量的组成、度量及权重，最终达到准确作出热点话题预测的目的。

關(guān)鍵詞： 机器学习网络媒体热点话题特征向量

Abstract：

Key words :

　　摘要： 針對(duì)目前互聯(lián)網(wǎng)“富信息化”現(xiàn)象，提出了基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測(cè)的思想。該思想通過總結(jié)能盡量準(zhǔn)確描述熱點(diǎn)話題的一組特征，得到每篇新聞各自的特征向量，并針對(duì)大量近期已知是否熱門的隨機(jī)新聞樣本內(nèi)容進(jìn)行聚類處理。基于健壯精準(zhǔn)的分類算法，利用支持向量機(jī)將向量映射到高維空間達(dá)到分類目的。在機(jī)器學(xué)習(xí)過程中，采用大量試驗(yàn)的方法修改并完善特征向量的組成、度量及權(quán)重，最終達(dá)到準(zhǔn)確作出熱點(diǎn)話題預(yù)測(cè)的目的。

　　關(guān)鍵詞：機(jī)器學(xué)習(xí)；網(wǎng)絡(luò)媒體；熱點(diǎn)話題；特征向量；分詞；預(yù)測(cè)

　　互聯(lián)網(wǎng)信息發(fā)布的便利性使得大眾每天面對(duì)爆炸性增長(zhǎng)的信息沖擊，大量文本及文本信息在豐富大眾生活的同時(shí)，也給用戶帶來了困擾。人們?cè)讷@取固定信息的同時(shí)，往往希望獲取特定領(lǐng)域的流行信息。為滿足人們的這種需求，互聯(lián)網(wǎng)新聞給出了相應(yīng)的對(duì)策，如訂閱熱門話題、熱門新聞上首頁(yè)等措施。這些雖然在一定程度上解決了上述需求，但熱門信息的排序仍然需要人工手動(dòng)添加完成，從時(shí)間成本和人工成本上來說都十分浪費(fèi)，并且用戶也無法及時(shí)得到最新的熱門資訊。

　　為此，本文提出了基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測(cè)方法，該方法可以有效地滿足互聯(lián)網(wǎng)用戶的上述需求，并幫助新聞工作者有效減少工作量。利用機(jī)器學(xué)習(xí)帶來的便利性，不僅可以快速分類出熱門新聞話題，并且可以做到按熱門排序，這樣既能方便用戶快速聚焦社會(huì)生活中的熱門話題，同時(shí)也能幫助網(wǎng)頁(yè)新聞工作者大量減少因?yàn)榕判蚨鴰淼暮?jiǎn)單重復(fù)的工作量。

1 國(guó)內(nèi)外發(fā)展現(xiàn)狀

　　在國(guó)際上，熱門話題的發(fā)掘工作層出不窮。彭菲菲等人針對(duì)信息冗余等現(xiàn)象提出了資源整合方法，對(duì)熱點(diǎn)話題發(fā)現(xiàn)的關(guān)鍵技術(shù)做了一些改進(jìn)[1]；王巍等人針對(duì)Chen Kuan新聞報(bào)道側(cè)重點(diǎn)的變化提出了基于多中心模型的熱點(diǎn)話題發(fā)現(xiàn)算法[2]；賴錦輝等人針對(duì)微博中孤立點(diǎn)較多的現(xiàn)象提出了消除孤立點(diǎn)的微博熱點(diǎn)話題發(fā)現(xiàn)方法，消除孤立點(diǎn)再用CURE算法聚類，效果較好，但僅針對(duì)特征明顯的微博進(jìn)行研究[3]；黃蕉平等人基于微博進(jìn)行了負(fù)面新聞的早期預(yù)測(cè)研究工作，由于微博特有的轉(zhuǎn)發(fā)量、點(diǎn)贊數(shù)等多維度為其研究成果在其他領(lǐng)域的應(yīng)用帶來了一定的局限性。除了以上學(xué)術(shù)界的相關(guān)工作研究，商業(yè)領(lǐng)域也存在許多熱點(diǎn)話題資訊系統(tǒng)，比如常用的谷歌手機(jī)軟件Google Currents2.0在最近的更新中就特別加入了Breaking Stories版塊?？偨Y(jié)以上研究成果，國(guó)內(nèi)外仍沒有很好的熱點(diǎn)話題預(yù)測(cè)研究，有的側(cè)重點(diǎn)在挖掘而不在預(yù)測(cè)，有的著眼于預(yù)測(cè)卻不具有很好的擴(kuò)展性。

　　本文提出一種實(shí)用性廣、可預(yù)測(cè)性強(qiáng)的熱點(diǎn)話題預(yù)測(cè)方法，總結(jié)出一組能盡量準(zhǔn)確描述熱點(diǎn)話題特征，得到每篇新聞各自的特征向量，然后基于這組特征對(duì)大量近期隨機(jī)已知是否熱門的樣本新聞文本內(nèi)容進(jìn)行聚類處理，利用支持向量機(jī)對(duì)數(shù)據(jù)進(jìn)行分類。由于機(jī)器學(xué)習(xí)是一個(gè)需要反復(fù)修改的過程，該方法的另一個(gè)研究重點(diǎn)就是在大量試驗(yàn)中修改并完善特征向量的組成、度量以及權(quán)重，最終希望能達(dá)到準(zhǔn)確作出熱點(diǎn)話題分類即預(yù)測(cè)的目的。

2 基于機(jī)器學(xué)習(xí)的熱點(diǎn)話題預(yù)測(cè)方法

　　根據(jù)互聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)和已有的新聞話題預(yù)測(cè)模型，得到圖1所示的整體設(shè)計(jì)結(jié)構(gòu)圖。該結(jié)構(gòu)圖主要由數(shù)據(jù)挖掘器、特征提取器以及分類器3部分構(gòu)成。

　　從第三步訓(xùn)練結(jié)果→支持→測(cè)試結(jié)果→反饋→特征提取器可以看出，該步驟是一個(gè)不斷循環(huán)的過程，目的在于根據(jù)測(cè)試結(jié)果不斷調(diào)整特征值，直到達(dá)到滿意的效果。

　　由于步驟模塊化，該結(jié)構(gòu)設(shè)計(jì)可應(yīng)對(duì)多種不同需求的話題預(yù)測(cè)，支持不同新聞網(wǎng)站、不同類別下新聞?lì)A(yù)測(cè)以及熱點(diǎn)或非熱點(diǎn)的新聞話題預(yù)測(cè)。

　　2.1 數(shù)據(jù)挖掘問題

　　本節(jié)以CNN國(guó)際新聞網(wǎng)站為例，闡述新聞挖掘提取過程。該新聞網(wǎng)站每天有上萬(wàn)條新聞，如何準(zhǔn)確挖掘及提取4個(gè)關(guān)鍵屬性是數(shù)據(jù)挖掘器需要解決的主要問題。設(shè)計(jì)思路是將網(wǎng)站上的無數(shù)條鏈接看做一個(gè)樹狀結(jié)構(gòu)，CNN主頁(yè)URL即為該樹狀結(jié)構(gòu)的父節(jié)點(diǎn)。首先對(duì)每一層進(jìn)行廣度優(yōu)先遍歷，將獲取到的新聞鏈接存入隊(duì)列中，接著進(jìn)行深度優(yōu)先遍歷，直到獲取到數(shù)量足夠多的新聞為止。該方法的優(yōu)點(diǎn)是挖掘到的新聞不會(huì)重復(fù)。針對(duì)每一個(gè)新聞鏈接，首先利用httpclient客戶端編程工具包提取網(wǎng)頁(yè)源代碼，通過HTML解析技術(shù)分別將新聞標(biāo)題、作者、發(fā)布時(shí)間和正文4項(xiàng)要素提取出來，每提取一篇新聞即將4要素存入連接好的數(shù)據(jù)庫(kù)中，該表的格式設(shè)計(jì)如表1所示。

　　2.2 特征提取問題

　　2.2.1 關(guān)鍵詞模式匹配技術(shù)簡(jiǎn)介

　　模式（Schema）是指按照某種結(jié)構(gòu)組織起來的多個(gè)元素的集合，模式匹配是指將兩個(gè)模式作為輸入，計(jì)算模式元素之間語(yǔ)義上的對(duì)應(yīng)關(guān)系的過程[4]。本文中特征向量中的兩個(gè)元素——知名度和敏感度，需要計(jì)算新聞文章中出現(xiàn)的名人數(shù)或敏感詞的個(gè)數(shù)，為了實(shí)現(xiàn)這一計(jì)算，故選用模式匹配技術(shù)。由于熱點(diǎn)話題的特點(diǎn)，在新聞話題預(yù)測(cè)中不需要找出具體匹配位置。

　　2.2.2 特征提取

　?。?）知名度。建立名人庫(kù)[5]，匹配新聞，若出現(xiàn)詞庫(kù)中人名則該特征記為1，否則記為0。

　　famous=0（初始值）（1）

　?。?）敏感度。建立敏感詞詞庫(kù)（如explosion，death等），新聞標(biāo)題及內(nèi)容中出現(xiàn)的敏感詞次數(shù)記為a，敏感詞庫(kù)總次數(shù)為b，定義敏感度為a/b（0-1）。

　　Sensitivity=a/b（2）

　?。?）文本長(zhǎng)度。新聞?wù)拈L(zhǎng)度過長(zhǎng)或過短都會(huì)影響其熱度，首先設(shè)定該長(zhǎng)度閾值為500，該值根據(jù)實(shí)驗(yàn)測(cè)試結(jié)果不斷調(diào)整。

　　Length=500（初始值）（3）

　　（4）時(shí)效性。當(dāng)前時(shí)間與發(fā)表時(shí)間求差，差值x以24為閾值。

　　 YGAR1RZAJG687@PKBB2BDPU.png

　?。?）生動(dòng)性。統(tǒng)計(jì)一篇新聞的形容詞個(gè)數(shù)m占整篇新聞詞數(shù)n的比例（0~1），比例高者權(quán)重高，新聞話題熱度更高。

　　Vivid=m/n（5）

　　2.3 分類器問題

　　2.3.1支持向量機(jī)技術(shù)簡(jiǎn)介

　　支持向量機(jī)（Support Vector Machine）是Cortes和Vapnik于1995年首先提出的，它的原理是尋找一個(gè)最優(yōu)的分類超平面，在保證精度的同時(shí)能夠使平面兩側(cè)的空白做到最大化，所以理論上來說支持向量機(jī)可以實(shí)現(xiàn)線性數(shù)據(jù)的最優(yōu)分類[6]。上文提到的特征向量就是一組可分的線性數(shù)據(jù)，故選用支持向量機(jī)技術(shù)。

　　2.3.2 機(jī)器學(xué)習(xí)技術(shù)簡(jiǎn)介

　　機(jī)器學(xué)習(xí)ML（Machine Learning）就是讓機(jī)器來模擬人類的學(xué)習(xí)功能，是一門研究怎樣用機(jī)器來模擬或?qū)崿F(xiàn)人類學(xué)習(xí)活動(dòng)的學(xué)科，要使計(jì)算機(jī)具有某種學(xué)習(xí)能力，就需要為其建立相應(yīng)的學(xué)習(xí)系統(tǒng)。本文背景下的學(xué)習(xí)系統(tǒng)基本模型如圖2所示。

　　其中，新聞信息為互聯(lián)網(wǎng)中實(shí)時(shí)更新的新聞內(nèi)容；關(guān)鍵詞提取是將新聞內(nèi)容等要素加工為知識(shí)的過程；知識(shí)庫(kù)則是用來存儲(chǔ)上一環(huán)節(jié)得到的知識(shí)；執(zhí)行環(huán)節(jié)是利用知識(shí)庫(kù)中的知識(shí)完成分類的過程，并且把信息反饋給學(xué)習(xí)環(huán)節(jié)（關(guān)鍵詞提?。?，達(dá)到良性學(xué)習(xí)的目的。

　　2.3.3 分類器原理

　　將上節(jié)提取出的特征集拿出90%作為特征訓(xùn)練集放入分類器中進(jìn)行分類學(xué)習(xí)，分類器得到分類標(biāo)準(zhǔn)后將剩下的10%特征集用于測(cè)試訓(xùn)練集，檢測(cè)分類標(biāo)準(zhǔn)的準(zhǔn)確度及可信性。將結(jié)果反饋到特征提取器中，并不斷進(jìn)行特征及權(quán)重的調(diào)整[7]。最終達(dá)到分類出熱點(diǎn)新聞和非熱點(diǎn)新聞的目的，即熱點(diǎn)新聞話題預(yù)測(cè)的目的。

　　在當(dāng)今信息爆炸的時(shí)代背景下，預(yù)測(cè)熱點(diǎn)新聞話題的工作具有十分重要的實(shí)際意義。根據(jù)目前已有的大量相關(guān)工作，提出由數(shù)據(jù)挖掘器、特征提取器和分類器3部分組成的熱點(diǎn)新聞話題預(yù)測(cè)模型，該模型通過機(jī)器學(xué)習(xí)的手段不斷進(jìn)行特征及權(quán)重的調(diào)整，從而達(dá)到預(yù)測(cè)熱點(diǎn)話題的目的。這項(xiàng)工作的研究成果，不僅能引導(dǎo)用戶去關(guān)注社會(huì)和生活中的焦點(diǎn)話題，同時(shí)也能幫助網(wǎng)絡(luò)新聞工作者降低繁重重復(fù)的工作量，因此，它具有較為廣泛的適用性，并能創(chuàng)造一定的經(jīng)濟(jì)效益和社會(huì)效益。

　　參考文獻(xiàn)

　　[1] 彭菲菲.網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的關(guān)鍵技術(shù)研究[D].北京：中國(guó)礦業(yè)大學(xué)（北京），2012.

　　[2] 王巍，楊武，齊海鳳.基于多中心模型的網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)算法[J].南京理工大學(xué)學(xué)報(bào)（自然科學(xué)版），2009，33（4）：422-426.

　　[3] 賴錦輝，梁松.一種消除孤立點(diǎn)的微博熱點(diǎn)話題發(fā)現(xiàn)方法[J].計(jì)算機(jī)應(yīng)用與軟件，2014（1）：105-137，139.

　　[4] RAHM E， BERNSTEIN P A. A survey of approaches to automatic schema matching[J]. The VLDB Journal， 2001， 10（4）： 334-350.

　　[5] 馬子恩.熱點(diǎn)事件新聞?wù)Z料庫(kù)的研制及詞匯研究[D].南京：南京師范大學(xué)，2012.

　　[6] LI S， ZHAO J， SONG Z， et al. Study on topic tracking system based on SVM[C]. 2011 Fourth International Sym-

　　posium on Knowledge Acquisition and Modeling（KAM）， IEEE， 2011： 83-87.

　　[7] ZHENG Y， LU R. An adaptive topic tracking method based on feedback stories[C]. International Symposium on Information Technology in Medicine and Education， 2012（2）：1021-1025.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容