摘 要: 針對目前互聯(lián)網(wǎng)“富信息化”現(xiàn)象,提出了基于機器學(xué)習(xí)的網(wǎng)絡(luò)熱點話題預(yù)測的思想。該思想通過總結(jié)能盡量準確描述熱點話題的一組特征,得到每篇新聞各自的特征向量,并針對大量近期已知是否熱門的隨機新聞樣本內(nèi)容進行聚類處理。基于健壯精準的分類算法,利用支持向量機將向量映射到高維空間達到分類目的。在機器學(xué)習(xí)過程中,采用大量試驗的方法修改并完善特征向量的組成、度量及權(quán)重,最終達到準確作出熱點話題預(yù)測的目的。
關(guān)鍵詞: 機器學(xué)習(xí);網(wǎng)絡(luò)媒體;熱點話題;特征向量;分詞;預(yù)測
互聯(lián)網(wǎng)信息發(fā)布的便利性使得大眾每天面對爆炸性增長的信息沖擊,大量文本及文本信息在豐富大眾生活的同時,也給用戶帶來了困擾。人們在獲取固定信息的同時,往往希望獲取特定領(lǐng)域的流行信息。為滿足人們的這種需求,互聯(lián)網(wǎng)新聞給出了相應(yīng)的對策,如訂閱熱門話題、熱門新聞上首頁等措施。這些雖然在一定程度上解決了上述需求,但熱門信息的排序仍然需要人工手動添加完成,從時間成本和人工成本上來說都十分浪費,并且用戶也無法及時得到最新的熱門資訊。
為此,本文提出了基于機器學(xué)習(xí)的網(wǎng)絡(luò)熱點話題預(yù)測方法,該方法可以有效地滿足互聯(lián)網(wǎng)用戶的上述需求,并幫助新聞工作者有效減少工作量。利用機器學(xué)習(xí)帶來的便利性,不僅可以快速分類出熱門新聞話題,并且可以做到按熱門排序,這樣既能方便用戶快速聚焦社會生活中的熱門話題,同時也能幫助網(wǎng)頁新聞工作者大量減少因為排序而帶來的簡單重復(fù)的工作量。
1 國內(nèi)外發(fā)展現(xiàn)狀
在國際上,熱門話題的發(fā)掘工作層出不窮。彭菲菲等人針對信息冗余等現(xiàn)象提出了資源整合方法,對熱點話題發(fā)現(xiàn)的關(guān)鍵技術(shù)做了一些改進[1];王巍等人針對Chen Kuan新聞報道側(cè)重點的變化提出了基于多中心模型的熱點話題發(fā)現(xiàn)算法[2];賴錦輝等人針對微博中孤立點較多的現(xiàn)象提出了消除孤立點的微博熱點話題發(fā)現(xiàn)方法,消除孤立點再用CURE算法聚類,效果較好,但僅針對特征明顯的微博進行研究[3];黃蕉平等人基于微博進行了負面新聞的早期預(yù)測研究工作,由于微博特有的轉(zhuǎn)發(fā)量、點贊數(shù)等多維度為其研究成果在其他領(lǐng)域的應(yīng)用帶來了一定的局限性。除了以上學(xué)術(shù)界的相關(guān)工作研究,商業(yè)領(lǐng)域也存在許多熱點話題資訊系統(tǒng),比如常用的谷歌手機軟件Google Currents2.0在最近的更新中就特別加入了Breaking Stories版塊。總結(jié)以上研究成果,國內(nèi)外仍沒有很好的熱點話題預(yù)測研究,有的側(cè)重點在挖掘而不在預(yù)測,有的著眼于預(yù)測卻不具有很好的擴展性。
本文提出一種實用性廣、可預(yù)測性強的熱點話題預(yù)測方法,總結(jié)出一組能盡量準確描述熱點話題特征,得到每篇新聞各自的特征向量,然后基于這組特征對大量近期隨機已知是否熱門的樣本新聞文本內(nèi)容進行聚類處理,利用支持向量機對數(shù)據(jù)進行分類。由于機器學(xué)習(xí)是一個需要反復(fù)修改的過程,該方法的另一個研究重點就是在大量試驗中修改并完善特征向量的組成、度量以及權(quán)重,最終希望能達到準確作出熱點話題分類即預(yù)測的目的。
2 基于機器學(xué)習(xí)的熱點話題預(yù)測方法
根據(jù)互聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)和已有的新聞話題預(yù)測模型,得到圖1所示的整體設(shè)計結(jié)構(gòu)圖。該結(jié)構(gòu)圖主要由數(shù)據(jù)挖掘器、特征提取器以及分類器3部分構(gòu)成。
從第三步訓(xùn)練結(jié)果→支持→測試結(jié)果→反饋→特征提取器可以看出,該步驟是一個不斷循環(huán)的過程,目的在于根據(jù)測試結(jié)果不斷調(diào)整特征值,直到達到滿意的效果。
由于步驟模塊化,該結(jié)構(gòu)設(shè)計可應(yīng)對多種不同需求的話題預(yù)測,支持不同新聞網(wǎng)站、不同類別下新聞預(yù)測以及熱點或非熱點的新聞話題預(yù)測。
2.1 數(shù)據(jù)挖掘問題
本節(jié)以CNN國際新聞網(wǎng)站為例,闡述新聞挖掘提取過程。該新聞網(wǎng)站每天有上萬條新聞,如何準確挖掘及提取4個關(guān)鍵屬性是數(shù)據(jù)挖掘器需要解決的主要問題。設(shè)計思路是將網(wǎng)站上的無數(shù)條鏈接看做一個樹狀結(jié)構(gòu),CNN主頁URL即為該樹狀結(jié)構(gòu)的父節(jié)點。首先對每一層進行廣度優(yōu)先遍歷,將獲取到的新聞鏈接存入隊列中,接著進行深度優(yōu)先遍歷,直到獲取到數(shù)量足夠多的新聞為止。該方法的優(yōu)點是挖掘到的新聞不會重復(fù)。針對每一個新聞鏈接,首先利用httpclient客戶端編程工具包提取網(wǎng)頁源代碼,通過HTML解析技術(shù)分別將新聞標題、作者、發(fā)布時間和正文4項要素提取出來,每提取一篇新聞即將4要素存入連接好的數(shù)據(jù)庫中,該表的格式設(shè)計如表1所示。
2.2 特征提取問題
2.2.1 關(guān)鍵詞模式匹配技術(shù)簡介
模式(Schema)是指按照某種結(jié)構(gòu)組織起來的多個元素的集合,模式匹配是指將兩個模式作為輸入,計算模式元素之間語義上的對應(yīng)關(guān)系的過程[4]。本文中特征向量中的兩個元素——知名度和敏感度,需要計算新聞文章中出現(xiàn)的名人數(shù)或敏感詞的個數(shù),為了實現(xiàn)這一計算,故選用模式匹配技術(shù)。由于熱點話題的特點,在新聞話題預(yù)測中不需要找出具體匹配位置。
2.2.2 特征提取
?。?)知名度。建立名人庫[5],匹配新聞,若出現(xiàn)詞庫中人名則該特征記為1,否則記為0。
famous=0(初始值)(1)
?。?)敏感度。建立敏感詞詞庫(如explosion,death等),新聞標題及內(nèi)容中出現(xiàn)的敏感詞次數(shù)記為a,敏感詞庫總次數(shù)為b,定義敏感度為a/b(0-1)。
Sensitivity=a/b(2)
(3)文本長度。新聞?wù)拈L度過長或過短都會影響其熱度,首先設(shè)定該長度閾值為500,該值根據(jù)實驗測試結(jié)果不斷調(diào)整。
Length=500(初始值)(3)
?。?)時效性。當(dāng)前時間與發(fā)表時間求差,差值x以24為閾值。
?。?)生動性。統(tǒng)計一篇新聞的形容詞個數(shù)m占整篇新聞詞數(shù)n的比例(0~1),比例高者權(quán)重高,新聞話題熱度更高。
Vivid=m/n(5)
2.3 分類器問題
2.3.1支持向量機技術(shù)簡介
支持向量機(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它的原理是尋找一個最優(yōu)的分類超平面,在保證精度的同時能夠使平面兩側(cè)的空白做到最大化,所以理論上來說支持向量機可以實現(xiàn)線性數(shù)據(jù)的最優(yōu)分類[6]。上文提到的特征向量就是一組可分的線性數(shù)據(jù),故選用支持向量機技術(shù)。
2.3.2 機器學(xué)習(xí)技術(shù)簡介
機器學(xué)習(xí)ML(Machine Learning)就是讓機器來模擬人類的學(xué)習(xí)功能,是一門研究怎樣用機器來模擬或?qū)崿F(xiàn)人類學(xué)習(xí)活動的學(xué)科,要使計算機具有某種學(xué)習(xí)能力,就需要為其建立相應(yīng)的學(xué)習(xí)系統(tǒng)。本文背景下的學(xué)習(xí)系統(tǒng)基本模型如圖2所示。
其中,新聞信息為互聯(lián)網(wǎng)中實時更新的新聞內(nèi)容;關(guān)鍵詞提取是將新聞內(nèi)容等要素加工為知識的過程;知識庫則是用來存儲上一環(huán)節(jié)得到的知識;執(zhí)行環(huán)節(jié)是利用知識庫中的知識完成分類的過程,并且把信息反饋給學(xué)習(xí)環(huán)節(jié)(關(guān)鍵詞提?。?,達到良性學(xué)習(xí)的目的。
2.3.3 分類器原理
將上節(jié)提取出的特征集拿出90%作為特征訓(xùn)練集放入分類器中進行分類學(xué)習(xí),分類器得到分類標準后將剩下的10%特征集用于測試訓(xùn)練集,檢測分類標準的準確度及可信性。將結(jié)果反饋到特征提取器中,并不斷進行特征及權(quán)重的調(diào)整[7]。最終達到分類出熱點新聞和非熱點新聞的目的,即熱點新聞話題預(yù)測的目的。
在當(dāng)今信息爆炸的時代背景下,預(yù)測熱點新聞話題的工作具有十分重要的實際意義。根據(jù)目前已有的大量相關(guān)工作,提出由數(shù)據(jù)挖掘器、特征提取器和分類器3部分組成的熱點新聞話題預(yù)測模型,該模型通過機器學(xué)習(xí)的手段不斷進行特征及權(quán)重的調(diào)整,從而達到預(yù)測熱點話題的目的。這項工作的研究成果,不僅能引導(dǎo)用戶去關(guān)注社會和生活中的焦點話題,同時也能幫助網(wǎng)絡(luò)新聞工作者降低繁重重復(fù)的工作量,因此,它具有較為廣泛的適用性,并能創(chuàng)造一定的經(jīng)濟效益和社會效益。
參考文獻
[1] 彭菲菲.網(wǎng)絡(luò)熱點話題發(fā)現(xiàn)的關(guān)鍵技術(shù)研究[D].北京:中國礦業(yè)大學(xué)(北京),2012.
[2] 王巍,楊武,齊海鳳.基于多中心模型的網(wǎng)絡(luò)熱點話題發(fā)現(xiàn)算法[J].南京理工大學(xué)學(xué)報(自然科學(xué)版),2009,33(4):422-426.
[3] 賴錦輝,梁松.一種消除孤立點的微博熱點話題發(fā)現(xiàn)方法[J].計算機應(yīng)用與軟件,2014(1):105-137,139.
[4] RAHM E, BERNSTEIN P A. A survey of approaches to automatic schema matching[J]. The VLDB Journal, 2001, 10(4): 334-350.
[5] 馬子恩.熱點事件新聞?wù)Z料庫的研制及詞匯研究[D].南京:南京師范大學(xué),2012.
[6] LI S, ZHAO J, SONG Z, et al. Study on topic tracking system based on SVM[C]. 2011 Fourth International Sym-
posium on Knowledge Acquisition and Modeling(KAM), IEEE, 2011: 83-87.
[7] ZHENG Y, LU R. An adaptive topic tracking method based on feedback stories[C]. International Symposium on Information Technology in Medicine and Education, 2012(2):1021-1025.