《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 種子事件與新穎事件演化關(guān)系的話題檢測(cè)與追蹤
種子事件與新穎事件演化關(guān)系的話題檢測(cè)與追蹤
來源:微型機(jī)與應(yīng)用2013年第6期
胡耀斌1,林培光1,聶培堯1,耿長欣1,文 卉2
(1.山東財(cái)經(jīng)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 濟(jì)南250014; 2.山東財(cái)經(jīng)大學(xué) 財(cái)政稅務(wù)學(xué)院,
摘要: 在話題檢測(cè)和追蹤過程中,話題漂移的產(chǎn)生往往降低話題檢測(cè)和追蹤的準(zhǔn)確率。為了克服這個(gè)問題,通過分析新聞報(bào)道中種子事件與后續(xù)的新穎事件之間的演化關(guān)系,強(qiáng)調(diào)命名實(shí)體詞的貢獻(xiàn)度,并及時(shí)調(diào)整話題的重心向量,建立了一種動(dòng)態(tài)的話題檢測(cè)和追蹤模型。實(shí)驗(yàn)證明,該模型有效地降低了話題漂移現(xiàn)象在話題檢測(cè)與話題追蹤中的影響。
關(guān)鍵詞: 種子事件 新穎事件 話題漂移
Abstract:
Key words :

摘  要: 在話題檢測(cè)和追蹤過程中,話題漂移的產(chǎn)生往往降低話題檢測(cè)和追蹤的準(zhǔn)確率。為了克服這個(gè)問題,通過分析新聞報(bào)道中種子事件與后續(xù)的新穎事件之間的演化關(guān)系,強(qiáng)調(diào)命名實(shí)體詞的貢獻(xiàn)度,并及時(shí)調(diào)整話題的重心向量,建立了一種動(dòng)態(tài)的話題檢測(cè)和追蹤模型。實(shí)驗(yàn)證明,該模型有效地降低了話題漂移現(xiàn)象在話題檢測(cè)與話題追蹤中的影響。
關(guān)鍵詞: 種子事件;新穎事件;話題漂移

    隨著信息技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們獲得信息的主要來源之一,然而面對(duì)互聯(lián)網(wǎng)的海量信息,用戶要集中關(guān)注某個(gè)感興趣的主題時(shí),往往感到無所適從。在這種情況下,話題檢測(cè)與追蹤TDT(Topic Detection and Tracking)應(yīng)運(yùn)而生。TDT概念由美國國防高級(jí)研究計(jì)劃委員會(huì)DARPA(Defense Advanced Research Project Agency)在1996年提出,近些年關(guān)于TDT的研究得到迅速發(fā)展,目前已經(jīng)發(fā)展到第五代TDT技術(shù)評(píng)價(jià)階段[1]。
    TDT對(duì)話題的定義為:一個(gè)話題由一個(gè)種子事件或活動(dòng)以及與其直接相關(guān)的事件或活動(dòng)組成。話題檢測(cè)的主要任務(wù)是檢測(cè)識(shí)別出系統(tǒng)未知的話題。話題追蹤被定義為用一個(gè)或幾個(gè)報(bào)道定義一個(gè)話題,在一個(gè)報(bào)道流中順序檢測(cè)出對(duì)該話題的所有相關(guān)報(bào)道[2]。
    在話題檢測(cè)和追蹤領(lǐng)域存在一種現(xiàn)象,話題會(huì)隨著時(shí)間的變化轉(zhuǎn)移重心,例如當(dāng)某自然災(zāi)害發(fā)生時(shí),新聞報(bào)道的內(nèi)容主要是該自然災(zāi)害造成的傷亡和損失,隨著事件的發(fā)生,新聞報(bào)道的重心則轉(zhuǎn)移到了災(zāi)后的救助和災(zāi)后重建,這種話題的動(dòng)態(tài)演變稱為話題漂移。本文旨在提出一種能夠解決話題漂移的話題檢測(cè)與追蹤模型,使得TDT系統(tǒng)在追蹤話題漂移的報(bào)道時(shí),能夠準(zhǔn)確地將其劃分到所屬的話題中。
1 國內(nèi)外研究現(xiàn)狀
    國外對(duì)TDT的研究起步較早,最初的研究參與者不僅包括卡耐基梅隆大學(xué)、馬薩諸塞大學(xué)、賓州大學(xué)等一流的大學(xué),還包括IBM、GE、Dragon Systems等實(shí)力雄厚的公司。馬薩諸塞大學(xué)采用Rocchio算法,利用特征詞的不同權(quán)重組合實(shí)現(xiàn)自適應(yīng)的話題追蹤算法,證明了采用“NUC”權(quán)重計(jì)算方法可取得最優(yōu)性能[3]??突仿〈髮W(xué)的研究者提出了一種基于決策樹的組合系統(tǒng)BORG TRACK,該系統(tǒng)在話題追蹤領(lǐng)域表現(xiàn)優(yōu)異[4]。IBM公司在話題檢測(cè)和追蹤系統(tǒng)中采用了兩次聚類的策略,使得系統(tǒng)在準(zhǔn)確率方面得到很大的提高[5]。另外還有多種不同方法在這項(xiàng)研究中被嘗試使用,如Single-Pass方法、貝葉斯算法、K-最近鄰居方法等,其中比較成功的有K-最近鄰居方法以及多種方法的組合。
    話題檢測(cè)和追蹤已經(jīng)成為國內(nèi)信息處理領(lǐng)域的熱點(diǎn)問題,雖然國內(nèi)對(duì)TDT的研究相對(duì)國外起步較晚,但經(jīng)過多年的發(fā)展也取得了一些突出的研究成果。賈自艷[6]把命名實(shí)體融入到TDT系統(tǒng)中,并將時(shí)間信息考慮到文本相似性計(jì)算的閾值中,有效地提升了TDT系統(tǒng)跟蹤話題的性能。趙華[7]在TDT系統(tǒng)中考慮時(shí)間信息的重要性,提出了一種基于時(shí)間信息的動(dòng)態(tài)閾值模型,證明了時(shí)間信息應(yīng)該在話題檢測(cè)系統(tǒng)中得到充分利用。
2 相關(guān)技術(shù)
2.1 報(bào)道模型

    文本表示模型共有3種:布爾模型、概率模型及向量空間模型,其中向量空間模型應(yīng)用最為廣泛。本文采用向量空間模型作為文本表示模型。眾所周知,新聞報(bào)道包含4個(gè)要素:時(shí)間、地點(diǎn)、人物和事件。其中時(shí)間、地點(diǎn)、人物和組織機(jī)構(gòu)名等4種命名實(shí)體詞對(duì)新聞報(bào)道內(nèi)容的貢獻(xiàn)度大于其他特征詞。為區(qū)分命名實(shí)體詞和其他特征詞對(duì)文章的貢獻(xiàn)度,在構(gòu)造新聞報(bào)道向量空間模型時(shí),提取上述4種命名實(shí)體詞作為命名實(shí)體向量,提取除命名實(shí)體詞外的其他特征詞作為內(nèi)容向量。
 
    每當(dāng)有新的報(bào)道被劃分到話題模型中后,都需要重新計(jì)算話題模型的權(quán)重,以完成話題模型的更新,目的是讓更新后的話題模型能夠體現(xiàn)出新加入報(bào)道對(duì)該模型的影響。
2.3 新聞報(bào)道中特征詞權(quán)重的計(jì)算
    經(jīng)過一些文本預(yù)處理(去噪分詞)后,新聞文本被表示為一系列的詞,而詞與詞之間對(duì)文本的貢獻(xiàn)是不同的,如何計(jì)算這些詞的權(quán)重顯得很重要。顯而易見的是,出現(xiàn)次數(shù)越多的特征詞對(duì)文本的貢獻(xiàn)越高,表現(xiàn)形式越突出的特征詞對(duì)文本的貢獻(xiàn)越高,例如各級(jí)標(biāo)題中的特征詞或加粗后的特征詞要比那些普通的特征詞具有更高的貢獻(xiàn)。
    本文在計(jì)算特征詞權(quán)重時(shí),將特征詞分成兩部分。第一部分是命名實(shí)體特征詞和特殊內(nèi)容特征詞,命名實(shí)體特征詞指表示時(shí)間、人物、地點(diǎn)、組織機(jī)構(gòu)名的詞;特殊內(nèi)容特征詞指那些加粗或出現(xiàn)在各級(jí)標(biāo)題中的內(nèi)容特征詞。第二部分為除第一部分外,無明顯表現(xiàn)特征的普通內(nèi)容特征詞。

2.4 特征選擇
    由于新聞文本中含有豐富的詞匯量,而能夠表示話題核心的詞匯卻只占一小部分,如果不對(duì)特征詞加以選擇,那么空間向量的維數(shù)會(huì)變得非常高,加大了相似度計(jì)算的復(fù)雜度,系統(tǒng)的性能也會(huì)隨之下降,這就要求對(duì)特征項(xiàng)加以選擇。本文采用隱含語義分析LSA(Latent Semantic Analysis)技術(shù)對(duì)文本向量實(shí)施降維,經(jīng)過驗(yàn)證LSA是目前最好的降維方法之一。
    隱含語義分析的核心思想是將特征項(xiàng)和文本映射到一個(gè)二維的向量空間(矩陣Ai×j)中,假設(shè)這個(gè)矩陣的秩為r,其中每行代表一個(gè)特征詞的權(quán)重,每列代表一個(gè)文本。然后對(duì)矩陣進(jìn)行奇異值分解,即:A=UBVT,其中U和V均為正交矩陣,B=diag(β1,β2,…,βr),然后在這r個(gè)特征值中取前k個(gè)。
2.5 相似性計(jì)算
    根據(jù)新聞報(bào)道R與話題T的相似性計(jì)算結(jié)果判斷報(bào)道是新話題或是已存在話題。本文將相似度的計(jì)算分成兩部分,即新聞報(bào)道的命名實(shí)體向量與話題的命名實(shí)體向量二者之間的相似度(Simn)、新聞報(bào)道的內(nèi)容空間向量與話題的內(nèi)容空間向量二者之間的相似度(Simc)。
    
3 話題檢測(cè)與追蹤算法
    根據(jù)TDT對(duì)話題的定義,可知話題是由種子事件引起的,新聞報(bào)道的內(nèi)容則是圍繞種子事件進(jìn)行描述的。隨著事態(tài)的發(fā)展,種子事件可能會(huì)產(chǎn)生新的狀態(tài)或情況,新聞報(bào)道的內(nèi)容重心也產(chǎn)生了漂移,這種新的事態(tài)情況稱為新穎事件,這個(gè)過程即為種子事件到新穎事件的演化。新穎事件仍然屬于原始話題。在實(shí)際生活中,話題發(fā)生演變過程中,即新聞報(bào)道中產(chǎn)生新穎事件時(shí),常常會(huì)有對(duì)種子事件或前一個(gè)新穎事件的回顧性描述,而且新穎事件一定是發(fā)生在種子事件之后。
    根據(jù)上述內(nèi)容可以得出一個(gè)結(jié)論,即新穎事件的報(bào)道中常常會(huì)有對(duì)種子事件或前一個(gè)新穎事件的回顧性描述,而事件描述的主要內(nèi)容是時(shí)間、地點(diǎn)、人物等命名實(shí)體,這就意味著新聞報(bào)道的命名實(shí)體向量與所屬話題的命名實(shí)體向量具有高相似性。設(shè)定閾值為λ1,若不屬同一話題二者的命名實(shí)體向量的相似性則低于閾值λ1,然后比較新聞報(bào)道的內(nèi)容向量與模型的內(nèi)容向量相似度,若該相似度大于閾值λ2,則仍然認(rèn)為新聞報(bào)道屬于該話題。
    該算法將報(bào)道按時(shí)間先后進(jìn)行排序,依次處理報(bào)道流中的報(bào)道。具體算法實(shí)現(xiàn)如下:
Input:R={R1,R2,…,Rn}   Output:T={T1,T2,…,Tm}
//其中Ri為新聞報(bào)道,Tj為話題
Begin
    T1={R1};num(T1)=1;k=1;
    While(i<n){
        if(Simn(Ri,Tj)> λ1||Simc(Ri,Tj)>λ2)  {
            Tj=Tj+{Ri};//將報(bào)道i劃分到話題j中
            num(Ti)++;
            update(Tj);//更新話題模型,重新計(jì)算
話題模型中特征詞的權(quán)重
        }
        else {
            k++;
            Tk={Ri}; //創(chuàng)建的新話題
            create(Tk)    //創(chuàng)建新話題模型
        }
    }
    return{T1,T2,…Tm}
End

其中,A表示系統(tǒng)追蹤到的相關(guān)新聞報(bào)道數(shù);B表示系統(tǒng)追蹤到的不相關(guān)新聞報(bào)道數(shù);C表示系統(tǒng)未追蹤到的相關(guān)新聞報(bào)道數(shù);D表示系統(tǒng)未追蹤到的不相關(guān)新聞報(bào)道數(shù)。
    通過對(duì)前20個(gè)樣本的學(xué)習(xí),得到參數(shù)的最優(yōu)值分別為:wλ=0.07,λ1=0.39,λ2=0.44,利用所得參數(shù)對(duì)剩余報(bào)道進(jìn)行話題追蹤,最終得到準(zhǔn)確率為95.24%,召回率為93.02%,F(xiàn)1-measure為94%。從評(píng)價(jià)指標(biāo)中可以看出本文提出的基于種子事件和新穎事件時(shí)序關(guān)系的話題檢測(cè)和話題追蹤模型實(shí)現(xiàn)了較好的效果,有效地解決了話題漂移帶來的問題。
    本文首先介紹了TDT系統(tǒng)的相關(guān)技術(shù),包括向量空間模型、特征詞權(quán)重計(jì)算、相似度計(jì)算等,為體現(xiàn)本系統(tǒng)所陳述的算法思想,并對(duì)這些相關(guān)技術(shù)在一定程度上進(jìn)行了改進(jìn)。另外,本文提出了種子事件和后續(xù)的新穎事件之間的時(shí)序關(guān)系,并在此基礎(chǔ)上提出了新的話題探測(cè)和追蹤模型。通過實(shí)驗(yàn)證明,該模型能夠有效地解決話題漂移帶來的問題,保證了TDT系統(tǒng)的有效性。
參考文獻(xiàn)
[1] ALLAN J.Topic detection and tracking-event based information organization[M].Boston:Kluwer Academic Publisher,2002:1241-1253.
[2] CIERI C,STRASSEL S,GRAFF D.Corpora for topic detection and tracking[A].In:ALLAN J.Topic detection and tracking-event based information organization[M].Boston:Kluwer Academic Publisher,2002:33-66.
[3] ROECHIO J.Relevance feedback in information retrieval[A]. In:SALTON G.The smart retrieval system:experiments in  automatic document processing[M].New Jersey:Prentice Hall,1971:313-323.
[4] MITCHEN T M.機(jī)器學(xué)習(xí)[M].曾華軍,張銀奎,譯.北京:機(jī)械工業(yè)出版社,2003.
[5] ALLAN.Topic detection and tracking-Event-based Information Organization[M].Dordrecht:Kluwer Academic Publishers,2002.
[6] 賈自艷,何清,張???,等.一種基于動(dòng)態(tài)進(jìn)化模型的事件探測(cè)和追蹤算法[J].計(jì)算機(jī)研究與發(fā)展,2004,41(7):1273-1280.
[7] 趙華,趙鐵軍,趙霞.時(shí)間信息在話題檢測(cè)中的應(yīng)用研究
     [J].計(jì)算機(jī)科學(xué),2008,35(1):221-223.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。