《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于Dirichlet過程的Deep Web數(shù)據(jù)源聚類方法
基于Dirichlet過程的Deep Web數(shù)據(jù)源聚類方法
2015年微型機(jī)與應(yīng)用第7期
黃 進(jìn),何中市,李英豪
(重慶大學(xué) 計(jì)算機(jī)學(xué)院,重慶 400044)
摘要: 提出了一種基于Dirichlet過程的Deep Web數(shù)據(jù)源聚類方法,該方法采用層次Dirichlet過程(HDP)進(jìn)行特征提取。首先將查詢接口中原本高維稀疏的文本表示為主題特征,該過程能自動(dòng)確定特征數(shù)。然后將文本看成多項(xiàng)式模型,采用Dirichlet過程混合模型聚類。該模型無需人工事先指定聚類個(gè)數(shù),由Dirichlet過程根據(jù)數(shù)據(jù)自動(dòng)計(jì)算得到,特別適用于Deep Web數(shù)據(jù)源數(shù)量大、變化快的特點(diǎn)。在通用數(shù)據(jù)集TEL-8上進(jìn)行驗(yàn)證實(shí)驗(yàn),并與其他聚類方法在F-measure和熵值兩個(gè)指標(biāo)上進(jìn)行對(duì)比,均取得較好的結(jié)果。
Abstract:
Key words :

  摘  要: 提出了一種基于Dirichlet過程Deep Web數(shù)據(jù)源聚類方法,該方法采用層次Dirichlet過程(HDP)進(jìn)行特征提取。首先將查詢接口中原本高維稀疏的文本表示為主題特征,該過程能自動(dòng)確定特征數(shù)。然后將文本看成多項(xiàng)式模型,采用Dirichlet過程混合模型聚類。該模型無需人工事先指定聚類個(gè)數(shù),由Dirichlet過程根據(jù)數(shù)據(jù)自動(dòng)計(jì)算得到,特別適用于Deep Web數(shù)據(jù)源數(shù)量大、變化快的特點(diǎn)。在通用數(shù)據(jù)集TEL-8上進(jìn)行驗(yàn)證實(shí)驗(yàn),并與其他聚類方法在F-measure和熵值兩個(gè)指標(biāo)上進(jìn)行對(duì)比,均取得較好的結(jié)果。

  關(guān)鍵詞: Deep Web;數(shù)據(jù)集成;特征提??;dirichlet過程;混合模型

0 引言

  萬維網(wǎng)中不能被傳統(tǒng)搜索引擎通過靜態(tài)鏈接索引到的內(nèi)容稱為Deep Web。要獲取這部分內(nèi)容只能通過表單提交查詢的方式獲得[1-2]。Deep Web數(shù)據(jù)源的分類是指把所有發(fā)現(xiàn)的數(shù)據(jù)源按照領(lǐng)域進(jìn)行劃分,是Deep Web數(shù)據(jù)源集成的關(guān)鍵步驟之一[3]。目前Deep Web數(shù)據(jù)源分類,多數(shù)研究采用的是有監(jiān)督的分類方法。而一個(gè)標(biāo)注好的數(shù)據(jù)集,需要大量的人工知識(shí),并且隨著萬維網(wǎng)的快速發(fā)展,訓(xùn)練集要考慮更新與擴(kuò)展。這些對(duì)于自動(dòng)化的數(shù)據(jù)集成都是很大的阻礙。在最新的Deep Web研究進(jìn)展與綜述中[4],也明確指出結(jié)合機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘等領(lǐng)域的無監(jiān)督的研究方法是今后的研究重點(diǎn)。

  目前也有一部分研究人員關(guān)注聚類方法的研究。B.He[5]提出了MDhac方法,將表單屬性看做分類數(shù)據(jù)(categorical data),采用基于模型的聚類,用卡方檢驗(yàn)來作為距離函數(shù),進(jìn)行聚類。L.Barbosa[6]等人提出了基于表單內(nèi)容和表單頁面上下文的K-Means聚類方法。Zhao Pengpeng[7]等人提出基于圖模型的聚類方法,算出數(shù)據(jù)源兩兩間的權(quán)值并連接成有權(quán)圖,然后進(jìn)行劃分聚類。Xu Guangyue[8]等人提出了先聚類后分類的方法。先用LDA模型進(jìn)行主題劃分,用主題數(shù)代表聚類數(shù)目,將達(dá)到聚類精度的數(shù)據(jù)作為訓(xùn)練集,訓(xùn)練出分類模型,對(duì)前一步中聚類效果不好的數(shù)據(jù)進(jìn)行后分類。

  通過對(duì)國(guó)內(nèi)外相關(guān)文獻(xiàn)的閱讀與研究,在了解目前的主要方法后發(fā)現(xiàn),目前在Deep Web數(shù)據(jù)源特征提取和聚類數(shù)目的自動(dòng)化確定方面還未有研究工作。正如前面提到的這些方法,都需要事先設(shè)定聚類個(gè)數(shù)或者特征個(gè)數(shù)。而在實(shí)際應(yīng)用中聚類數(shù)目往往并不能事先知道,并會(huì)隨著數(shù)據(jù)的增多而不斷變化。

  Dirichlet過程[9](Dirichlet Process)則是一種具有代表性的非參數(shù)貝葉斯模型,基于Dirichlet過程的方法可以自動(dòng)地學(xué)習(xí)特征數(shù)目和聚類個(gè)數(shù)。結(jié)合Deep Web數(shù)據(jù)源分類問題自身的需求與Dirichlet過程的特點(diǎn),提出了基于Dirichlet過程的Deep Web數(shù)據(jù)源聚類方法。

1 聚類策略及相關(guān)步驟

  Deep Web數(shù)據(jù)源聚類分為表單特征抽取、特征提取、聚類和結(jié)果評(píng)估四個(gè)主要步驟,如圖1所示。

001.jpg

  1.1 表單特征抽取

  從形式上來說,Deep Web查詢接口均以表單的形式出現(xiàn)在頁面中,因此利用表單的特征作為Deep Web分類的判斷依據(jù)是一種合理的解決方式。這也是目前多數(shù)研究人員采用的Pre-query[10]方式。觀察互聯(lián)網(wǎng)上的各種表單,一個(gè)查詢接口中包含了豐富的語義信息,其主要的表現(xiàn)形式為文本信息[11]。以下為一個(gè)圖書查詢接口表單信息。

  <from>

  <attrgroup>

  <attr name="Author"ename="author">

  <domain format="text_box">

  </domain>

  </attr>

  <attr name="Title"ename="title">

  <domain format="text_box">

  </domain>

  </attr>

  <attr name="Keyword"ename="keyword">

  <domain format="text_box">

  </domain>

  </attr>

  <attr name="ISBN"ename="isbn">

  <domain format="text_box">

  </domain>

  </attr>

  </attrgroup>

  </form>

  從以上代碼可以看到,每個(gè)控件的name屬性包含了該接口所屬領(lǐng)域的絕大多數(shù)關(guān)鍵字,比如在圖書領(lǐng)域,“ISBN”、“Title”、“Author”等詞都能很好地表達(dá)其所屬的類別。對(duì)通用實(shí)驗(yàn)數(shù)據(jù)集TEL-8進(jìn)行統(tǒng)計(jì)分析后發(fā)現(xiàn),在數(shù)據(jù)集中共472個(gè)查詢接口,含有name屬性的接口共463個(gè),覆蓋率達(dá)到98.1%。每個(gè)類別的情況如表1所示。

004.jpg

  提取出name屬性的值作為查詢接口的表示文本,則可以將Deep Web數(shù)據(jù)源聚類問題轉(zhuǎn)化為文本聚類問題進(jìn)行研究。這些抽取出來的文本中含有噪聲,對(duì)其進(jìn)行去停用詞和詞干提?。úㄌ卦~干器Porter Stemmer),可以提高聚類的效率和效果。

  1.2 特征提取

  概率主題模型假設(shè)文檔由服從某種概率分布的主題組成,而每個(gè)主題則由服從某種概率分布的單詞組成。Deep Web數(shù)據(jù)源也符合這種假設(shè)。Deep Web數(shù)據(jù)源由一些潛在的主題構(gòu)成,比如“書籍”、“音樂”、“車輛”、“機(jī)票”等,這些潛在的主題又分別由主題內(nèi)的詞構(gòu)成。每個(gè)詞按照一定的概率屬于某個(gè)主題內(nèi),比如“輪胎”、“引擎”等詞就會(huì)以較高的概率屬于“車輛”這一主題。

  將查詢接口進(jìn)行特征抽取并處理為文本后,若直接應(yīng)用向量空間模型將文本表示為向量,將造成特征向量高維稀疏的問題,影響聚類的效率與效果。考慮到以上對(duì)應(yīng)關(guān)系,本文采用層次Dirichlet過程(HDP)進(jìn)行特征提取。

  與LDA模型一樣,HDP也屬于概率主題模型的范疇。不同的是LDA是參數(shù)貝葉斯模型,主題數(shù)目需要事先設(shè)定;而HDP屬于非參數(shù)貝葉斯模型,不需要事先設(shè)定主題數(shù)目。主題數(shù)目將作為參數(shù)之一由模型根據(jù)具體的數(shù)據(jù)學(xué)習(xí)得到。

002.jpg

  HDP模型[12]如圖2所示。其中H為基分布,γ和α0為集中度參數(shù)。首先,以基分布H和集中度參數(shù)γ構(gòu)成Dirichlet過程,產(chǎn)生全局分布G0。這就使得各個(gè)文檔的主題可以共享。然后,再以G0為基分布,以α0為集中度參數(shù),分別為文檔集中的每一個(gè)文檔構(gòu)造Dirichlet過程。這個(gè)過程產(chǎn)生的Gj將作為θji的分布,然后從中抽取хji作為文檔中每個(gè)特征的類別。本文采用HDP模型可以將查詢接口抽取出來的文本表示為主題特征,為下一步的聚類做好準(zhǔn)備。

  整個(gè)生成過程如式(1)~式(4):

  14.png

  1.3 聚類模型

  特征提取后,采用Dirichlet過程混合模型進(jìn)行聚類。用X={x1,x2,…,xn}表示Deep Web數(shù)據(jù)源,N表示數(shù)據(jù)源中包含的樣本個(gè)數(shù),xi={xi1,xi2,…,xin}表示第i個(gè)數(shù)據(jù)源,xij表示第i個(gè)數(shù)據(jù)源的第j個(gè)特征值?;谀P偷木垲愃枷胝J(rèn)為,X由K個(gè)模型混合而成,每個(gè)模型的混合系數(shù)由πk表示,即πk表示每個(gè)模型占的比重,并滿足πk≥0,k={1,2,…,K},且OL5%NOWMH5R[6DJR%U%[5]C.png。有限混合模型和無限混合模型的區(qū)別在于,K是否事先已知。有限混合模型的K需要事先指定并且固定不變,而無限混合模型則把K作為模型參數(shù),根據(jù)數(shù)據(jù)學(xué)習(xí)得到。本文建立Dirichlet過程混合模型如式(5)所示:

  5.png

  其中,8F`VMO0A7@$U5]C}NNJC7$N.png取多項(xiàng)式分布,則該模型中的未知參數(shù)θ={π1,π2,…,πk;θ1,θ2,…,θK;K},其服從Dirichlet過程DP(α,G0)。最后采用Gibbs采樣對(duì)模型中未知參數(shù)θ進(jìn)行求解,找出K值及其對(duì)應(yīng)的混合系數(shù)πk,以及各個(gè)多項(xiàng)式分布中的未知參數(shù)θi,達(dá)到聚類目的。

2 實(shí)驗(yàn)結(jié)果與分析

  2.1 實(shí)驗(yàn)設(shè)置

  實(shí)驗(yàn)中使用了Deep Web數(shù)據(jù)源分類的通用數(shù)據(jù)集TEL-8進(jìn)行試驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)集總共包含472個(gè)Deep Web數(shù)據(jù)源查詢接口,取其中含有name屬性的查詢接口,共463個(gè)。在進(jìn)行表單特征抽取和數(shù)據(jù)預(yù)處理后,去除含有單詞數(shù)少于3個(gè)的簡(jiǎn)單接口(共34個(gè)),最終得到429個(gè)查詢接口,覆蓋了機(jī)票、汽車、書籍、租車、酒店、工作、電影和音樂共8個(gè)領(lǐng)域。

  本文采用在文本聚類領(lǐng)域常用的F-measure和熵值兩種指標(biāo)來評(píng)價(jià)本文聚類方法的效果。同時(shí)與同樣使用TEL-8數(shù)據(jù)集的其他三種聚類方法進(jìn)行比較,分別是B.He提出的MDhac方法、Zhao Pengpeng等人提出的FGC方法以及Xu Guangyue等人提出的基于LDA的先聚類后分類的方法,為下文方便對(duì)比,將該方法簡(jiǎn)稱XU。

  2.2 結(jié)果及分析

  2.2.1 特征提取

003.jpg

  建立HDP模型進(jìn)行特征提取,經(jīng)過100次Gibbs采樣,估計(jì)出特征數(shù),并將查詢接口中的name屬性詞表示為對(duì)應(yīng)的特征,達(dá)到降維的目的。特征數(shù)目隨迭代次數(shù)變化的過程如圖3所示。從圖中可見,特征數(shù)目穩(wěn)定在15左右,在迭代30次左右時(shí)達(dá)到穩(wěn)定。經(jīng)過特征提取后,特征值(接口中出現(xiàn)的不重復(fù)單詞數(shù))由原本的847降到15。

  2.2.2 聚類結(jié)果比較

005.jpg

  聚類結(jié)果得到9個(gè)Cluster,分別與8個(gè)領(lǐng)域的對(duì)應(yīng)關(guān)系如表2所示。理想的聚類情況應(yīng)該得到8個(gè)Cluster,但是由于本文聚類方法并沒有事先指定聚類數(shù)目,所以存在較小的誤差。認(rèn)真觀察第九個(gè)Cluster可以發(fā)現(xiàn),在其中的接口數(shù)很少,只占總接口數(shù)的2%,明顯少于前8個(gè)Cluster??紤]到本文方法的完全無監(jiān)督的特性,認(rèn)為該誤差在可以接受的范圍內(nèi)。

006.jpg

  對(duì)上面的聚類結(jié)果應(yīng)用F-measure和熵值(Entropy)兩種指標(biāo)進(jìn)行檢驗(yàn),并與其他使用相同數(shù)據(jù)集的方法進(jìn)行比較,比較結(jié)果如表3、表4所示(注:由于MDhac方法的原文中并沒有提供F-measure值,故表3中用“\”表示,同理對(duì)XU的Entropy值也用“\”表示)。

  實(shí)驗(yàn)結(jié)果顯示,本文方法在F-measure上取得的聚類均值優(yōu)于FGC和XU兩種方法,原因在于本文實(shí)驗(yàn)結(jié)果在8個(gè)領(lǐng)域上的F-measure值較為平均,沒有小于0.8的情況。而在熵值這一評(píng)價(jià)指標(biāo)上,F(xiàn)GC方法效果最佳。本文方法在電影、汽車和書籍三個(gè)領(lǐng)域上的熵值最優(yōu),但是由于在音樂和酒店兩個(gè)領(lǐng)域的熵值過大,而使得平均值不理想。結(jié)合表2分析可以看到,原本屬于酒店領(lǐng)域的接口比較容易被錯(cuò)誤分到機(jī)票領(lǐng)域,而音樂和電影領(lǐng)域也存在類似情況。同時(shí),分析第九個(gè)Cluster可以看到,這個(gè)導(dǎo)致誤差的小聚類中,主要是來自音樂和電影類的接口,其原因主要在于酒店和機(jī)票領(lǐng)域,以及電影和音樂領(lǐng)域本來就存在一定的相似性??紤]其接口屬性,以酒店領(lǐng)域和機(jī)票領(lǐng)域?yàn)槔?,它們基本上都?huì)包含日期、地點(diǎn)、價(jià)格等關(guān)鍵詞,在提取主題特征時(shí)容易將其視為同一特征。

3 結(jié)束語

  Deep Web數(shù)據(jù)源分類是大規(guī)模Deep Web數(shù)據(jù)源集成的關(guān)鍵問題之一。結(jié)合Deep Web數(shù)據(jù)源分類問題自身的需求與Dirichlet過程的特點(diǎn),本文提出了一種基于Dirichlet過程的Deep Web數(shù)據(jù)源聚類方法。實(shí)驗(yàn)表明,本文提出的方法可以有效實(shí)現(xiàn)Deep Web數(shù)據(jù)源聚類,并使整個(gè)聚類過程不需要人工干預(yù),但是在聚類效果上,比如如何有效區(qū)分比較相似的領(lǐng)域,使得聚類結(jié)果更精確,還需要進(jìn)一步探究。

參考文獻(xiàn)

  [1] BERGMAN M K. The deep web: surfacing hidden value[J]. The Journal of Electronic Publishing,2001,7(1):8912-8914.

  [2] 王成良,桑銀邦.Deep Web集成系統(tǒng)中同類主題數(shù)據(jù)源選擇方法[J].計(jì)算機(jī)應(yīng)用研究,2011,28(9):3364-3367.

  [3] EL-GAMIL B R, WINIWARTER W, BO?譕IC B, et al. Deep web integrated systems: current achievements and open issues[C]. Proceedings of the 13th International Conference on Information Integration and Web-based Applications and Services. ACM, 2011:447-450.

  [4] NAYAK R, SENELLART P, SUCHANEK F M, et al. Discovering interesting information with advances in Web technology[J]. ACM SIGKDD Explorations Newsletter, 2013, 14(2): 63-81.

  [5] HE B, TAO T, CHANG K C C. Organizing structured web sources by query schemas: a clustering approach[C]. Proceedings of the Thirteenth ACM International Conference on Information and Knowledge Management,ACM,2004:22-31.

  [6] BARBOSA L, FREIRE J, SILVA A. Organizing hidden-web databases by clustering visible web documents[C]. IEEE 23rd International Conference on Data Engineering. IEEE, 2007: 326-335.

  [7] Zhao Pengpeng, Huang Li, Fang Wei, et al. Organizing structured deep web by clustering query interfaces link graph[M]. Berlin: Springer, 2008:683-690.

  [8] Xu Guangyue, Zheng Weimin, Wu Haiping, et al. Combining topic models and string kernel for deep web categorization[C]. Fuzzy Systems and Knowledge Discovery (FSKD), 2010 Seventh International Conference on. IEEE, 2010:2791-2795.

  [9] ISHWARAN H, JAMES L F. Gibbs sampling methods for stick-breaking priors [J]. Journal of the American Statistical Association, 2001,96(453):161-173.

  [10] MORAES M C, HEUSER C A, MOREIRA V P, et al. Prequery discovery of domain-specific query forms: a survey[J]. Knowledge and Data Engineering, IEEE Transactions on, 2013,25(8):1830-1848.

  [11] 祝官文,王念濱,王紅濱.基于主題和表單屬性的深層網(wǎng)絡(luò)數(shù)據(jù)源分類方法[J].電子學(xué)報(bào),2013,41(2):260-266.

  [12] TEH Y W, JORDAN M I, BEAL M J, et al. Hierarchical dirichlet processes [J]. Journal of the American Statistical Association, 2006,101(476):1566-1581.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。