123,123,123

基于AFOPT-tree的最大频繁项集挖掘

2014年微型机与应用第11期

周爱武，王浩，温春林

安徽大学计算机科学与技术学院

摘要： 1993年AGRAWAL R等人提出了一个重要的反映大规模数据中项目集之间有趣的关联或相关联系的研究课题[1]，找出属性间有价值的关系，即关联规则的研究。频繁项集的挖掘是获取关联规则不可或缺的步骤。但挖掘频繁项集时需要考虑太多的候选项集。最大频繁项集中已经隐含了所有的频繁项集，并且在许多数据挖掘应用中也只需要挖掘最大频繁项集，而不是获取所有的频繁项集，因此对最大频繁项集的挖掘具有重大的现实意义。

關(guān)鍵詞： 最大频繁项集关联规则超集检测最大频繁项集投影

Abstract：

Key words :

　　摘要：在最大頻繁項(xiàng)集的挖掘過程中，尤其在數(shù)據(jù)規(guī)模龐大并且最小支持度較小的情況下，超集檢測成為算法運(yùn)行的主要時間消耗，提出最大頻繁項(xiàng)集算法A-MFI，其通過優(yōu)化基于投影的超集檢測機(jī)制有效地減少了超集檢測的時間。另外，將事務(wù)數(shù)據(jù)庫數(shù)據(jù)映射至一種壓縮的AFOPT-tree結(jié)構(gòu)，該結(jié)構(gòu)結(jié)合自頂向下的遍歷策略，具有更小的時間開銷。

　　關(guān)鍵詞：最大頻繁項(xiàng)集；關(guān)聯(lián)規(guī)則；超集檢測；最大頻繁項(xiàng)集投影

　　1993年AGRAWAL R等人提出了一個重要的反映大規(guī)模數(shù)據(jù)中項(xiàng)目集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系的研究課題[1]，找出屬性間有價值的關(guān)系，即關(guān)聯(lián)規(guī)則的研究。頻繁項(xiàng)集的挖掘是獲取關(guān)聯(lián)規(guī)則不可或缺的步驟。但挖掘頻繁項(xiàng)集時需要考慮太多的候選項(xiàng)集。最大頻繁項(xiàng)集中已經(jīng)隱含了所有的頻繁項(xiàng)集，并且在許多數(shù)據(jù)挖掘應(yīng)用中也只需要挖掘最大頻繁項(xiàng)集，而不是獲取所有的頻繁項(xiàng)集，因此對最大頻繁項(xiàng)集的挖掘具有重大的現(xiàn)實(shí)意義。

　　已有的最大頻繁項(xiàng)集挖掘算法可以按照對搜索空間樹的遍歷策略分為寬度優(yōu)先算法和深度優(yōu)先算法兩種。其中，MaxMiner、DMFI和DMFIA為寬度優(yōu)先算法。MaxMiner[2]采用傳統(tǒng)的橫向數(shù)據(jù)集來計(jì)算頻繁項(xiàng)集的支持度，雖然動態(tài)排序的方法能保證高效的前瞻剪枝，但掃描次數(shù)與Apriori[3]算法相同，掃描數(shù)據(jù)集的次數(shù)等于最長頻繁項(xiàng)集的規(guī)模。GenMax、SmartMiner、Fp-Max和FPMFI是挖掘最大頻繁項(xiàng)集的深度挖掘算法。算法GenMax[4]使用差集的方式表示事務(wù)數(shù)據(jù)庫，在稀疏事務(wù)數(shù)據(jù)庫的情況下有效減少了內(nèi)存開銷，并提出使用局部最大頻繁項(xiàng)集的方式進(jìn)行超集檢測。SmartMiner[5]算法使用尾信息進(jìn)行數(shù)據(jù)挖掘，不需要超集檢測，但尾信息數(shù)據(jù)結(jié)構(gòu)建立和訪問代價太高。Fp-Max[6]算法也是基于Fp-tree的最大頻繁項(xiàng)集挖掘算法，并將最大頻繁項(xiàng)集保存在MFI-tree[7]中，在一定程度上提高了挖掘效率。

　　本文提出的A-MFI（Ascending Frequency Ordered Prefix-tree For Maximal Frequent Item Set）算法通過對基于投影超集檢測方法[8]的優(yōu)化，有效地提升了超集檢測的效率；并采用AFOPT-tree（Ascending Frequency Ordered Prefix-tree）[9]來存儲數(shù)據(jù)挖掘的相關(guān)信息，有效地減少了自頂向下遍歷的時間開銷和遞歸次數(shù)[10]。

　　1 相關(guān)知識

　　1.1 頻繁項(xiàng)集和最大頻繁項(xiàng)集

　　設(shè)I={i1，i2，i3，…，in}是一個項(xiàng)目集合，給定事務(wù)數(shù)據(jù)庫D，對于項(xiàng)目集X?哿I且k=|X|，稱X為k項(xiàng)集，或者簡稱為一個項(xiàng)集。記D為事務(wù)T的集合且T?哿I。對于給定的事務(wù)數(shù)據(jù)庫D，定義X的支持度為D中包含X的事務(wù)個數(shù)，記為Sup（X）。用戶自定義一個小于|D|的最小支持度，記為min_s。

　　定義1 給定書屋數(shù)據(jù)庫D和最小支持度min_s，對于項(xiàng)集X?哿I，若Sup（X）≥min_s，則稱X為D中的頻繁項(xiàng)集。

　　定義2 給定事務(wù)數(shù)據(jù)庫D和最小支持度min_s，對于項(xiàng)集X?哿I，若Sup（X）≥min_s并且對于任意（Y?哿I∧X?哿Y）均有Sup（Y）≦min_s，則稱X為D的最大頻繁項(xiàng)集。

　　性質(zhì)1 任何頻繁項(xiàng)集的真子集都不是最大頻繁項(xiàng)集。

　　1.2 頻繁模式樹AFOPT-tree

　　Liu Guimei等提出使用一種稱為AFOPT-tree[9]的數(shù)據(jù)結(jié)構(gòu)來存儲數(shù)據(jù)庫中與當(dāng)前挖掘過程相關(guān)的頻繁信息。AFOPT-tree中每個結(jié)點(diǎn)對應(yīng)一個項(xiàng)。樹中每一條從根結(jié)點(diǎn)到某個子孫結(jié)點(diǎn)的路徑表示一個項(xiàng)集，每個結(jié)點(diǎn)記錄了根結(jié)點(diǎn)到該結(jié)點(diǎn)的路徑對應(yīng)項(xiàng)集的支持度。由于某些項(xiàng)集前部項(xiàng)的重疊，AFOPT-tree可以通過共享這些重疊的項(xiàng)來達(dá)到壓縮保存的目的。

　　AFOPT-tree中有頭表，頭表中的頻繁1-項(xiàng)集按照頻繁次數(shù)的升序排列，它記錄了相應(yīng)頻繁項(xiàng)的名稱和支持度。AFOPT-tree樹體中相同項(xiàng)的指針鏈接在一條鏈表上，鏈?zhǔn)字羔樢脖４嬖陬^表中。數(shù)據(jù)庫中的各項(xiàng)事務(wù)項(xiàng)集也按照頭表中的次序添加到頻繁模式樹中。給定一個事務(wù)數(shù)據(jù)庫D，與其對應(yīng)的AFOPT-tree如圖1所示。AFOPT-tree的建立需要掃描兩次數(shù)據(jù)庫，AFOPT子樹的建立需要掃描兩次搜索空間中結(jié)點(diǎn)的AFOPT子樹中相應(yīng)的條件模式基[10]。

E(WX$~5%5%IZHZP`4W086G7.jpg

　　2 基于AFOPT-tree的最大頻繁項(xiàng)集挖掘算法A-MFI

　　2.1 優(yōu)化的基于投影的超集檢測

　　AFOPT-tree的頭表和加入的事務(wù)項(xiàng)集都是按照頻繁次數(shù)的升序排列的，按照頭表中頻繁1-項(xiàng)集的順序挖掘出的頻繁項(xiàng)集若存在超集，則必定在已挖掘到的最大頻繁項(xiàng)集中[11]。

　　MFI即最大頻繁集，是所有的最大頻繁項(xiàng)目集組成的集合。MFI-tree是類似于AFOPT-tree的樹形結(jié)構(gòu)，用來存儲最大頻繁項(xiàng)集。從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的一條路徑就是最大頻繁項(xiàng)，中間節(jié)點(diǎn)不記錄支持度，只有葉子節(jié)點(diǎn)記錄支持度數(shù)。這里將MFI-tree樹體中相同項(xiàng)的指針鏈接在一條鏈表上，鏈?zhǔn)字羔樢脖４嬖陬^表中[12]。

　　在進(jìn)行超集檢測時，不需要對整棵MFI-tree進(jìn)行投影，先檢測待檢測項(xiàng)集的第一項(xiàng)在頭表中指向MFI-tree的指針是否為空。若為空，則不需要投影，直接添加到MFI-tree中；若不為空，將待檢測項(xiàng)集第一項(xiàng)為根節(jié)點(diǎn)構(gòu)建MFI子樹。MFI子樹構(gòu)建過程只需要掃描一次MFI-tree中對應(yīng)結(jié)點(diǎn)的后繼結(jié)點(diǎn)。

　　對于圖1中的AFOPT-tree中已挖掘的最大頻繁項(xiàng)集{ampfc：3}，MFI-tree如圖2所示。有項(xiàng)集{bc：3}，檢查其是否在MFI-tree中存在超集。首先檢測頻繁1-項(xiàng)集b指向MFI-tree的指針為空，故項(xiàng)集在MFI-tree中不存在超集，將項(xiàng)集作為最大頻繁項(xiàng)集加入到MFI-tree中，如圖2所示虛線分支。再檢測項(xiàng)集{bf：3}，因?yàn)轭l繁1-項(xiàng)集b指向MFI-tree的指針不為空，構(gòu)建以b為根節(jié)點(diǎn)的MFI子樹，采用基于投影的超集檢測該項(xiàng)集在其中不存在超集，將項(xiàng)集作為最大頻繁項(xiàng)集加入到MFI-tree中，如圖2所示加粗分支。

5RK(1]@G}`M8H33762IA22S.jpg

　　2.2 A-MFI算法

　　與FP-max算法一樣，A-MFI算法采用分治遞歸的策略進(jìn)行挖掘。在深度優(yōu)先遍歷搜索AFOPT-tree時，通過對遍歷到的節(jié)點(diǎn)及對應(yīng)的AFOPT子樹頭表中的某一項(xiàng)來生成搜索空間的子節(jié)點(diǎn)。并在構(gòu)建AFOPT子樹之前先通過優(yōu)化的基于投影的超集檢測來檢測首尾項(xiàng)集的并集在已有的最大頻繁項(xiàng)集是否存在超集。若存在，則可以進(jìn)行前瞻剪枝；若不存在，遞歸的調(diào)用算法直到挖掘到某個子孫節(jié)點(diǎn)的AFOPT子樹為一個單路徑樹為止，將這個單路徑樹頭表中項(xiàng)集和對應(yīng)前綴節(jié)點(diǎn)的并集作為一個最大頻繁項(xiàng)集，加入到MFI-tree中。

　　2.3 算法步驟

　　全局變量：前綴項(xiàng)集p，最大頻繁項(xiàng)集樹MFI-tree

　　輸入：數(shù)據(jù)量對應(yīng)的AFOPT-tree，記為T，AFOPT-tree頭表中對應(yīng)的項(xiàng)集h

　　輸出：最大頻繁項(xiàng)集樹MFI-tree

　　A-MFI（T，h）

　　（1）if T是單路徑樹。

　?。?）將項(xiàng)集p∪h插入MFI-tree中，支持度為單路徑樹中葉子節(jié)點(diǎn)的支持度。

　　（3）else對T頭表中的每一項(xiàng)i。

　?。?）將i并入前綴項(xiàng)集p中，為p′。

　　（5）遍歷AFOPT-tree獲取p′對應(yīng)的子樹頭表項(xiàng)集h′。

　　（6）對p′∪h′進(jìn)行超集檢測。

　?。?）if在MFI-tree中不存在超集。

　?。?）創(chuàng)建AFOPT子樹T′。

　　（9）A-MFI（T′，h′）。

　?。?0）將i從p中移除。

　　3 實(shí)驗(yàn)分析

　　為驗(yàn)證算法性能，在內(nèi)存為DDR3 2 GB、CPU為Core i5-2410M、操作系統(tǒng)為Windows 7 Professional的實(shí)驗(yàn)環(huán)境下，用VC++ 6.0分別實(shí)現(xiàn)了A-MFI算法、FP-max算法和FPMFI算法。實(shí)驗(yàn)采用的數(shù)據(jù)為參考文獻(xiàn)[12]中的Mushroom數(shù)據(jù)庫。該數(shù)據(jù)庫中共有8 124條事務(wù)記錄，平均事務(wù)長度為23，一共包含了蘑菇的115種屬性。A-MFI與FP-max和FPMFI的運(yùn)行時間比較如圖3所示。

K~6RJCL]D%$6YGM8N7~HI(T.jpg

　　從圖3的實(shí)驗(yàn)結(jié)果可以看出，由于A-MFI算法對基于投影的超集檢測機(jī)制進(jìn)行了優(yōu)化，并在存儲與數(shù)據(jù)挖掘相關(guān)數(shù)據(jù)時應(yīng)用了AFOPT-tree樹形結(jié)構(gòu)，在支持度較小時，尤其當(dāng)支持度小于1%時，相比FPMFI算法和FP-max算法在執(zhí)行時間上有較大優(yōu)勢。例如在最小支持度為0.1%時，算法FP-max、FPMFI和A-MFI的執(zhí)行時間分別為15.9 s，8.7 s和6.4 s，算法A-MFI的性能比較同類算法有明顯的提升。

　　本文提出了一種基于AFOPT-tree的最大頻繁項(xiàng)集挖掘算法，通過對基于投影的超集檢測機(jī)制進(jìn)行優(yōu)化，降低了超集檢測的時間消耗；采用AFOPT-tree樹形結(jié)構(gòu)存儲與數(shù)據(jù)挖掘相關(guān)的信息，提升自頂向下的遍歷效率并減少遞歸次數(shù)。實(shí)驗(yàn)比較表明，在支持度較小的情況下，本文的A-MFI算法具有明顯的優(yōu)越性。在算法的執(zhí)行過程中，遞歸構(gòu)建AFOPT子樹和超集檢測消耗了大量的時間和內(nèi)存，如何進(jìn)一步地減少遞歸次數(shù)并提高超集檢測的效率是以后研究的重點(diǎn)。

　　參考文獻(xiàn)

　　[1] AGRAWAL R， IMIELINSKI T， SWAMI A. Mining association rules between sets of items in large databases[C]. Proceedings of ACM SIGMOD International Conference on Management of Data，1993：207-216．

　　[2] BAYARDO R. Efficiently mining long patterns from databases[C]. Proceeding of 1998 ACM S1 GMOD International Conference on Management of Data， New York： ACM Press， 1998：85-93．

　　[3] AGRAWAL R， SRIKANT R. Fast algorithms for mining association， rules[C]. Proceedings of the 20th International Conference on Very Large Database，1994：478-499．

　　[4] GOUDA K， ZAKI M J. Efficiently mining maximal frequent item sets[C]. Proceedings of the IEEE International Conference on Data Mining，2001：163-170．

　　[5] ZHOU QH， WESLEY C， LU BJ. SmartMiner. A depth 1st algorithm guided by tail information for mining maximal frequent item sets[C]. Proceedings of the IEEE International Conference on Data Mining， 2002：570-577.

　　[6] GRAHNE G， ZHU J E． High performance mining of maximal frequent item sets[C]. Proceedings of the 6th SIAM International Workshop on High Performance Data Mining，2003：135-143．

　　[7] GRAHNE G， ZHU J F． High performance mining of maximal frequent item sets[C]. Proceedings of the 6th SIAM Int′I Workshop on High Performance Data Mining，2003：135-143．

　　[8] 顏躍進(jìn)，李舟軍，陳火旺．基于FP-Tree有效挖掘最大頻繁項(xiàng)集[J]．軟件學(xué)報，2005，16（2）：216-219．

　　[9] Liu Guimei， Lu Hongjun， Xu Yabo. Ascending frequency ordered prefix-tree：efficient mining of frequent patterns[C]. Proceedings of the 8th International Conference on Database Systems for Advanced Applications， Kyoto， Japan，2003：65-72.

　　[10] 毛宇星，陳彤兵，施伯樂.一種高效的多層和概化關(guān)聯(lián)規(guī)則挖掘方法[J]．軟件學(xué)報，2011，22（15）：2965-2980.

　　[11] 陳光鵬，楊育彬，高陽，等.一種基于MapReduce的頻繁閉項(xiàng)集挖掘算法[J].模式識別與人工智能，2012，25（2）：220-224.

　　[12] 胡德敏，趙瑞可.一種改進(jìn)的最大頻繁項(xiàng)集挖掘算法[J].計(jì)算機(jī)應(yīng)用與軟件，2012，29（12）：186-188.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容