張任
(浙江師范大學 數理與信息工程學院,浙江 金華 321004)
摘要:數據流挖掘是當前數據挖掘研究的一個熱點,并且數據流的類型也不盡相同。利用模糊粗糙集和F-粗糙集的基本原理和基本方法,提出了一種對模糊型數據流進行模糊并行約簡、刪除冗余屬性的方法,并運用模糊并行約簡中屬性重要性的變化探測模糊概念漂移現象。有別于傳統(tǒng)方法,該方法利用模糊數據的內部本質特性對模糊概念漂移進行探測,并且通過實例驗證其探測模糊概念漂移的可行性和有效性。
關鍵詞:模糊數據流;概念漂移;模糊粗糙集;F-模糊粗糙集;模糊并行約簡
0引言
信息爆炸的今天,現實中的數據往往隨著時間的變化而變化,例如,電商銷售數據、微博數據、傳感器數據等,這種類型的數據稱為數據流[1]。數據流具有按照時間順序排列、快速變化、連續(xù)、海量甚至無限且可能出現概念漂移現象等特征[2-3]。探測概念漂移常用的技術是滑動窗口技術[1]。參考文獻[4-6]對單個的數據塊或單棵決策樹進行冗余屬性刪除,沒有從整體上考慮刪除冗余屬性問題,再檢測概念漂移。參考文獻[7]從整體上考慮刪除冗余屬性問題,但是未能解決數據流中模糊屬性約簡問題。
粗糙集理論[8]是一種處理不相容、不精確或不完全數據的強有力工具。模糊粗糙集是粗糙集理論的擴展研究,它解決了粗糙集約簡處理之前必需的離散化過程,使得粗糙集也適用于模糊概念和模糊知識的屬性約簡?;谀:植诩膶傩约s簡取得了一定的研究成果[9-12]。傳統(tǒng)的模糊粗糙集理論不太適合研究海量的、動態(tài)變化的數據,也不太適合研究數據流;F-粗糙集[13-14]將粗糙理論從單個信息表或決策表推廣到多個,適合研究海量的、動態(tài)變化的數據,也適合研究數據流,F-模糊粗糙集[15]是該理論的擴展研究。模糊并行約簡是與F-模糊粗糙集合相對應的屬性約簡理論和方法。模糊并行約簡和F-模糊粗糙集比較適合研究海量的、動態(tài)變化的數據,也應該能夠研究模糊數據流和模糊概念漂移。
本文首先利用F模糊粗糙集的模糊并行約簡理論,將模糊數據流的各個滑動窗口(子決策表)中對分類不起作用的冗余模糊屬性整體刪除,然后運用各個子表(滑動窗口)中屬性重要性的變化探測模糊概念漂移。傳統(tǒng)方法主要依靠分類準確率的變化利用外部特性進行比較,探測概念漂移現象。本文方法與傳統(tǒng)的概念漂移探測方法不同,利用數據的內部特性——模糊并行約簡后屬性重要性的變化探測模糊概念漂移現象。
1基礎知識
本節(jié)介紹F-模糊粗糙集和模糊并行約簡[15]的基礎知識。本文若未特別說明,屬性均表示模糊條件屬性。
下面用FIS={ISi}(i=1,2,…,n)表示與模糊決策系統(tǒng)簇DS=(U,A,d)相對應模糊信息系統(tǒng)簇,A是條件屬性集,d是決策屬性集,且屬性對應的是模糊等價關系(或簡寫為關系)。其中ISi=(Ui,A),而DSi=(Ui,A,d)。在模糊子信息表ISi中,設P是論域U的一個模糊等價關系(簡寫為關系P),Eij是屬于UiP的模糊等價類,UiP=GD(P|Ui)={Ei1,Ei2,…,Eici} 表示論域Ui上的一個模糊劃分(j=1,2,…,ci,ci是由p劃分論域Ui所得模糊等價類的數目)。
定義1在信息系統(tǒng)簇FIS中,模糊概念X在關系P下的模糊粗糙上下近似(簡寫為上下近似)分別為:
下近似:μFISX(x)={μPX|U1(x),μPX|U2(x),…,μPX|Un(x)}
上近似:μFISX(x)={μPX|U1(x),μPX|U2(x),…,μPX|Un(x)}
序偶(P(FIS,X),P(FIS,X))稱為F模糊粗糙集。
如果P(FIS,X)=P(FIS,X),則稱序偶(P(FIS,X),P(FIS,X))是精確的。
定義2在ISi中條件屬性的模糊等價類E的模糊正域為:
μPOSP(d)(E)=supqj∈U/dμqj(E)
x對模糊正域的隸屬度為:
μPOSP(d)(x)=supx∈Uimin{μE(x),μPOSP(d)(E)}
其中,j={1,2,…,cj},cj是由d劃分論域U所得模糊等價類的數目,E∈GD(P|Ui)。
定義3設DS=(U,A,d)是一個決策系統(tǒng),P(DS)是DS的冪集,FP(DS),則PA稱為F模糊并行約簡,當且僅當PA滿足下面條件:
(1)μPOS(F,A,d)=μPOS(F,P,d);
(2)對任意SP,都有μPOS(F,S,d)≠μPOS(F,A,d)。
2模糊并行約簡方法對概念漂移的探測
在F-模糊粗糙集[15]中決策子系統(tǒng)簇F中的元素可以是大數據中的一部分,也可以是模糊數據流中的一部分或是一個滑動窗口。本文假設模糊決策子系統(tǒng)簇F中的元素是數據流中的一部分,每一個子表可以看做一個滑動窗口。在探測模糊概念漂移之前,先用模糊并行約簡算法刪除對分類不起作用的冗余模糊屬性,以減少計算量,并探測真正使模糊概念發(fā)生漂移的屬性之變化。
2.1模糊并行約簡算法
在F-模糊粗糙集中依賴度與屬性重要性的定義如下[15]。
定義4在FIS={ISi}(i=1,2,…,n)中決策屬性對條件屬性集P的依賴度為:
定義5給定一個決策子系統(tǒng)簇F,DTi=(Ui,A,d)∈F(i=1,2,…,n),定義F中屬性a∈P或a∈A-P相對于P的重要度分別為:
σ(P,a)=γ(F,P,d)-γ(F,P-{a},d)或σ′(P,a)=γ(F,P∪a,d)-γ(F,P,d)
運用屬性重要度可以比較容易地求出并行約簡,算法如下。算法1基于F模糊屬性重要度的模糊并行約簡算法(簡稱FPRAS)輸入:FP(DS);
輸出:F的一個模糊并行約簡;
?。?)P=;
?。?)對于任意a∈A,如果σ(A,a)>0,那么P=P∪{a};
?。?)M=A-a;
?。?)重復進行如下步驟,直到M=:
①對任意a∈M,計算σ′(P,a) //σ′(P,a)=γ(F,P∪a,d)-γ(F,P,d);
?、趯θ我鈇∈M,如果σ′(P,a)≤ξ//1>ξ≥0為給定的閾值,那么M=M-{a};
?、圻x擇F屬性重要度非零且最大的元素a∈E,P=P∪{a},M=M-{a}(添加屬性集M中F屬性重要度非零且最大的屬性到并行約簡P中);
?。?)輸出并行約簡P。
2.2模糊概念漂移探測
通過模糊并行約簡刪除了數據流中對分類不起作用的冗余模糊屬性。受參考文獻[7,1314]中屬性重要性矩陣的啟發(fā),建立數據流約簡后的屬性重要性矩陣,用于描述在不同的模糊決策子表(滑動窗口)中模糊并行約簡中的每個模糊屬性對分類的貢獻,它的定義如下。
定義6DS=(U,A,d)是一個模糊數據流決策系統(tǒng),P(DS)是DS的冪集,FP(DS)是數據流DS=(U,A,d)的若干個滑動窗口的集合,PA是F的模糊并行約簡,模糊并行約簡PA關于F的屬性重要度矩陣定義為:
根據屬性重要性矩陣的定義,很容易證明屬性重要性矩陣的下列屬性。
定理1模糊數據流決策子表簇FP(DS)中,PA為并行約簡,模糊屬性重要性矩陣T(P,F)中的元素與模糊屬性重要性矩陣T(A,F)中相應的元素有如下關系:
(1)若屬性p∈PA為模糊并行約簡的核屬性,則p在T(P,F)中對應的元素值小于等于p在T(A,F)中對應的元素值。
(2)若屬性p∈PA為模糊并行約簡的非核屬性,則p在T(P,F)中對應的元素值大于等于p在T(A,F)中對應的元素值。
推論模糊數據流決策子表簇FP(DS)中,PA為模糊并行約簡,屬性重要性矩陣T(P,F)中非零元素的個數大于等于T(A,F)中非零元素的個數。
運用粗糙集理論對概念漂移進行度量的指標[1617]往往依賴于上下近似,這種度量不太適合大小不一致的滑動窗口。參考文獻[7]的并行約簡探測算法不適合探測模糊型數據流的模糊概念漂移問題。下面運用屬性重要性的變化對模糊概念漂移進行度量,它獨立于上下近似的變化,也獨立于滑動窗口的大小。它的定義如下。
定義7模糊數據流決策子表簇FP(DS)中,PA為模糊并行約簡,兩個滑動窗口DTi、DTk∈F相對于屬性b∈PA的概念漂移定義為:
FPRCDb(DTk,DTi)=|σkj-σij|
其中,j為屬性b∈PA在T(P,F)中所對應的列。
定義8模糊數據流決策子表簇FP(DS)中,PA為模糊并行約簡,DTi、DTk∈F,基于模糊并行約簡PA的模糊概念漂移量定義為:
FPRCDP(DTk,DTi)=1|P|∑|P|j=1|σkj-σij|
定理2基于模糊并行約簡的屬性重要性的模糊概念漂移量FPRCDb(DTk,DTi)和FPRCDp(DTk,DTi)對稱、非負、滿足三角不等式。
定理3模糊數據流決策子表簇FP(DS)中,DTi,DTk∈F,PA為模糊并行約簡,則T(P,F)中相鄰兩行對應屬性重要性變化的元素個數大于等于T(A,F)中相鄰兩行對應屬性重要性變化的元素個數。
定理1、定理3說明冗余屬性的存在干擾了概念漂移的探測,刪除了一些冗余屬性后模糊概念漂移更明顯。下面利用基于模糊并行約簡的模糊概念漂移量來探測概念漂移。算法2模糊概念漂移檢測算法輸入:模糊數據流FP(DS),閾值δ;
輸出:模糊數據流FP(DS)中是否發(fā)生概念漂移;
(1)調用算法1,求出F的模糊并行約簡PA;
(2)計算約簡后F中各個模糊屬性的重要性,形成模糊屬性重要性矩陣T(P,F);
(3)計算相鄰兩行之間任意模糊屬性重要性的差異FPRCDb(DTk,DTi),并算出FPRCDP(DTk,DTi);
(4)模糊概念漂移值FPRCDb(DTk,DTi)、FPRCDp(DTk,DTi)與給定的閾值δ比較,判定是否發(fā)生了概念漂移。
閾值δ∈[0,1)的最優(yōu)選取將是下一步的研究方向。通過算法2可知,模糊并行約簡將模糊決策子表簇作為一個整體考慮,刪除了模糊決策子表簇中對分類不起作用的冗余屬性,使得在模糊概念漂移的探測和分類的時候減少了計算量,并將注意力真正集中到對分類起關鍵作用的屬性集合上?;谀:⑿屑s簡探測概念漂移時,提供了同樣的模糊屬性和同樣的標準,得到結論的可理解性與可靠性就會更加可信。
例1模糊決策系統(tǒng)DS=(U,A,d)(如表1所示),U={1,2…,10}為論域,P1、P2、P3為模糊條件屬性,d為模糊決策屬性。F={DSi}(i=1,2)是DS的模糊決策子系統(tǒng) ,FIS={ISi}(i=1,2)是與F相對應的模糊決策系統(tǒng)簇,如表2、表3所示?! ?/p>
調用算法1,很容易得到F的模糊并行約簡為P={P2,P3},子表中對象對模糊正域的隸屬度如表4所示。表4在子表IS1、IS2中對象對模糊正域的隸屬度P1P2P3P1P2P1P3P2P3P1P2P3IS1H1(P)1.82.92.22.92.43.22.7IS2H2(P)1.53.42.83.52.83.83.5
模糊屬性重要性矩陣T(A,F)與T(P,F)分別為:
DT1與DT2之間的概念漂移為:
FPRCDp2(DT2,DT1)=|0.20-0.20|=0
FPRCDp3(DT2,DT1)=|0.06-0.10|=0.04
FPRCDp(DT2,DT1)=1m∑mj=1|σ2,j-σ1,j|
=12(|0.20-0.20|+|0.06-0.10|)=0.02
因為條件屬性P1對分類不起作用,是冗余的屬性,刪除之后,對分類起作用的屬性P2、P3的概念漂移就彰顯出來了。如果取δ=0.01,那么相對于單個屬性P2、P3具有概念漂移,相對于整個并行約簡P也具有概念漂移;如果取δ=0.05,那么相對于單個屬性P2、P3及相對于并行約簡P都不具有概念漂移。實際的數據流中,滑動窗口一般情況下是多個,可以類似地求出兩個相鄰窗口之間的基于模糊并行約簡的概念漂移量。
3結論
傳統(tǒng)的概念漂移探測方法不能探測模糊數據流中模糊概念漂移,并且其主要利用分類準確率的變化對概念漂移現象進行探測。本文提出了一種基于模糊并行約簡的概念漂移探測方法。本文方法利用模糊數據的內部特性——模糊并行約簡后的屬性重要性的變化探測模糊概念漂移現象。
下一步的工作是研究模糊并行約簡探測模糊概念漂移中δ的最佳取值,以及具體運用模糊并行約簡構建分類器,與傳統(tǒng)的概念漂移方法進行深入的分析比較。
參考文獻
?。?] BABCOCK B, BABU S, DATER M,et al. Models and issues in data stream systems[C]. Proceedings of the 21st ACM SIGACTSIGMODSIGART Sympsium on Principles Database Systems, Madison, USA, 2002:16.
?。?] 王濤, 李舟軍, 顏躍進, 等. 數據流挖掘分類技術綜述[J]. 計算機研究與發(fā)展, 2007, 44(11):18091815.
[3] 徐文華, 覃征, 常揚. 基于半監(jiān)督學習的數據流集成分類算法[J]. 模式識別與人工智能, 2012, 25(2): 292299.
?。?] Jin Ruoming, AGRAWAL G. Efficient decision tree construction on streaming data[C].Proceedings of the ACM SIGKDD the 9th International Conference on Knowledge Discovery and Data Mining, Washington, USA, 2003:571576.
?。?] 辛軼, 郭躬德, 陳黎飛,等. IKnnMDHecoc:一種解決概念漂移問題的方法[J].計算機研究與發(fā)展, 2011, 48(4):592601.
[6] 琚春華,帥朝謙,封毅,基于粒計算的商業(yè)數據流概念漂移特征選擇[J].南京大學學報(自然科學版),2011,47(4):391397.
?。?] 鄧大勇, 徐小玉, 黃厚寬. 基于并行約簡的概念漂移探測[J]. 計算機研究與發(fā)展, 2015, 52(5):10711079
?。?] PAWLAK Z. Rough sets[J]. International journal of Information and Computer Science, 1982,11(5): 341356.
?。?] JENSEN R , Shen Qiang. Fuzzy–rough sets for descriptive dimensionality reduction[C].Proceedings of 11th International Conference on Fuzzy Systems, Hawaii, 2002: 2934.
?。?0] 李興寬.集值信息下的粗集與知識獲?。跩].微型機與應用,2015,34(23):1415.
?。?1] 程昳,苗奪謙,馮琴榮.基于模糊粗糙集的粒度計算[J]. 計算機科學,2007,34(7):142149.
?。?2] 徐菲菲,苗奪謙,魏萊,等.基于互信息的模糊粗糙集屬性約簡[J]. 電子與信息學報,2008,30(6):13721375.
[13] 王國胤, 李德毅, 姚一豫,等.云模型與粒計算[M].北京:科學出版社, 2012.
?。?4] 陳林. 粗糙集中不同粒度層次下的模糊并行約簡及決策[D]. 金華:浙江師范大學,2013.
?。?5] 鄧大勇, 徐小玉, 裴明華. F模糊粗糙集及其并行約簡[J]. 浙江師范大學學報(自然科學版), 2015, 38(1):5866.
?。?6] 鄧大勇, 裴明華, 黃厚寬. F粗糙集方法對概念漂移的度量[J]. 浙江師范大學學報(自然科學版), 2013, 36(3):303308.
[17] Yao Yiyu. Threeway decision with probabilistic rough sets[J].Information Sciences, 2010, 180:341353.