盧盛祺1,2,3,李遠剛1,2,管連4,周赟3
?。?.上海財經(jīng)大學 信息管理與工程學院,上海 200433;2.上海財經(jīng)大學 上海市金融信息技術(shù)重點實驗室,上海 200433;3.復旦大學 軟件學院,上海 200433;4.國際商業(yè)機器(中國)有限公司,北京 100101)
摘要:隨著銀行服務(wù)信息化的不斷發(fā)展,銀行面臨如何從大量的服務(wù)數(shù)據(jù)中提取有價值的信息用以提升服務(wù)效率的問題。在銀行服務(wù)管理系統(tǒng)的實際應(yīng)用中,由于其業(yè)務(wù)具有并發(fā)性事件多、日志數(shù)量大等特點,選擇并行Apriori算法進行分析。與傳統(tǒng)的Apriori算法相比,針對銀行業(yè)務(wù)中并發(fā)性業(yè)務(wù)較多的特點,設(shè)計使用了并行Apriori算法,解決了單服務(wù)器運行效率隨日志數(shù)量明顯下降的弊端。銀行服務(wù)管理系統(tǒng)每日會產(chǎn)生大量流程的日志數(shù)據(jù),記錄每一位參與員工的工作狀態(tài),通過調(diào)用并行Aporiori算法,挖掘服務(wù)流程日志中的關(guān)聯(lián)規(guī)則,找出能夠高效協(xié)作的員工組合。實驗結(jié)果表明,將并行Apriori算法應(yīng)用于服務(wù)流程日志的關(guān)聯(lián)規(guī)則挖掘,使系統(tǒng)可以根據(jù)規(guī)則將協(xié)作關(guān)系緊密的員工分配在一起共同處理服務(wù)請求,提高了服務(wù)效率,取得了合理的應(yīng)用效果,提高了銀行服務(wù)管理系統(tǒng)中服務(wù)分配的智能。
關(guān)鍵詞:流程挖掘;關(guān)聯(lián)規(guī)則;員工組合;組織優(yōu)化;并行Apriori算法
0引言
隨著銀行同業(yè)競爭之間的壓力逐漸加劇,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于發(fā)現(xiàn)流程日志數(shù)據(jù)中的有用模式,解決銀行在新形勢下面臨的問題,成為大數(shù)據(jù)時代下銀行信息化應(yīng)用的研究熱點[1 2]。作為銀行信息化核心系統(tǒng)之一的銀行服務(wù)管理系統(tǒng),需要針對來自于銀行各種業(yè)務(wù)渠道的客戶進行一站式的管理服務(wù),并幫助銀行優(yōu)化客戶服務(wù)管理流程,提高服務(wù)效率?,F(xiàn)有的銀行服務(wù)管理系統(tǒng)主要提供諸如服務(wù)請求錄入、服務(wù)請求查詢等基本的業(yè)務(wù)操作功能,但系統(tǒng)的智能性普遍不高。此外,銀行服務(wù)管理系統(tǒng)在長期的運行過程中積累了大量的流程日志,包括事件以及事件執(zhí)行者等數(shù)據(jù)[3],這些流程日志所包含的數(shù)據(jù)反映了流程的執(zhí)行過程[4]。因此,數(shù)據(jù)挖掘技術(shù)的應(yīng)用為解決上述問題提供了新的機遇[5 6]。通過對流程日志數(shù)據(jù)的分析和重現(xiàn)業(yè)務(wù)流程模型,可以發(fā)現(xiàn)影響銀行效率的瓶頸,并更好地利用現(xiàn)有資源提高服務(wù)質(zhì)量,推進了銀行的業(yè)務(wù)設(shè)計和管理的改進[7 8]。
學術(shù)界和企業(yè)界已經(jīng)探討了如何應(yīng)用銀行流程日志的分析來提高銀行服務(wù)管理系統(tǒng)的智能[9]。例如,基于時間序列的數(shù)據(jù)挖掘可以預(yù)測銀行客戶未來的行為[10]。還有基于支持向量機和決策樹的改進算法,對數(shù)據(jù)進行分析并最終預(yù)測銀行的業(yè)務(wù)效率[1112]。但總體而言,目前的相關(guān)研究還主要集中在對銀行流程日志中所包含的客戶相關(guān)數(shù)據(jù)的分析,而對于銀行內(nèi)部運營效率提升方面的應(yīng)用研究還相對較少,特別是銀行員工作為服務(wù)流程的參與者,他們之間的合作關(guān)系也是影響銀行運營效率的主要因素[13]。
本文重點討論了如何找到合作效率較高的員工組合,來提升銀行服務(wù)效率,其中針對銀行服務(wù)管理系統(tǒng)流程日志的大規(guī)模特點,探討了如何有效地應(yīng)用并行Apriori算法分析銀行員工與服務(wù)效率之間的關(guān)系[14]。
1銀行服務(wù)管理流程日志預(yù)處理
1.1流程日志的數(shù)據(jù)分析
銀行服務(wù)管理系統(tǒng)通常會對服務(wù)請求處理的流程數(shù)據(jù)加以記錄,最常見的是以日志文件的形式進行保存。而流程日志作為流程挖掘的輸入,記錄了流程執(zhí)行過程中的相關(guān)數(shù)據(jù)。
在銀行服務(wù)管理系統(tǒng)產(chǎn)生的流程日志中,可以提取參與某次服務(wù)請求處理的所有員工、處理的時間等數(shù)據(jù)。其中,參與某次服務(wù)請求處理的所有員工可以看成是針對該次服務(wù)請求處理組成的臨時團隊,而所花費的總處理時間反映了服務(wù)的效率。對流程日志數(shù)據(jù)進行簡單的觀察,即可發(fā)現(xiàn)針對相同類型的服務(wù)請求,參與處理的員工組合不同,所花費的總處理時間也是不同的。這很大程度上是因為員工之間的協(xié)作緊密程度影響著服務(wù)效率。通常協(xié)作關(guān)系好的員工在一起處理服務(wù)請求,具有更高的服務(wù)效率。這說明完成服務(wù)處理的員工的組合與總處理時間之間存在一定的關(guān)聯(lián)關(guān)系。因此可以通過關(guān)聯(lián)分析找到與高服務(wù)效率相關(guān)聯(lián)的員工組合,回答“怎樣的員工組合是高效的”,也側(cè)面回答了“哪些員工在一起工作是協(xié)作緊密的”,從而提高了系統(tǒng)的智能性。在此基礎(chǔ)上,針對各類服務(wù)請求,生成相應(yīng)的服務(wù)分配規(guī)則,將協(xié)作關(guān)系緊密、可以提供高服務(wù)效率的員工分配一起,從而提高服務(wù)效率,減少客戶的等待時間,提高客戶滿意度。
流程日志文件本身往往不是為關(guān)聯(lián)分析所設(shè)計的,它包含了與分析主題無關(guān)的屬性,也存在與分析主題所需數(shù)據(jù)維度不一致的情況,因此數(shù)據(jù)預(yù)處理是整個流程日志挖掘過程的基礎(chǔ)以及保證規(guī)則有效性的前提,從大量的數(shù)據(jù)屬性中提取與挖掘過程有關(guān)的屬性從而降低了原始數(shù)據(jù)的維數(shù)。數(shù)據(jù)預(yù)處理主要包括以下幾方面。
?。?)忽略或者刪除與關(guān)聯(lián)分析無關(guān)的屬性。
(2)對噪聲數(shù)據(jù)、錯誤數(shù)據(jù)、缺失數(shù)據(jù)進行數(shù)據(jù)清洗處理[15]。由于系統(tǒng)的異常、人為的誤操作等情況都可能產(chǎn)生噪聲數(shù)據(jù)、錯誤數(shù)據(jù)、缺失數(shù)據(jù),這些數(shù)據(jù)會影響分析的結(jié)果,因此在數(shù)據(jù)預(yù)處理過程中需要對這些數(shù)據(jù)進行數(shù)據(jù)清洗,以提高數(shù)據(jù)挖掘算法的效率和準確度。其中,對缺失數(shù)據(jù)的問題,通??梢酝ㄟ^數(shù)據(jù)補齊和數(shù)據(jù)預(yù)測等方法處理。對于少量錯誤數(shù)據(jù)的問題,通常采取刪除錯誤記錄的方式進行處理。
(3)對數(shù)據(jù)進行轉(zhuǎn)換。這主要包括定義衍生列,并根據(jù)邏輯計算其值,對隱私信息進行轉(zhuǎn)換等操作。
1.2流程數(shù)據(jù)的預(yù)處理
(1)數(shù)據(jù)清理
針對在流程日志數(shù)據(jù)分析中發(fā)現(xiàn)的典型問題,可以通過以下方法進行處理:
?、籴槍﹀e誤數(shù)據(jù)、缺失數(shù)據(jù)的問題,通過定義規(guī)則來定位錯誤數(shù)據(jù)和缺失的數(shù)據(jù),并將其刪除。例如“InQueueDateTime”、“OutQueueDateTime”分別表示服務(wù)請求進入員工服務(wù)隊列池的開始時間和結(jié)束時間,顯然“InQueueDateTime”晚于“OutQueueDateTime”的數(shù)據(jù)為異常數(shù)據(jù)。因此,可以定義規(guī)則:如果記錄中的“InQueueDateTime”晚于“OutQueueDateTime”,則刪除該條記錄。
?、卺槍π枰獙?shù)據(jù)進行轉(zhuǎn)換的問題,可以定義字段轉(zhuǎn)換規(guī)則和計算公式,并據(jù)此產(chǎn)生衍生字段。例如設(shè)定計算規(guī)則:“處理池停留時間(Duration)”可以由“服務(wù)請求進入處理池的時間”到“服務(wù)請求離開處理池的時間”的間隔計算得到。對各步的處理池停留時間求和,就可以得到衍生字段“總服務(wù)處理時間”。
?、鄯从撤?wù)效率的服務(wù)處理時間一般是正態(tài)分布的,因此代表高服務(wù)效率的記錄往往很少。針對該問題,可以僅截取代表高服務(wù)效率的記錄作為分析的數(shù)據(jù)集,然后設(shè)定合適的服務(wù)效率分級規(guī)則。
(2)會話識別
要識別每一條會話,一條完整的會話的界定比較復雜,以撥打電話為例,用戶會在不明確服務(wù)流程的情況下,撥打好幾次電話進行嘗試,但其中只有服務(wù)成功的會話才是有效的,所以在識別會話的過程中有一些啟發(fā)式規(guī)則可以使用。
①在短時間內(nèi),一個用戶進行多次的服務(wù)請求,都可以認為是一個會話。
②一個用戶如果發(fā)起了不同的服務(wù)請求,需要被認為是不同的會話。
③與用戶確認結(jié)束服務(wù)作為一個會話的結(jié)束,保證會話的有效性。
在各類企業(yè)信息系統(tǒng)所產(chǎn)生的日志文件中,XML是一種比較常見的形式。其中,每一個XML標簽(tag)被稱為一個元素,對應(yīng)一個屬性。針對銀行服務(wù)管理系統(tǒng)產(chǎn)生的流程日志的文件形式,可以通過ETL工具對其進行預(yù)處理,只采集與關(guān)聯(lián)分析有關(guān)的屬性。使用 ETL工具讀取流程日志文件和元數(shù)據(jù)配置文件,將流程數(shù)據(jù)加載到數(shù)據(jù)庫中。流程數(shù)據(jù)表包含的主要屬性有請求類別(RequestType)、請求子類的唯一標識碼(RequestCode)、此次服務(wù)請求的唯一標識(RequestCaseUniqID)、操作類別(ActionType)、日志記錄類別(LogRecordType)、系統(tǒng)用戶賬號(LogonID)、會話號(SessionID)、會話開始時間(SessionStartDateTime)、會話結(jié)束時間(SessionEndDateTime)、進入處理池時間(InQueueDateTime)、離開處理池時間(OutQueueDateTime)和產(chǎn)品代碼(ProdectCode)等。
1.3數(shù)值屬性離散化
并行Apriori算法是一種用以挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的關(guān)聯(lián)規(guī)則分析算法,而服務(wù)請求的總時間是數(shù)值類型的,因此需要對服務(wù)請求總時間進行屬性離散化。
以處理申請無抵押貸款的服務(wù)請求為例,用ProcessRequest_APPL-UPL代表處理客戶申請無抵押貸款的服務(wù)請求,且該請求在系統(tǒng)中需要通過4個步驟完成。其基本流程是個人貸款部門業(yè)務(wù)員完成對請求的相關(guān)信息錄入;客戶信息管理部門根據(jù)錄入的信息核對該客戶信息并在系統(tǒng)中給予核準意見;對于通過核準步驟的請求,貸款部的額度組根據(jù)客戶收入和信息確定批準的貸款金額;最后,個人貸款部門業(yè)務(wù)員發(fā)放貸款并在系統(tǒng)中更新該信息。用TCT代表完成此次服務(wù)請求的總耗時。包含上述員工的服務(wù)請求的部分流程分析數(shù)據(jù)如表1所示。
服務(wù)總時間數(shù)據(jù)離散的過程如下:
?。?)計算針對客戶申請無抵押貸款類的服務(wù)請求(APPLUPL),所有員工序列的總平均處理時間(AverageConsumedTime,ACT),即ACT=sum(TCT)/ (records count)。
?。?)將各組員工序列的處理總時間(TotalConsumedTime,TCT)減去總平均處理時間(ACT)并與總平均處理時間求比值,用TCT%表示。
(3)確定服務(wù)請求處理效率的分級規(guī)則。對服務(wù)請求的處理效率進行分級時,需要分析經(jīng)過步驟(2)計算后的TCT%的分布情況,并根據(jù)數(shù)據(jù)的分布情況確定最小置信度的區(qū)間。
依據(jù)以下原則選取合適的服務(wù)請求處理效率分級規(guī)則。
?、俦WC分級后,包含期望出現(xiàn)在挖掘結(jié)果中的服務(wù)等級的記錄數(shù)與總記錄數(shù)的比值大于選取的最小置信度。例如,假設(shè)定義TCT% 小于-50%為Class A,代表具有高服務(wù)處理效率,期望挖掘出的關(guān)聯(lián)規(guī)則是員工組合與高服務(wù)效率(Class =A)之間的關(guān)聯(lián)關(guān)系。
②保證分級后,挖掘出的結(jié)果是有意義的。如果將TCT% 小于-1%劃分為Class=A,則挖掘出的關(guān)聯(lián)規(guī)則包含Class=A的項集。因為各組員工的TCT%符合正態(tài)分布,假設(shè)現(xiàn)有的服務(wù)效率(ProductivityClass)分為5級,數(shù)據(jù)分布以及在此基礎(chǔ)上設(shè)定的服務(wù)效率分級規(guī)則如表2所示。
?。?)根據(jù)步驟(3)確定的服務(wù)效率分級規(guī)則對(ACT)進行離散化處理。假設(shè)根據(jù)表2的規(guī)則對數(shù)據(jù)進行離散化處理,處理后的結(jié)果如表3所示。
經(jīng)過上述步驟,數(shù)值型的總服務(wù)處理時間就轉(zhuǎn)換成了布爾型的服務(wù)效率等級。
2銀行服務(wù)管理日志挖掘
針對大量的并發(fā)操作,銀行服務(wù)管理系統(tǒng)往往采用了并行的處理架構(gòu)以應(yīng)對數(shù)據(jù)增加帶來的性能瓶頸問題。因此,系統(tǒng)產(chǎn)生的流程日志文件也分布在多個服務(wù)器上。如果將位于各個服務(wù)器上的流程日志文件采集集成到一個服務(wù)器上處理,則隨著數(shù)據(jù)量的不斷累積和增加,最終導致處理和挖掘效率的直線下降。與此同時,Apriori挖掘算法在掃描儲存了大量數(shù)據(jù)的數(shù)據(jù)庫表時也會消耗大量的資源。
基于上述問題,本文充分利用銀行服務(wù)管理系統(tǒng)本身的并行架構(gòu),采用基于并行處理的Apriori算法[16]。假設(shè)表4是處理后的完整數(shù)據(jù)集合,若選擇0.4作為最低支持度閾值,則可應(yīng)用并行Apriori算法挖掘員工序列與服務(wù)效率之間的關(guān)聯(lián)關(guān)系。
(1)生成局部頻繁集
使用典型的Apriori算法對每個流程日志文件進行關(guān)聯(lián)分析,分別得到局部的頻繁項目集。
?。?)使用并行的Apriori算法計算關(guān)聯(lián)規(guī)則
首先將所有局部頻繁項集進行合并,組合成全局候選的頻繁項集合。然后刪去其中不滿足最小支持度的集合,得到全局的頻繁項目集合。獲得所有頻繁集的非空子集并計算子集的置信度,得到關(guān)聯(lián)規(guī)則集。最后,選擇與業(yè)務(wù)需求相關(guān)的關(guān)聯(lián)規(guī)則,即(員工組合)=>(服務(wù)等級)形式的規(guī)則。
3實驗
為了驗證使用并行Apriori關(guān)聯(lián)規(guī)則挖掘員工組合與服務(wù)處理效率之間關(guān)聯(lián)關(guān)系的效果,這里選擇了銀行服務(wù)管理系統(tǒng)在一個月內(nèi)產(chǎn)生的流程日志文件進行實驗。由于不同類別的服務(wù)請求處理的流程和所涉及的處理員工差異較大,因此僅提取包含處理客戶申請無抵押貸款的服務(wù)請求的數(shù)據(jù)進行實驗分析。剔除未完成的服務(wù)處理請求記錄,滿足條件的數(shù)據(jù)集大約有15萬條記錄,其中根據(jù)默認的服務(wù)等級劃分后的數(shù)據(jù)分布如表5所示。
服務(wù)等級(Class=A)的記錄由于所占比例太小,在尋找頻繁項集的過程中,會因為不符合最小支持度閾值而被過濾。而如果設(shè)定較小的最小支持度閾值,則會帶來性能的問題,并挖掘出大量的無用規(guī)則。因此排除服務(wù)等級為D和E的記錄,并根據(jù)選取的最小支持度對服務(wù)等級重新劃分。
在完成對數(shù)據(jù)的預(yù)處理后,使用分布式處理的每一個處理節(jié)點都加載包含了對常見的關(guān)聯(lián)規(guī)則算法實現(xiàn)的R擴展包arules后,調(diào)用rules包中的apriori函數(shù)對處理后的數(shù)據(jù)做關(guān)聯(lián)分析。指定合適的最小支持度和最小置信度后,獲得滿足條件的關(guān)聯(lián)規(guī)則的部分結(jié)果輸出如下:
1{E1=John,E2=Lisa,E3=Jenny,E4=Raju}=>{Class=D} 0.154545450.7500000 5.892857
2 {E1=John, E2=Lisa, E3=Jenny, E4=Rajesh} => {Class=C} 0.16363636 0.4285714 2.619048
3 {E1=John, E2=Lisa, E3=Jenny, E4=Rajesh} => {Class=B} 0.172727270.4285714 2.964286
4 {E1=John, E2=Lisa,E3=Jenny,E4=Sophia}=>{Class=A} 0.154545450.7500000 2.291667
5 {E1=David, E2=Ken, E3=Bruce,E4=Sophia}=>{Class=A} 0.145454550.8888889 2.716049
... ...
上述結(jié)果所對應(yīng)的包含服務(wù)等級A的規(guī)則如下:
1.{E1=John,E2=Lisa,E3=Jenny,E4=Sophia} => {Class=A} conf:(0.7500000)
2.{E1=David,E2=Ken,E3=Bruce,E4=Sophia} => {Class=A} conf:(0.8888889)
... ...
如果僅僅使用Apriori關(guān)聯(lián)算法,在計算支持度時需要多次掃描數(shù)據(jù)庫,而Eclat算法對候選n項集進行支持度計算時不需再次掃描數(shù)據(jù)庫。因此通過應(yīng)用Eclat關(guān)聯(lián)規(guī)則算法對實驗數(shù)據(jù)進行關(guān)聯(lián)規(guī)則挖掘,通過對比挖掘出的結(jié)果驗證規(guī)則的有效性,并比較它們在性能上的差異。
在加載包含了對常見的關(guān)聯(lián)規(guī)則算法實現(xiàn)的R擴展包arules后,調(diào)用rules包中的eclat函數(shù)對處理后的相同數(shù)據(jù)做關(guān)聯(lián)分析。指定相同的最小支持度和最小置信度后,獲得滿足條件的關(guān)聯(lián)規(guī)則集合。
基于本實驗的數(shù)據(jù)集,且在相同實驗的環(huán)境下,加載R擴展包arules后,通過分別調(diào)用apriori函數(shù)和eclat函數(shù)以實現(xiàn)Apriori關(guān)聯(lián)規(guī)則挖掘和Eclat關(guān)聯(lián)規(guī)則挖掘,然后獲取兩者所消耗的時間并進行比較。結(jié)果表明,兩者在性能上差異很小。其中,采用Eclat算法進行挖掘比采用非并行Apriori算法進行挖掘快2 min得出結(jié)果,并行Apriori算法的時間明顯減少,其中并行算法使用3臺Dell R530/2.83 Hz/8 GB服務(wù)器,其他使用單臺服務(wù)器配置。修正最小支持度閾值,得到表6所示的實驗結(jié)果。
因此基于目前銀行服務(wù)管理系統(tǒng)產(chǎn)生的流程數(shù)據(jù),采用并行Apriori關(guān)聯(lián)規(guī)則算法進行挖掘,取得了比較理想的效果。
4結(jié)論
協(xié)作的緊密程度影響著服務(wù)處理的效率,分配協(xié)作緊密度高的員工在一起合作可以提高服務(wù)的效率。哪些員工在一起合作具有緊密的協(xié)作關(guān)系,能提供高效的服務(wù),蘊藏在流程日志數(shù)據(jù)中。本文分析了如何有效地應(yīng)用并行Apriori算法從流程日志中挖掘出服務(wù)處理員工序列與服務(wù)效率之間的關(guān)系。將挖掘出的關(guān)系映射成對服務(wù)分配的規(guī)則,使得系統(tǒng)根據(jù)規(guī)則將協(xié)作關(guān)系緊密的員工分配在一起共同處理服務(wù)請求,提高了服務(wù)效率,取得了合理的應(yīng)用效果,實現(xiàn)了銀行服務(wù)管理系統(tǒng)中服務(wù)分配的智能化。如何應(yīng)用數(shù)據(jù)挖掘技術(shù)更深層次地去挖掘蘊含在流程日志中的有用模式或知識,是需要進一步思考的問題。
參考文獻
?。?] LNMON W H.數(shù)據(jù)倉庫(第3版)[M].王志海,譯.北京:機械工業(yè)出版社,2005.
[2] LAROSE D T. Discovering knowledge in data: an introduction to data mining[M].New Jersey: WileyInterscience,2005.
?。?] 趙衛(wèi)東.智能化的流程管理[M].上海:復旦大學出版社,2014.
?。?] van der AALST W M P, WEIJTERS T, MATUSTER L.Workflow mining:discovering process models from event logs[J] .IEEE Transactions on Knowledge and Data Engineering, 2004,16(9):1128 1142.
?。?] BERSON A, SMITH S, THEARLING K. Building data mining applications for CRM[M]. New York: McGrawHill Companies, 2000.
[6] ROMBEL A. CRM shifts to data mining to keep customers[J].Global Finance,2001,15(11):97 98.
?。?] WEISS G M. Data mining in telecommunications[A].The data mining and knowledge discovering handbook[M].Springer US,2005:1187 1201.
?。?] GROTH R.Data mining:building competitive advantage[M].Prentice Hall,1999.
[9] 趙衛(wèi)東,劉海濤.流程挖掘在流程優(yōu)化中的應(yīng)用[J].計算機集成制造系統(tǒng),2014,20(10):2633 2641.
?。?0] PARVATHY A G,VASUDEVAN B G,KUMAR A,et al.Leveraging call center logs for customer behavior prediction[A]. ADAMS N M.Advances in Intelligent Data Analysis VIII8th International Symposium on Intelligent Data Analysis[C].Lyon: SpringerVerlag,2009,57772:143 154.
?。?1] WRITTEN I H, FRANK E.Data mining practical machine learning tools and techniques[M].Burlington:Morgan Kaufmann,2011.
?。?2] LIN S W, SHIUE Y R, CHEN S C,et al.Applying enhanced data mining approaches in predicting bank performance:A case of Taiwanese commercial banks [J].Expert Systems with Applications, 2009,36(9):11543 11551.
?。?3] AKHIL K,DIJKMAN R M,SONG M.Optimal resource assignment in workflows for maximizing cooperation[A].Business Process Management (Proceedings of the 11th International Conference on Business Process Management)[C] .Berlin Heidelberg: SpringerVerlag,2013:235 250.
?。?4] Wu Xindong, KUMAR V.The top ten algorithms in data mining[M].USA:Chapman and Hall/CRC,2009.
?。?5] Han Jiawei.Data mining:concepts and techniques[M].Burlington:Morgan Kaufmann,2011.
?。?6] YE Y, CHIANG C C. A parallel apriori algorithm for frequent itemsets mining[C]. Fourth International Conference on Software Engineering Research, Management and Applications, 2006, IEEE, 2006: 87 94.