《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 流程挖掘在銀行服務(wù)管理中的應(yīng)用
流程挖掘在銀行服務(wù)管理中的應(yīng)用
2016年微型機(jī)與應(yīng)用第18期
盧盛祺1,2,3,李遠(yuǎn)剛1,2,管連4,周赟3
1.上海財(cái)經(jīng)大學(xué) 信息管理與工程學(xué)院,上海 200433;2.上海財(cái)經(jīng)大學(xué) 上海市金融信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,上海 200433; 3.復(fù)旦大學(xué) 軟件學(xué)院,上海 200433;4.國際商業(yè)機(jī)器(中國)有限公司,北京 100101
摘要: 隨著銀行服務(wù)信息化的不斷發(fā)展,銀行面臨如何從大量的服務(wù)數(shù)據(jù)中提取有價(jià)值的信息用以提升服務(wù)效率的問題。在銀行服務(wù)管理系統(tǒng)的實(shí)際應(yīng)用中,由于其業(yè)務(wù)具有并發(fā)性事件多、日志數(shù)量大等特點(diǎn),選擇并行Apriori算法進(jìn)行分析。與傳統(tǒng)的Apriori算法相比,針對銀行業(yè)務(wù)中并發(fā)性業(yè)務(wù)較多的特點(diǎn),設(shè)計(jì)使用了并行Apriori算法,解決了單服務(wù)器運(yùn)行效率隨日志數(shù)量明顯下降的弊端。銀行服務(wù)管理系統(tǒng)每日會(huì)產(chǎn)生大量流程的日志數(shù)據(jù),記錄每一位參與員工的工作狀態(tài),通過調(diào)用并行Aporiori算法,挖掘服務(wù)流程日志中的關(guān)聯(lián)規(guī)則,找出能夠高效協(xié)作的員工組合。實(shí)驗(yàn)結(jié)果表明,將并行Apriori算法應(yīng)用于服務(wù)流程日志的關(guān)聯(lián)規(guī)則挖掘,使系統(tǒng)可以根據(jù)規(guī)則將協(xié)作關(guān)系緊密的員工分配在一起共同處理服務(wù)請求,提高了服務(wù)效率,取得了合理的應(yīng)用效果,提高了銀行服務(wù)管理系統(tǒng)中服務(wù)分配的智能。
Abstract:
Key words :

  盧盛祺1,2,3,李遠(yuǎn)剛1,2,管連4,周赟3

  (1.上海財(cái)經(jīng)大學(xué) 信息管理與工程學(xué)院,上海 200433;2.上海財(cái)經(jīng)大學(xué) 上海市金融信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,上海 200433;3.復(fù)旦大學(xué) 軟件學(xué)院,上海 200433;4.國際商業(yè)機(jī)器(中國)有限公司,北京 100101)

       摘要:隨著銀行服務(wù)信息化的不斷發(fā)展,銀行面臨如何從大量的服務(wù)數(shù)據(jù)中提取有價(jià)值的信息用以提升服務(wù)效率的問題。在銀行服務(wù)管理系統(tǒng)的實(shí)際應(yīng)用中,由于其業(yè)務(wù)具有并發(fā)性事件多、日志數(shù)量大等特點(diǎn),選擇并行Apriori算法進(jìn)行分析。與傳統(tǒng)的Apriori算法相比,針對銀行業(yè)務(wù)中并發(fā)性業(yè)務(wù)較多的特點(diǎn),設(shè)計(jì)使用了并行Apriori算法,解決了單服務(wù)器運(yùn)行效率隨日志數(shù)量明顯下降的弊端。銀行服務(wù)管理系統(tǒng)每日會(huì)產(chǎn)生大量流程的日志數(shù)據(jù),記錄每一位參與員工的工作狀態(tài),通過調(diào)用并行Aporiori算法,挖掘服務(wù)流程日志中的關(guān)聯(lián)規(guī)則,找出能夠高效協(xié)作的員工組合。實(shí)驗(yàn)結(jié)果表明,將并行Apriori算法應(yīng)用于服務(wù)流程日志的關(guān)聯(lián)規(guī)則挖掘,使系統(tǒng)可以根據(jù)規(guī)則將協(xié)作關(guān)系緊密的員工分配在一起共同處理服務(wù)請求,提高了服務(wù)效率,取得了合理的應(yīng)用效果,提高了銀行服務(wù)管理系統(tǒng)中服務(wù)分配的智能。

  關(guān)鍵詞:流程挖掘;關(guān)聯(lián)規(guī)則;員工組合;組織優(yōu)化;并行Apriori算法

0引言

  隨著銀行同業(yè)競爭之間的壓力逐漸加劇,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于發(fā)現(xiàn)流程日志數(shù)據(jù)中的有用模式,解決銀行在新形勢下面臨的問題,成為大數(shù)據(jù)時(shí)代下銀行信息化應(yīng)用的研究熱點(diǎn)[1 2]。作為銀行信息化核心系統(tǒng)之一的銀行服務(wù)管理系統(tǒng),需要針對來自于銀行各種業(yè)務(wù)渠道的客戶進(jìn)行一站式的管理服務(wù),并幫助銀行優(yōu)化客戶服務(wù)管理流程,提高服務(wù)效率?,F(xiàn)有的銀行服務(wù)管理系統(tǒng)主要提供諸如服務(wù)請求錄入、服務(wù)請求查詢等基本的業(yè)務(wù)操作功能,但系統(tǒng)的智能性普遍不高。此外,銀行服務(wù)管理系統(tǒng)在長期的運(yùn)行過程中積累了大量的流程日志,包括事件以及事件執(zhí)行者等數(shù)據(jù)[3],這些流程日志所包含的數(shù)據(jù)反映了流程的執(zhí)行過程[4]。因此,數(shù)據(jù)挖掘技術(shù)的應(yīng)用為解決上述問題提供了新的機(jī)遇[5 6]。通過對流程日志數(shù)據(jù)的分析和重現(xiàn)業(yè)務(wù)流程模型,可以發(fā)現(xiàn)影響銀行效率的瓶頸,并更好地利用現(xiàn)有資源提高服務(wù)質(zhì)量,推進(jìn)了銀行的業(yè)務(wù)設(shè)計(jì)和管理的改進(jìn)[7 8]。

  學(xué)術(shù)界和企業(yè)界已經(jīng)探討了如何應(yīng)用銀行流程日志的分析來提高銀行服務(wù)管理系統(tǒng)的智能[9]。例如,基于時(shí)間序列的數(shù)據(jù)挖掘可以預(yù)測銀行客戶未來的行為[10]。還有基于支持向量機(jī)和決策樹的改進(jìn)算法,對數(shù)據(jù)進(jìn)行分析并最終預(yù)測銀行的業(yè)務(wù)效率[1112]。但總體而言,目前的相關(guān)研究還主要集中在對銀行流程日志中所包含的客戶相關(guān)數(shù)據(jù)的分析,而對于銀行內(nèi)部運(yùn)營效率提升方面的應(yīng)用研究還相對較少,特別是銀行員工作為服務(wù)流程的參與者,他們之間的合作關(guān)系也是影響銀行運(yùn)營效率的主要因素[13]。

  本文重點(diǎn)討論了如何找到合作效率較高的員工組合,來提升銀行服務(wù)效率,其中針對銀行服務(wù)管理系統(tǒng)流程日志的大規(guī)模特點(diǎn),探討了如何有效地應(yīng)用并行Apriori算法分析銀行員工與服務(wù)效率之間的關(guān)系[14]。

1銀行服務(wù)管理流程日志預(yù)處理

  1.1流程日志的數(shù)據(jù)分析

  銀行服務(wù)管理系統(tǒng)通常會(huì)對服務(wù)請求處理的流程數(shù)據(jù)加以記錄,最常見的是以日志文件的形式進(jìn)行保存。而流程日志作為流程挖掘的輸入,記錄了流程執(zhí)行過程中的相關(guān)數(shù)據(jù)。

  在銀行服務(wù)管理系統(tǒng)產(chǎn)生的流程日志中,可以提取參與某次服務(wù)請求處理的所有員工、處理的時(shí)間等數(shù)據(jù)。其中,參與某次服務(wù)請求處理的所有員工可以看成是針對該次服務(wù)請求處理組成的臨時(shí)團(tuán)隊(duì),而所花費(fèi)的總處理時(shí)間反映了服務(wù)的效率。對流程日志數(shù)據(jù)進(jìn)行簡單的觀察,即可發(fā)現(xiàn)針對相同類型的服務(wù)請求,參與處理的員工組合不同,所花費(fèi)的總處理時(shí)間也是不同的。這很大程度上是因?yàn)閱T工之間的協(xié)作緊密程度影響著服務(wù)效率。通常協(xié)作關(guān)系好的員工在一起處理服務(wù)請求,具有更高的服務(wù)效率。這說明完成服務(wù)處理的員工的組合與總處理時(shí)間之間存在一定的關(guān)聯(lián)關(guān)系。因此可以通過關(guān)聯(lián)分析找到與高服務(wù)效率相關(guān)聯(lián)的員工組合,回答“怎樣的員工組合是高效的”,也側(cè)面回答了“哪些員工在一起工作是協(xié)作緊密的”,從而提高了系統(tǒng)的智能性。在此基礎(chǔ)上,針對各類服務(wù)請求,生成相應(yīng)的服務(wù)分配規(guī)則,將協(xié)作關(guān)系緊密、可以提供高服務(wù)效率的員工分配一起,從而提高服務(wù)效率,減少客戶的等待時(shí)間,提高客戶滿意度。

  流程日志文件本身往往不是為關(guān)聯(lián)分析所設(shè)計(jì)的,它包含了與分析主題無關(guān)的屬性,也存在與分析主題所需數(shù)據(jù)維度不一致的情況,因此數(shù)據(jù)預(yù)處理是整個(gè)流程日志挖掘過程的基礎(chǔ)以及保證規(guī)則有效性的前提,從大量的數(shù)據(jù)屬性中提取與挖掘過程有關(guān)的屬性從而降低了原始數(shù)據(jù)的維數(shù)。數(shù)據(jù)預(yù)處理主要包括以下幾方面。

  (1)忽略或者刪除與關(guān)聯(lián)分析無關(guān)的屬性。

  (2)對噪聲數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、缺失數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗處理[15]。由于系統(tǒng)的異常、人為的誤操作等情況都可能產(chǎn)生噪聲數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、缺失數(shù)據(jù),這些數(shù)據(jù)會(huì)影響分析的結(jié)果,因此在數(shù)據(jù)預(yù)處理過程中需要對這些數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,以提高數(shù)據(jù)挖掘算法的效率和準(zhǔn)確度。其中,對缺失數(shù)據(jù)的問題,通??梢酝ㄟ^數(shù)據(jù)補(bǔ)齊和數(shù)據(jù)預(yù)測等方法處理。對于少量錯(cuò)誤數(shù)據(jù)的問題,通常采取刪除錯(cuò)誤記錄的方式進(jìn)行處理。

 ?。?)對數(shù)據(jù)進(jìn)行轉(zhuǎn)換。這主要包括定義衍生列,并根據(jù)邏輯計(jì)算其值,對隱私信息進(jìn)行轉(zhuǎn)換等操作。

  1.2流程數(shù)據(jù)的預(yù)處理

  (1)數(shù)據(jù)清理

  針對在流程日志數(shù)據(jù)分析中發(fā)現(xiàn)的典型問題,可以通過以下方法進(jìn)行處理:

 ?、籴槍﹀e(cuò)誤數(shù)據(jù)、缺失數(shù)據(jù)的問題,通過定義規(guī)則來定位錯(cuò)誤數(shù)據(jù)和缺失的數(shù)據(jù),并將其刪除。例如“InQueueDateTime”、“OutQueueDateTime”分別表示服務(wù)請求進(jìn)入員工服務(wù)隊(duì)列池的開始時(shí)間和結(jié)束時(shí)間,顯然“InQueueDateTime”晚于“OutQueueDateTime”的數(shù)據(jù)為異常數(shù)據(jù)。因此,可以定義規(guī)則:如果記錄中的“InQueueDateTime”晚于“OutQueueDateTime”,則刪除該條記錄。

 ?、卺槍π枰獙?shù)據(jù)進(jìn)行轉(zhuǎn)換的問題,可以定義字段轉(zhuǎn)換規(guī)則和計(jì)算公式,并據(jù)此產(chǎn)生衍生字段。例如設(shè)定計(jì)算規(guī)則:“處理池停留時(shí)間(Duration)”可以由“服務(wù)請求進(jìn)入處理池的時(shí)間”到“服務(wù)請求離開處理池的時(shí)間”的間隔計(jì)算得到。對各步的處理池停留時(shí)間求和,就可以得到衍生字段“總服務(wù)處理時(shí)間”。

 ?、鄯从撤?wù)效率的服務(wù)處理時(shí)間一般是正態(tài)分布的,因此代表高服務(wù)效率的記錄往往很少。針對該問題,可以僅截取代表高服務(wù)效率的記錄作為分析的數(shù)據(jù)集,然后設(shè)定合適的服務(wù)效率分級(jí)規(guī)則。

  (2)會(huì)話識(shí)別

  要識(shí)別每一條會(huì)話,一條完整的會(huì)話的界定比較復(fù)雜,以撥打電話為例,用戶會(huì)在不明確服務(wù)流程的情況下,撥打好幾次電話進(jìn)行嘗試,但其中只有服務(wù)成功的會(huì)話才是有效的,所以在識(shí)別會(huì)話的過程中有一些啟發(fā)式規(guī)則可以使用。

 ?、僭诙虝r(shí)間內(nèi),一個(gè)用戶進(jìn)行多次的服務(wù)請求,都可以認(rèn)為是一個(gè)會(huì)話。

 ?、谝粋€(gè)用戶如果發(fā)起了不同的服務(wù)請求,需要被認(rèn)為是不同的會(huì)話。

 ?、叟c用戶確認(rèn)結(jié)束服務(wù)作為一個(gè)會(huì)話的結(jié)束,保證會(huì)話的有效性。

  在各類企業(yè)信息系統(tǒng)所產(chǎn)生的日志文件中,XML是一種比較常見的形式。其中,每一個(gè)XML標(biāo)簽(tag)被稱為一個(gè)元素,對應(yīng)一個(gè)屬性。針對銀行服務(wù)管理系統(tǒng)產(chǎn)生的流程日志的文件形式,可以通過ETL工具對其進(jìn)行預(yù)處理,只采集與關(guān)聯(lián)分析有關(guān)的屬性。使用 ETL工具讀取流程日志文件和元數(shù)據(jù)配置文件,將流程數(shù)據(jù)加載到數(shù)據(jù)庫中。流程數(shù)據(jù)表包含的主要屬性有請求類別(RequestType)、請求子類的唯一標(biāo)識(shí)碼(RequestCode)、此次服務(wù)請求的唯一標(biāo)識(shí)(RequestCaseUniqID)、操作類別(ActionType)、日志記錄類別(LogRecordType)、系統(tǒng)用戶賬號(hào)(LogonID)、會(huì)話號(hào)(SessionID)、會(huì)話開始時(shí)間(SessionStartDateTime)、會(huì)話結(jié)束時(shí)間(SessionEndDateTime)、進(jìn)入處理池時(shí)間(InQueueDateTime)、離開處理池時(shí)間(OutQueueDateTime)和產(chǎn)品代碼(ProdectCode)等。

  1.3數(shù)值屬性離散化

  并行Apriori算法是一種用以挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的關(guān)聯(lián)規(guī)則分析算法,而服務(wù)請求的總時(shí)間是數(shù)值類型的,因此需要對服務(wù)請求總時(shí)間進(jìn)行屬性離散化。

  以處理申請無抵押貸款的服務(wù)請求為例,用ProcessRequest_APPL-UPL代表處理客戶申請無抵押貸款的服務(wù)請求,且該請求在系統(tǒng)中需要通過4個(gè)步驟完成。其基本流程是個(gè)人貸款部門業(yè)務(wù)員完成對請求的相關(guān)信息錄入;客戶信息管理部門根據(jù)錄入的信息核對該客戶信息并在系統(tǒng)中給予核準(zhǔn)意見;對于通過核準(zhǔn)步驟的請求,貸款部的額度組根據(jù)客戶收入和信息確定批準(zhǔn)的貸款金額;最后,個(gè)人貸款部門業(yè)務(wù)員發(fā)放貸款并在系統(tǒng)中更新該信息。用TCT代表完成此次服務(wù)請求的總耗時(shí)。包含上述員工的服務(wù)請求的部分流程分析數(shù)據(jù)如表1所示。

圖像 001.png

服務(wù)總時(shí)間數(shù)據(jù)離散的過程如下:

 ?。?)計(jì)算針對客戶申請無抵押貸款類的服務(wù)請求(APPLUPL),所有員工序列的總平均處理時(shí)間(AverageConsumedTime,ACT),即ACT=sum(TCT)/ (records count)。

  (2)將各組員工序列的處理總時(shí)間(TotalConsumedTime,TCT)減去總平均處理時(shí)間(ACT)并與總平均處理時(shí)間求比值,用TCT%表示。

  (3)確定服務(wù)請求處理效率的分級(jí)規(guī)則。對服務(wù)請求的處理效率進(jìn)行分級(jí)時(shí),需要分析經(jīng)過步驟(2)計(jì)算后的TCT%的分布情況,并根據(jù)數(shù)據(jù)的分布情況確定最小置信度的區(qū)間。

  依據(jù)以下原則選取合適的服務(wù)請求處理效率分級(jí)規(guī)則。

  ①保證分級(jí)后,包含期望出現(xiàn)在挖掘結(jié)果中的服務(wù)等級(jí)的記錄數(shù)與總記錄數(shù)的比值大于選取的最小置信度。例如,假設(shè)定義TCT% 小于-50%為Class A,代表具有高服務(wù)處理效率,期望挖掘出的關(guān)聯(lián)規(guī)則是員工組合與高服務(wù)效率(Class =A)之間的關(guān)聯(lián)關(guān)系。

 ?、诒WC分級(jí)后,挖掘出的結(jié)果是有意義的。如果將TCT% 小于-1%劃分為Class=A,則挖掘出的關(guān)聯(lián)規(guī)則包含Class=A的項(xiàng)集。因?yàn)楦鹘M員工的TCT%符合正態(tài)分布,假設(shè)現(xiàn)有的服務(wù)效率(ProductivityClass)分為5級(jí),數(shù)據(jù)分布以及在此基礎(chǔ)上設(shè)定的服務(wù)效率分級(jí)規(guī)則如表2所示。

圖像 002.png

 ?。?)根據(jù)步驟(3)確定的服務(wù)效率分級(jí)規(guī)則對(ACT)進(jìn)行離散化處理。假設(shè)根據(jù)表2的規(guī)則對數(shù)據(jù)進(jìn)行離散化處理,處理后的結(jié)果如表3所示。

  經(jīng)過上述步驟,數(shù)值型的總服務(wù)處理時(shí)間就轉(zhuǎn)換成了布爾型的服務(wù)效率等級(jí)。

2銀行服務(wù)管理日志挖掘

  針對大量的并發(fā)操作,銀行服務(wù)管理系統(tǒng)往往采用了并行的處理架構(gòu)以應(yīng)對數(shù)據(jù)增加帶來的性能瓶頸問題。因此,系統(tǒng)產(chǎn)生的流程日志文件也分布在多個(gè)服務(wù)器上。如果將位于各個(gè)服務(wù)器上的流程日志文件采集集成到一個(gè)服務(wù)器上處理,則隨著數(shù)據(jù)量的不斷累積和增加,最終導(dǎo)致處理和挖掘效率的直線下降。與此同時(shí),Apriori挖掘算法在掃描儲(chǔ)存了大量數(shù)據(jù)的數(shù)據(jù)庫表時(shí)也會(huì)消耗大量的資源。

圖像 003.png

  基于上述問題,本文充分利用銀行服務(wù)管理系統(tǒng)本身的并行架構(gòu),采用基于并行處理的Apriori算法[16]。假設(shè)表4是處理后的完整數(shù)據(jù)集合,若選擇0.4作為最低支持度閾值,則可應(yīng)用并行Apriori算法挖掘員工序列與服務(wù)效率之間的關(guān)聯(lián)關(guān)系。

圖像 004.png

 ?。?)生成局部頻繁集

  使用典型的Apriori算法對每個(gè)流程日志文件進(jìn)行關(guān)聯(lián)分析,分別得到局部的頻繁項(xiàng)目集。

 ?。?)使用并行的Apriori算法計(jì)算關(guān)聯(lián)規(guī)則

  首先將所有局部頻繁項(xiàng)集進(jìn)行合并,組合成全局候選的頻繁項(xiàng)集合。然后刪去其中不滿足最小支持度的集合,得到全局的頻繁項(xiàng)目集合。獲得所有頻繁集的非空子集并計(jì)算子集的置信度,得到關(guān)聯(lián)規(guī)則集。最后,選擇與業(yè)務(wù)需求相關(guān)的關(guān)聯(lián)規(guī)則,即(員工組合)=>(服務(wù)等級(jí))形式的規(guī)則。

3實(shí)驗(yàn)

  為了驗(yàn)證使用并行Apriori關(guān)聯(lián)規(guī)則挖掘員工組合與服務(wù)處理效率之間關(guān)聯(lián)關(guān)系的效果,這里選擇了銀行服務(wù)管理系統(tǒng)在一個(gè)月內(nèi)產(chǎn)生的流程日志文件進(jìn)行實(shí)驗(yàn)。由于不同類別的服務(wù)請求處理的流程和所涉及的處理員工差異較大,因此僅提取包含處理客戶申請無抵押貸款的服務(wù)請求的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析。剔除未完成的服務(wù)處理請求記錄,滿足條件的數(shù)據(jù)集大約有15萬條記錄,其中根據(jù)默認(rèn)的服務(wù)等級(jí)劃分后的數(shù)據(jù)分布如表5所示。

圖像 005.png

  服務(wù)等級(jí)(Class=A)的記錄由于所占比例太小,在尋找頻繁項(xiàng)集的過程中,會(huì)因?yàn)椴环献钚≈С侄乳撝刀贿^濾。而如果設(shè)定較小的最小支持度閾值,則會(huì)帶來性能的問題,并挖掘出大量的無用規(guī)則。因此排除服務(wù)等級(jí)為D和E的記錄,并根據(jù)選取的最小支持度對服務(wù)等級(jí)重新劃分。

  在完成對數(shù)據(jù)的預(yù)處理后,使用分布式處理的每一個(gè)處理節(jié)點(diǎn)都加載包含了對常見的關(guān)聯(lián)規(guī)則算法實(shí)現(xiàn)的R擴(kuò)展包arules后,調(diào)用rules包中的apriori函數(shù)對處理后的數(shù)據(jù)做關(guān)聯(lián)分析。指定合適的最小支持度和最小置信度后,獲得滿足條件的關(guān)聯(lián)規(guī)則的部分結(jié)果輸出如下:

  1{E1=John,E2=Lisa,E3=Jenny,E4=Raju}=>{Class=D} 0.154545450.7500000 5.892857

  2 {E1=John, E2=Lisa, E3=Jenny, E4=Rajesh} => {Class=C} 0.16363636 0.4285714 2.619048

  3 {E1=John, E2=Lisa, E3=Jenny, E4=Rajesh} => {Class=B} 0.172727270.4285714 2.964286

  4 {E1=John, E2=Lisa,E3=Jenny,E4=Sophia}=>{Class=A} 0.154545450.7500000 2.291667

  5 {E1=David, E2=Ken, E3=Bruce,E4=Sophia}=>{Class=A} 0.145454550.8888889 2.716049

  ... ...

  上述結(jié)果所對應(yīng)的包含服務(wù)等級(jí)A的規(guī)則如下:

  1.{E1=John,E2=Lisa,E3=Jenny,E4=Sophia} => {Class=A} conf:(0.7500000)

  2.{E1=David,E2=Ken,E3=Bruce,E4=Sophia} => {Class=A} conf:(0.8888889)

  ... ...

  如果僅僅使用Apriori關(guān)聯(lián)算法,在計(jì)算支持度時(shí)需要多次掃描數(shù)據(jù)庫,而Eclat算法對候選n項(xiàng)集進(jìn)行支持度計(jì)算時(shí)不需再次掃描數(shù)據(jù)庫。因此通過應(yīng)用Eclat關(guān)聯(lián)規(guī)則算法對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,通過對比挖掘出的結(jié)果驗(yàn)證規(guī)則的有效性,并比較它們在性能上的差異。

  在加載包含了對常見的關(guān)聯(lián)規(guī)則算法實(shí)現(xiàn)的R擴(kuò)展包arules后,調(diào)用rules包中的eclat函數(shù)對處理后的相同數(shù)據(jù)做關(guān)聯(lián)分析。指定相同的最小支持度和最小置信度后,獲得滿足條件的關(guān)聯(lián)規(guī)則集合。

  基于本實(shí)驗(yàn)的數(shù)據(jù)集,且在相同實(shí)驗(yàn)的環(huán)境下,加載R擴(kuò)展包arules后,通過分別調(diào)用apriori函數(shù)和eclat函數(shù)以實(shí)現(xiàn)Apriori關(guān)聯(lián)規(guī)則挖掘和Eclat關(guān)聯(lián)規(guī)則挖掘,然后獲取兩者所消耗的時(shí)間并進(jìn)行比較。結(jié)果表明,兩者在性能上差異很小。其中,采用Eclat算法進(jìn)行挖掘比采用非并行Apriori算法進(jìn)行挖掘快2 min得出結(jié)果,并行Apriori算法的時(shí)間明顯減少,其中并行算法使用3臺(tái)Dell R530/2.83 Hz/8 GB服務(wù)器,其他使用單臺(tái)服務(wù)器配置。修正最小支持度閾值,得到表6所示的實(shí)驗(yàn)結(jié)果。

圖像 006.png

  因此基于目前銀行服務(wù)管理系統(tǒng)產(chǎn)生的流程數(shù)據(jù),采用并行Apriori關(guān)聯(lián)規(guī)則算法進(jìn)行挖掘,取得了比較理想的效果。

4結(jié)論

  協(xié)作的緊密程度影響著服務(wù)處理的效率,分配協(xié)作緊密度高的員工在一起合作可以提高服務(wù)的效率。哪些員工在一起合作具有緊密的協(xié)作關(guān)系,能提供高效的服務(wù),蘊(yùn)藏在流程日志數(shù)據(jù)中。本文分析了如何有效地應(yīng)用并行Apriori算法從流程日志中挖掘出服務(wù)處理員工序列與服務(wù)效率之間的關(guān)系。將挖掘出的關(guān)系映射成對服務(wù)分配的規(guī)則,使得系統(tǒng)根據(jù)規(guī)則將協(xié)作關(guān)系緊密的員工分配在一起共同處理服務(wù)請求,提高了服務(wù)效率,取得了合理的應(yīng)用效果,實(shí)現(xiàn)了銀行服務(wù)管理系統(tǒng)中服務(wù)分配的智能化。如何應(yīng)用數(shù)據(jù)挖掘技術(shù)更深層次地去挖掘蘊(yùn)含在流程日志中的有用模式或知識(shí),是需要進(jìn)一步思考的問題。

  參考文獻(xiàn)

  [1] LNMON W H.數(shù)據(jù)倉庫(第3版)[M].王志海,譯.北京:機(jī)械工業(yè)出版社,2005.

  [2] LAROSE D T. Discovering knowledge in data: an introduction to data mining[M].New Jersey: WileyInterscience,2005.

 ?。?] 趙衛(wèi)東.智能化的流程管理[M].上海:復(fù)旦大學(xué)出版社,2014.

  [4] van der AALST W M P, WEIJTERS T, MATUSTER L.Workflow mining:discovering process models from event logs[J] .IEEE Transactions on Knowledge and Data Engineering, 2004,16(9):1128 1142.

 ?。?] BERSON A, SMITH S, THEARLING K. Building data mining applications for CRM[M]. New York: McGrawHill Companies, 2000.

 ?。?] ROMBEL A. CRM shifts to data mining to keep customers[J].Global Finance,2001,15(11):97 98.

  [7] WEISS G M. Data mining in telecommunications[A].The data mining and knowledge discovering handbook[M].Springer US,2005:1187 1201.

  [8] GROTH R.Data mining:building competitive advantage[M].Prentice Hall,1999.

 ?。?] 趙衛(wèi)東,劉海濤.流程挖掘在流程優(yōu)化中的應(yīng)用[J].計(jì)算機(jī)集成制造系統(tǒng),2014,20(10):2633 2641.

 ?。?0] PARVATHY A G,VASUDEVAN B G,KUMAR A,et al.Leveraging call center logs for customer behavior prediction[A]. ADAMS N M.Advances in Intelligent Data Analysis VIII8th International Symposium on Intelligent Data Analysis[C].Lyon: SpringerVerlag,2009,57772:143 154.

 ?。?1] WRITTEN I H, FRANK E.Data mining practical machine learning tools and techniques[M].Burlington:Morgan Kaufmann,2011.

 ?。?2] LIN S W, SHIUE Y R, CHEN S C,et al.Applying enhanced data mining approaches in predicting bank performance:A case of Taiwanese commercial banks [J].Expert Systems with Applications, 2009,36(9):11543 11551.

 ?。?3] AKHIL K,DIJKMAN R M,SONG M.Optimal resource assignment in workflows for maximizing cooperation[A].Business Process Management (Proceedings of the 11th International Conference on Business Process Management)[C] .Berlin Heidelberg: SpringerVerlag,2013:235 250.

  [14] Wu Xindong, KUMAR V.The top ten algorithms in data mining[M].USA:Chapman and Hall/CRC,2009.

 ?。?5] Han Jiawei.Data mining:concepts and techniques[M].Burlington:Morgan Kaufmann,2011.

  [16] YE Y, CHIANG C C. A parallel apriori algorithm for frequent itemsets mining[C]. Fourth International Conference on Software Engineering Research, Management and Applications, 2006, IEEE, 2006: 87 94.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。