《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 流程挖掘在銀行服務(wù)管理中的應(yīng)用
流程挖掘在銀行服務(wù)管理中的應(yīng)用
2016年微型機(jī)與應(yīng)用第18期
盧盛祺1,2,3,李遠(yuǎn)剛1,2,管連4,周赟3
1.上海財(cái)經(jīng)大學(xué) 信息管理與工程學(xué)院,上海 200433;2.上海財(cái)經(jīng)大學(xué) 上海市金融信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,上海 200433; 3.復(fù)旦大學(xué) 軟件學(xué)院,上海 200433;4.國(guó)際商業(yè)機(jī)器(中國(guó))有限公司,北京 100101
摘要: 隨著銀行服務(wù)信息化的不斷發(fā)展,銀行面臨如何從大量的服務(wù)數(shù)據(jù)中提取有價(jià)值的信息用以提升服務(wù)效率的問(wèn)題。在銀行服務(wù)管理系統(tǒng)的實(shí)際應(yīng)用中,由于其業(yè)務(wù)具有并發(fā)性事件多、日志數(shù)量大等特點(diǎn),選擇并行Apriori算法進(jìn)行分析。與傳統(tǒng)的Apriori算法相比,針對(duì)銀行業(yè)務(wù)中并發(fā)性業(yè)務(wù)較多的特點(diǎn),設(shè)計(jì)使用了并行Apriori算法,解決了單服務(wù)器運(yùn)行效率隨日志數(shù)量明顯下降的弊端。銀行服務(wù)管理系統(tǒng)每日會(huì)產(chǎn)生大量流程的日志數(shù)據(jù),記錄每一位參與員工的工作狀態(tài),通過(guò)調(diào)用并行Aporiori算法,挖掘服務(wù)流程日志中的關(guān)聯(lián)規(guī)則,找出能夠高效協(xié)作的員工組合。實(shí)驗(yàn)結(jié)果表明,將并行Apriori算法應(yīng)用于服務(wù)流程日志的關(guān)聯(lián)規(guī)則挖掘,使系統(tǒng)可以根據(jù)規(guī)則將協(xié)作關(guān)系緊密的員工分配在一起共同處理服務(wù)請(qǐng)求,提高了服務(wù)效率,取得了合理的應(yīng)用效果,提高了銀行服務(wù)管理系統(tǒng)中服務(wù)分配的智能。
Abstract:
Key words :

  盧盛祺1,2,3,李遠(yuǎn)剛1,2,管連4,周赟3

 ?。?.上海財(cái)經(jīng)大學(xué) 信息管理與工程學(xué)院,上海 200433;2.上海財(cái)經(jīng)大學(xué) 上海市金融信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,上海 200433;3.復(fù)旦大學(xué) 軟件學(xué)院,上海 200433;4.國(guó)際商業(yè)機(jī)器(中國(guó))有限公司,北京 100101)

       摘要:隨著銀行服務(wù)信息化的不斷發(fā)展,銀行面臨如何從大量的服務(wù)數(shù)據(jù)中提取有價(jià)值的信息用以提升服務(wù)效率的問(wèn)題。在銀行服務(wù)管理系統(tǒng)的實(shí)際應(yīng)用中,由于其業(yè)務(wù)具有并發(fā)性事件多、日志數(shù)量大等特點(diǎn),選擇并行Apriori算法進(jìn)行分析。與傳統(tǒng)的Apriori算法相比,針對(duì)銀行業(yè)務(wù)中并發(fā)性業(yè)務(wù)較多的特點(diǎn),設(shè)計(jì)使用了并行Apriori算法,解決了單服務(wù)器運(yùn)行效率隨日志數(shù)量明顯下降的弊端。銀行服務(wù)管理系統(tǒng)每日會(huì)產(chǎn)生大量流程的日志數(shù)據(jù),記錄每一位參與員工的工作狀態(tài),通過(guò)調(diào)用并行Aporiori算法,挖掘服務(wù)流程日志中的關(guān)聯(lián)規(guī)則,找出能夠高效協(xié)作的員工組合。實(shí)驗(yàn)結(jié)果表明,將并行Apriori算法應(yīng)用于服務(wù)流程日志的關(guān)聯(lián)規(guī)則挖掘,使系統(tǒng)可以根據(jù)規(guī)則將協(xié)作關(guān)系緊密的員工分配在一起共同處理服務(wù)請(qǐng)求,提高了服務(wù)效率,取得了合理的應(yīng)用效果,提高了銀行服務(wù)管理系統(tǒng)中服務(wù)分配的智能。

  關(guān)鍵詞:流程挖掘;關(guān)聯(lián)規(guī)則;員工組合;組織優(yōu)化;并行Apriori算法

0引言

  隨著銀行同業(yè)競(jìng)爭(zhēng)之間的壓力逐漸加劇,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于發(fā)現(xiàn)流程日志數(shù)據(jù)中的有用模式,解決銀行在新形勢(shì)下面臨的問(wèn)題,成為大數(shù)據(jù)時(shí)代下銀行信息化應(yīng)用的研究熱點(diǎn)[1 2]。作為銀行信息化核心系統(tǒng)之一的銀行服務(wù)管理系統(tǒng),需要針對(duì)來(lái)自于銀行各種業(yè)務(wù)渠道的客戶進(jìn)行一站式的管理服務(wù),并幫助銀行優(yōu)化客戶服務(wù)管理流程,提高服務(wù)效率?,F(xiàn)有的銀行服務(wù)管理系統(tǒng)主要提供諸如服務(wù)請(qǐng)求錄入、服務(wù)請(qǐng)求查詢等基本的業(yè)務(wù)操作功能,但系統(tǒng)的智能性普遍不高。此外,銀行服務(wù)管理系統(tǒng)在長(zhǎng)期的運(yùn)行過(guò)程中積累了大量的流程日志,包括事件以及事件執(zhí)行者等數(shù)據(jù)[3],這些流程日志所包含的數(shù)據(jù)反映了流程的執(zhí)行過(guò)程[4]。因此,數(shù)據(jù)挖掘技術(shù)的應(yīng)用為解決上述問(wèn)題提供了新的機(jī)遇[5 6]。通過(guò)對(duì)流程日志數(shù)據(jù)的分析和重現(xiàn)業(yè)務(wù)流程模型,可以發(fā)現(xiàn)影響銀行效率的瓶頸,并更好地利用現(xiàn)有資源提高服務(wù)質(zhì)量,推進(jìn)了銀行的業(yè)務(wù)設(shè)計(jì)和管理的改進(jìn)[7 8]。

  學(xué)術(shù)界和企業(yè)界已經(jīng)探討了如何應(yīng)用銀行流程日志的分析來(lái)提高銀行服務(wù)管理系統(tǒng)的智能[9]。例如,基于時(shí)間序列的數(shù)據(jù)挖掘可以預(yù)測(cè)銀行客戶未來(lái)的行為[10]。還有基于支持向量機(jī)和決策樹(shù)的改進(jìn)算法,對(duì)數(shù)據(jù)進(jìn)行分析并最終預(yù)測(cè)銀行的業(yè)務(wù)效率[1112]。但總體而言,目前的相關(guān)研究還主要集中在對(duì)銀行流程日志中所包含的客戶相關(guān)數(shù)據(jù)的分析,而對(duì)于銀行內(nèi)部運(yùn)營(yíng)效率提升方面的應(yīng)用研究還相對(duì)較少,特別是銀行員工作為服務(wù)流程的參與者,他們之間的合作關(guān)系也是影響銀行運(yùn)營(yíng)效率的主要因素[13]。

  本文重點(diǎn)討論了如何找到合作效率較高的員工組合,來(lái)提升銀行服務(wù)效率,其中針對(duì)銀行服務(wù)管理系統(tǒng)流程日志的大規(guī)模特點(diǎn),探討了如何有效地應(yīng)用并行Apriori算法分析銀行員工與服務(wù)效率之間的關(guān)系[14]。

1銀行服務(wù)管理流程日志預(yù)處理

  1.1流程日志的數(shù)據(jù)分析

  銀行服務(wù)管理系統(tǒng)通常會(huì)對(duì)服務(wù)請(qǐng)求處理的流程數(shù)據(jù)加以記錄,最常見(jiàn)的是以日志文件的形式進(jìn)行保存。而流程日志作為流程挖掘的輸入,記錄了流程執(zhí)行過(guò)程中的相關(guān)數(shù)據(jù)。

  在銀行服務(wù)管理系統(tǒng)產(chǎn)生的流程日志中,可以提取參與某次服務(wù)請(qǐng)求處理的所有員工、處理的時(shí)間等數(shù)據(jù)。其中,參與某次服務(wù)請(qǐng)求處理的所有員工可以看成是針對(duì)該次服務(wù)請(qǐng)求處理組成的臨時(shí)團(tuán)隊(duì),而所花費(fèi)的總處理時(shí)間反映了服務(wù)的效率。對(duì)流程日志數(shù)據(jù)進(jìn)行簡(jiǎn)單的觀察,即可發(fā)現(xiàn)針對(duì)相同類(lèi)型的服務(wù)請(qǐng)求,參與處理的員工組合不同,所花費(fèi)的總處理時(shí)間也是不同的。這很大程度上是因?yàn)閱T工之間的協(xié)作緊密程度影響著服務(wù)效率。通常協(xié)作關(guān)系好的員工在一起處理服務(wù)請(qǐng)求,具有更高的服務(wù)效率。這說(shuō)明完成服務(wù)處理的員工的組合與總處理時(shí)間之間存在一定的關(guān)聯(lián)關(guān)系。因此可以通過(guò)關(guān)聯(lián)分析找到與高服務(wù)效率相關(guān)聯(lián)的員工組合,回答“怎樣的員工組合是高效的”,也側(cè)面回答了“哪些員工在一起工作是協(xié)作緊密的”,從而提高了系統(tǒng)的智能性。在此基礎(chǔ)上,針對(duì)各類(lèi)服務(wù)請(qǐng)求,生成相應(yīng)的服務(wù)分配規(guī)則,將協(xié)作關(guān)系緊密、可以提供高服務(wù)效率的員工分配一起,從而提高服務(wù)效率,減少客戶的等待時(shí)間,提高客戶滿意度。

  流程日志文件本身往往不是為關(guān)聯(lián)分析所設(shè)計(jì)的,它包含了與分析主題無(wú)關(guān)的屬性,也存在與分析主題所需數(shù)據(jù)維度不一致的情況,因此數(shù)據(jù)預(yù)處理是整個(gè)流程日志挖掘過(guò)程的基礎(chǔ)以及保證規(guī)則有效性的前提,從大量的數(shù)據(jù)屬性中提取與挖掘過(guò)程有關(guān)的屬性從而降低了原始數(shù)據(jù)的維數(shù)。數(shù)據(jù)預(yù)處理主要包括以下幾方面。

 ?。?)忽略或者刪除與關(guān)聯(lián)分析無(wú)關(guān)的屬性。

 ?。?)對(duì)噪聲數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、缺失數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗處理[15]。由于系統(tǒng)的異常、人為的誤操作等情況都可能產(chǎn)生噪聲數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、缺失數(shù)據(jù),這些數(shù)據(jù)會(huì)影響分析的結(jié)果,因此在數(shù)據(jù)預(yù)處理過(guò)程中需要對(duì)這些數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,以提高數(shù)據(jù)挖掘算法的效率和準(zhǔn)確度。其中,對(duì)缺失數(shù)據(jù)的問(wèn)題,通常可以通過(guò)數(shù)據(jù)補(bǔ)齊和數(shù)據(jù)預(yù)測(cè)等方法處理。對(duì)于少量錯(cuò)誤數(shù)據(jù)的問(wèn)題,通常采取刪除錯(cuò)誤記錄的方式進(jìn)行處理。

  (3)對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換。這主要包括定義衍生列,并根據(jù)邏輯計(jì)算其值,對(duì)隱私信息進(jìn)行轉(zhuǎn)換等操作。

  1.2流程數(shù)據(jù)的預(yù)處理

  (1)數(shù)據(jù)清理

  針對(duì)在流程日志數(shù)據(jù)分析中發(fā)現(xiàn)的典型問(wèn)題,可以通過(guò)以下方法進(jìn)行處理:

 ?、籴槍?duì)錯(cuò)誤數(shù)據(jù)、缺失數(shù)據(jù)的問(wèn)題,通過(guò)定義規(guī)則來(lái)定位錯(cuò)誤數(shù)據(jù)和缺失的數(shù)據(jù),并將其刪除。例如“InQueueDateTime”、“OutQueueDateTime”分別表示服務(wù)請(qǐng)求進(jìn)入員工服務(wù)隊(duì)列池的開(kāi)始時(shí)間和結(jié)束時(shí)間,顯然“InQueueDateTime”晚于“OutQueueDateTime”的數(shù)據(jù)為異常數(shù)據(jù)。因此,可以定義規(guī)則:如果記錄中的“InQueueDateTime”晚于“OutQueueDateTime”,則刪除該條記錄。

 ?、卺槍?duì)需要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換的問(wèn)題,可以定義字段轉(zhuǎn)換規(guī)則和計(jì)算公式,并據(jù)此產(chǎn)生衍生字段。例如設(shè)定計(jì)算規(guī)則:“處理池停留時(shí)間(Duration)”可以由“服務(wù)請(qǐng)求進(jìn)入處理池的時(shí)間”到“服務(wù)請(qǐng)求離開(kāi)處理池的時(shí)間”的間隔計(jì)算得到。對(duì)各步的處理池停留時(shí)間求和,就可以得到衍生字段“總服務(wù)處理時(shí)間”。

  ③反映服務(wù)效率的服務(wù)處理時(shí)間一般是正態(tài)分布的,因此代表高服務(wù)效率的記錄往往很少。針對(duì)該問(wèn)題,可以僅截取代表高服務(wù)效率的記錄作為分析的數(shù)據(jù)集,然后設(shè)定合適的服務(wù)效率分級(jí)規(guī)則。

  (2)會(huì)話識(shí)別

  要識(shí)別每一條會(huì)話,一條完整的會(huì)話的界定比較復(fù)雜,以撥打電話為例,用戶會(huì)在不明確服務(wù)流程的情況下,撥打好幾次電話進(jìn)行嘗試,但其中只有服務(wù)成功的會(huì)話才是有效的,所以在識(shí)別會(huì)話的過(guò)程中有一些啟發(fā)式規(guī)則可以使用。

  ①在短時(shí)間內(nèi),一個(gè)用戶進(jìn)行多次的服務(wù)請(qǐng)求,都可以認(rèn)為是一個(gè)會(huì)話。

 ?、谝粋€(gè)用戶如果發(fā)起了不同的服務(wù)請(qǐng)求,需要被認(rèn)為是不同的會(huì)話。

 ?、叟c用戶確認(rèn)結(jié)束服務(wù)作為一個(gè)會(huì)話的結(jié)束,保證會(huì)話的有效性。

  在各類(lèi)企業(yè)信息系統(tǒng)所產(chǎn)生的日志文件中,XML是一種比較常見(jiàn)的形式。其中,每一個(gè)XML標(biāo)簽(tag)被稱為一個(gè)元素,對(duì)應(yīng)一個(gè)屬性。針對(duì)銀行服務(wù)管理系統(tǒng)產(chǎn)生的流程日志的文件形式,可以通過(guò)ETL工具對(duì)其進(jìn)行預(yù)處理,只采集與關(guān)聯(lián)分析有關(guān)的屬性。使用 ETL工具讀取流程日志文件和元數(shù)據(jù)配置文件,將流程數(shù)據(jù)加載到數(shù)據(jù)庫(kù)中。流程數(shù)據(jù)表包含的主要屬性有請(qǐng)求類(lèi)別(RequestType)、請(qǐng)求子類(lèi)的唯一標(biāo)識(shí)碼(RequestCode)、此次服務(wù)請(qǐng)求的唯一標(biāo)識(shí)(RequestCaseUniqID)、操作類(lèi)別(ActionType)、日志記錄類(lèi)別(LogRecordType)、系統(tǒng)用戶賬號(hào)(LogonID)、會(huì)話號(hào)(SessionID)、會(huì)話開(kāi)始時(shí)間(SessionStartDateTime)、會(huì)話結(jié)束時(shí)間(SessionEndDateTime)、進(jìn)入處理池時(shí)間(InQueueDateTime)、離開(kāi)處理池時(shí)間(OutQueueDateTime)和產(chǎn)品代碼(ProdectCode)等。

  1.3數(shù)值屬性離散化

  并行Apriori算法是一種用以挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的關(guān)聯(lián)規(guī)則分析算法,而服務(wù)請(qǐng)求的總時(shí)間是數(shù)值類(lèi)型的,因此需要對(duì)服務(wù)請(qǐng)求總時(shí)間進(jìn)行屬性離散化。

  以處理申請(qǐng)無(wú)抵押貸款的服務(wù)請(qǐng)求為例,用ProcessRequest_APPL-UPL代表處理客戶申請(qǐng)無(wú)抵押貸款的服務(wù)請(qǐng)求,且該請(qǐng)求在系統(tǒng)中需要通過(guò)4個(gè)步驟完成。其基本流程是個(gè)人貸款部門(mén)業(yè)務(wù)員完成對(duì)請(qǐng)求的相關(guān)信息錄入;客戶信息管理部門(mén)根據(jù)錄入的信息核對(duì)該客戶信息并在系統(tǒng)中給予核準(zhǔn)意見(jiàn);對(duì)于通過(guò)核準(zhǔn)步驟的請(qǐng)求,貸款部的額度組根據(jù)客戶收入和信息確定批準(zhǔn)的貸款金額;最后,個(gè)人貸款部門(mén)業(yè)務(wù)員發(fā)放貸款并在系統(tǒng)中更新該信息。用TCT代表完成此次服務(wù)請(qǐng)求的總耗時(shí)。包含上述員工的服務(wù)請(qǐng)求的部分流程分析數(shù)據(jù)如表1所示。

圖像 001.png

服務(wù)總時(shí)間數(shù)據(jù)離散的過(guò)程如下:

  (1)計(jì)算針對(duì)客戶申請(qǐng)無(wú)抵押貸款類(lèi)的服務(wù)請(qǐng)求(APPLUPL),所有員工序列的總平均處理時(shí)間(AverageConsumedTime,ACT),即ACT=sum(TCT)/ (records count)。

 ?。?)將各組員工序列的處理總時(shí)間(TotalConsumedTime,TCT)減去總平均處理時(shí)間(ACT)并與總平均處理時(shí)間求比值,用TCT%表示。

 ?。?)確定服務(wù)請(qǐng)求處理效率的分級(jí)規(guī)則。對(duì)服務(wù)請(qǐng)求的處理效率進(jìn)行分級(jí)時(shí),需要分析經(jīng)過(guò)步驟(2)計(jì)算后的TCT%的分布情況,并根據(jù)數(shù)據(jù)的分布情況確定最小置信度的區(qū)間。

  依據(jù)以下原則選取合適的服務(wù)請(qǐng)求處理效率分級(jí)規(guī)則。

 ?、俦WC分級(jí)后,包含期望出現(xiàn)在挖掘結(jié)果中的服務(wù)等級(jí)的記錄數(shù)與總記錄數(shù)的比值大于選取的最小置信度。例如,假設(shè)定義TCT% 小于-50%為Class A,代表具有高服務(wù)處理效率,期望挖掘出的關(guān)聯(lián)規(guī)則是員工組合與高服務(wù)效率(Class =A)之間的關(guān)聯(lián)關(guān)系。

 ?、诒WC分級(jí)后,挖掘出的結(jié)果是有意義的。如果將TCT% 小于-1%劃分為Class=A,則挖掘出的關(guān)聯(lián)規(guī)則包含Class=A的項(xiàng)集。因?yàn)楦鹘M員工的TCT%符合正態(tài)分布,假設(shè)現(xiàn)有的服務(wù)效率(ProductivityClass)分為5級(jí),數(shù)據(jù)分布以及在此基礎(chǔ)上設(shè)定的服務(wù)效率分級(jí)規(guī)則如表2所示。

圖像 002.png

 ?。?)根據(jù)步驟(3)確定的服務(wù)效率分級(jí)規(guī)則對(duì)(ACT)進(jìn)行離散化處理。假設(shè)根據(jù)表2的規(guī)則對(duì)數(shù)據(jù)進(jìn)行離散化處理,處理后的結(jié)果如表3所示。

  經(jīng)過(guò)上述步驟,數(shù)值型的總服務(wù)處理時(shí)間就轉(zhuǎn)換成了布爾型的服務(wù)效率等級(jí)。

2銀行服務(wù)管理日志挖掘

  針對(duì)大量的并發(fā)操作,銀行服務(wù)管理系統(tǒng)往往采用了并行的處理架構(gòu)以應(yīng)對(duì)數(shù)據(jù)增加帶來(lái)的性能瓶頸問(wèn)題。因此,系統(tǒng)產(chǎn)生的流程日志文件也分布在多個(gè)服務(wù)器上。如果將位于各個(gè)服務(wù)器上的流程日志文件采集集成到一個(gè)服務(wù)器上處理,則隨著數(shù)據(jù)量的不斷累積和增加,最終導(dǎo)致處理和挖掘效率的直線下降。與此同時(shí),Apriori挖掘算法在掃描儲(chǔ)存了大量數(shù)據(jù)的數(shù)據(jù)庫(kù)表時(shí)也會(huì)消耗大量的資源。

圖像 003.png

  基于上述問(wèn)題,本文充分利用銀行服務(wù)管理系統(tǒng)本身的并行架構(gòu),采用基于并行處理的Apriori算法[16]。假設(shè)表4是處理后的完整數(shù)據(jù)集合,若選擇0.4作為最低支持度閾值,則可應(yīng)用并行Apriori算法挖掘員工序列與服務(wù)效率之間的關(guān)聯(lián)關(guān)系。

圖像 004.png

 ?。?)生成局部頻繁集

  使用典型的Apriori算法對(duì)每個(gè)流程日志文件進(jìn)行關(guān)聯(lián)分析,分別得到局部的頻繁項(xiàng)目集。

  (2)使用并行的Apriori算法計(jì)算關(guān)聯(lián)規(guī)則

  首先將所有局部頻繁項(xiàng)集進(jìn)行合并,組合成全局候選的頻繁項(xiàng)集合。然后刪去其中不滿足最小支持度的集合,得到全局的頻繁項(xiàng)目集合。獲得所有頻繁集的非空子集并計(jì)算子集的置信度,得到關(guān)聯(lián)規(guī)則集。最后,選擇與業(yè)務(wù)需求相關(guān)的關(guān)聯(lián)規(guī)則,即(員工組合)=>(服務(wù)等級(jí))形式的規(guī)則。

3實(shí)驗(yàn)

  為了驗(yàn)證使用并行Apriori關(guān)聯(lián)規(guī)則挖掘員工組合與服務(wù)處理效率之間關(guān)聯(lián)關(guān)系的效果,這里選擇了銀行服務(wù)管理系統(tǒng)在一個(gè)月內(nèi)產(chǎn)生的流程日志文件進(jìn)行實(shí)驗(yàn)。由于不同類(lèi)別的服務(wù)請(qǐng)求處理的流程和所涉及的處理員工差異較大,因此僅提取包含處理客戶申請(qǐng)無(wú)抵押貸款的服務(wù)請(qǐng)求的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析。剔除未完成的服務(wù)處理請(qǐng)求記錄,滿足條件的數(shù)據(jù)集大約有15萬(wàn)條記錄,其中根據(jù)默認(rèn)的服務(wù)等級(jí)劃分后的數(shù)據(jù)分布如表5所示。

圖像 005.png

  服務(wù)等級(jí)(Class=A)的記錄由于所占比例太小,在尋找頻繁項(xiàng)集的過(guò)程中,會(huì)因?yàn)椴环献钚≈С侄乳撝刀贿^(guò)濾。而如果設(shè)定較小的最小支持度閾值,則會(huì)帶來(lái)性能的問(wèn)題,并挖掘出大量的無(wú)用規(guī)則。因此排除服務(wù)等級(jí)為D和E的記錄,并根據(jù)選取的最小支持度對(duì)服務(wù)等級(jí)重新劃分。

  在完成對(duì)數(shù)據(jù)的預(yù)處理后,使用分布式處理的每一個(gè)處理節(jié)點(diǎn)都加載包含了對(duì)常見(jiàn)的關(guān)聯(lián)規(guī)則算法實(shí)現(xiàn)的R擴(kuò)展包arules后,調(diào)用rules包中的apriori函數(shù)對(duì)處理后的數(shù)據(jù)做關(guān)聯(lián)分析。指定合適的最小支持度和最小置信度后,獲得滿足條件的關(guān)聯(lián)規(guī)則的部分結(jié)果輸出如下:

  1{E1=John,E2=Lisa,E3=Jenny,E4=Raju}=>{Class=D} 0.154545450.7500000 5.892857

  2 {E1=John, E2=Lisa, E3=Jenny, E4=Rajesh} => {Class=C} 0.16363636 0.4285714 2.619048

  3 {E1=John, E2=Lisa, E3=Jenny, E4=Rajesh} => {Class=B} 0.172727270.4285714 2.964286

  4 {E1=John, E2=Lisa,E3=Jenny,E4=Sophia}=>{Class=A} 0.154545450.7500000 2.291667

  5 {E1=David, E2=Ken, E3=Bruce,E4=Sophia}=>{Class=A} 0.145454550.8888889 2.716049

  ... ...

  上述結(jié)果所對(duì)應(yīng)的包含服務(wù)等級(jí)A的規(guī)則如下:

  1.{E1=John,E2=Lisa,E3=Jenny,E4=Sophia} => {Class=A} conf:(0.7500000)

  2.{E1=David,E2=Ken,E3=Bruce,E4=Sophia} => {Class=A} conf:(0.8888889)

  ... ...

  如果僅僅使用Apriori關(guān)聯(lián)算法,在計(jì)算支持度時(shí)需要多次掃描數(shù)據(jù)庫(kù),而Eclat算法對(duì)候選n項(xiàng)集進(jìn)行支持度計(jì)算時(shí)不需再次掃描數(shù)據(jù)庫(kù)。因此通過(guò)應(yīng)用Eclat關(guān)聯(lián)規(guī)則算法對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,通過(guò)對(duì)比挖掘出的結(jié)果驗(yàn)證規(guī)則的有效性,并比較它們?cè)谛阅苌系牟町悺?/p>

  在加載包含了對(duì)常見(jiàn)的關(guān)聯(lián)規(guī)則算法實(shí)現(xiàn)的R擴(kuò)展包arules后,調(diào)用rules包中的eclat函數(shù)對(duì)處理后的相同數(shù)據(jù)做關(guān)聯(lián)分析。指定相同的最小支持度和最小置信度后,獲得滿足條件的關(guān)聯(lián)規(guī)則集合。

  基于本實(shí)驗(yàn)的數(shù)據(jù)集,且在相同實(shí)驗(yàn)的環(huán)境下,加載R擴(kuò)展包arules后,通過(guò)分別調(diào)用apriori函數(shù)和eclat函數(shù)以實(shí)現(xiàn)Apriori關(guān)聯(lián)規(guī)則挖掘和Eclat關(guān)聯(lián)規(guī)則挖掘,然后獲取兩者所消耗的時(shí)間并進(jìn)行比較。結(jié)果表明,兩者在性能上差異很小。其中,采用Eclat算法進(jìn)行挖掘比采用非并行Apriori算法進(jìn)行挖掘快2 min得出結(jié)果,并行Apriori算法的時(shí)間明顯減少,其中并行算法使用3臺(tái)Dell R530/2.83 Hz/8 GB服務(wù)器,其他使用單臺(tái)服務(wù)器配置。修正最小支持度閾值,得到表6所示的實(shí)驗(yàn)結(jié)果。

圖像 006.png

  因此基于目前銀行服務(wù)管理系統(tǒng)產(chǎn)生的流程數(shù)據(jù),采用并行Apriori關(guān)聯(lián)規(guī)則算法進(jìn)行挖掘,取得了比較理想的效果。

4結(jié)論

  協(xié)作的緊密程度影響著服務(wù)處理的效率,分配協(xié)作緊密度高的員工在一起合作可以提高服務(wù)的效率。哪些員工在一起合作具有緊密的協(xié)作關(guān)系,能提供高效的服務(wù),蘊(yùn)藏在流程日志數(shù)據(jù)中。本文分析了如何有效地應(yīng)用并行Apriori算法從流程日志中挖掘出服務(wù)處理員工序列與服務(wù)效率之間的關(guān)系。將挖掘出的關(guān)系映射成對(duì)服務(wù)分配的規(guī)則,使得系統(tǒng)根據(jù)規(guī)則將協(xié)作關(guān)系緊密的員工分配在一起共同處理服務(wù)請(qǐng)求,提高了服務(wù)效率,取得了合理的應(yīng)用效果,實(shí)現(xiàn)了銀行服務(wù)管理系統(tǒng)中服務(wù)分配的智能化。如何應(yīng)用數(shù)據(jù)挖掘技術(shù)更深層次地去挖掘蘊(yùn)含在流程日志中的有用模式或知識(shí),是需要進(jìn)一步思考的問(wèn)題。

  參考文獻(xiàn)

 ?。?] LNMON W H.數(shù)據(jù)倉(cāng)庫(kù)(第3版)[M].王志海,譯.北京:機(jī)械工業(yè)出版社,2005.

 ?。?] LAROSE D T. Discovering knowledge in data: an introduction to data mining[M].New Jersey: WileyInterscience,2005.

  [3] 趙衛(wèi)東.智能化的流程管理[M].上海:復(fù)旦大學(xué)出版社,2014.

  [4] van der AALST W M P, WEIJTERS T, MATUSTER L.Workflow mining:discovering process models from event logs[J] .IEEE Transactions on Knowledge and Data Engineering, 2004,16(9):1128 1142.

 ?。?] BERSON A, SMITH S, THEARLING K. Building data mining applications for CRM[M]. New York: McGrawHill Companies, 2000.

 ?。?] ROMBEL A. CRM shifts to data mining to keep customers[J].Global Finance,2001,15(11):97 98.

 ?。?] WEISS G M. Data mining in telecommunications[A].The data mining and knowledge discovering handbook[M].Springer US,2005:1187 1201.

 ?。?] GROTH R.Data mining:building competitive advantage[M].Prentice Hall,1999.

 ?。?] 趙衛(wèi)東,劉海濤.流程挖掘在流程優(yōu)化中的應(yīng)用[J].計(jì)算機(jī)集成制造系統(tǒng),2014,20(10):2633 2641.

 ?。?0] PARVATHY A G,VASUDEVAN B G,KUMAR A,et al.Leveraging call center logs for customer behavior prediction[A]. ADAMS N M.Advances in Intelligent Data Analysis VIII8th International Symposium on Intelligent Data Analysis[C].Lyon: SpringerVerlag,2009,57772:143 154.

 ?。?1] WRITTEN I H, FRANK E.Data mining practical machine learning tools and techniques[M].Burlington:Morgan Kaufmann,2011.

 ?。?2] LIN S W, SHIUE Y R, CHEN S C,et al.Applying enhanced data mining approaches in predicting bank performance:A case of Taiwanese commercial banks [J].Expert Systems with Applications, 2009,36(9):11543 11551.

 ?。?3] AKHIL K,DIJKMAN R M,SONG M.Optimal resource assignment in workflows for maximizing cooperation[A].Business Process Management (Proceedings of the 11th International Conference on Business Process Management)[C] .Berlin Heidelberg: SpringerVerlag,2013:235 250.

 ?。?4] Wu Xindong, KUMAR V.The top ten algorithms in data mining[M].USA:Chapman and Hall/CRC,2009.

 ?。?5] Han Jiawei.Data mining:concepts and techniques[M].Burlington:Morgan Kaufmann,2011.

 ?。?6] YE Y, CHIANG C C. A parallel apriori algorithm for frequent itemsets mining[C]. Fourth International Conference on Software Engineering Research, Management and Applications, 2006, IEEE, 2006: 87 94.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。