123,123,123

流程挖掘在银行服务管理中的应用

2016年微型机与应用第18期

卢盛祺1,2,3，李远刚1,2，管连4,周赟3

1.上海财经大学信息管理与工程学院，上海 200433；2.上海财经大学上海市金融信息技术重点实验室，上海 200433； 3.复旦大学软件学院，上海 200433；4.国际商业机器（中国）有限公司，北京 100101

摘要： 随着银行服务信息化的不断发展，银行面临如何从大量的服务数据中提取有价值的信息用以提升服务效率的问题。在银行服务管理系统的实际应用中，由于其业务具有并发性事件多、日志数量大等特点，选择并行Apriori算法进行分析。与传统的Apriori算法相比，针对银行业务中并发性业务较多的特点，设计使用了并行Apriori算法，解决了单服务器运行效率随日志数量明显下降的弊端。银行服务管理系统每日会产生大量流程的日志数据，记录每一位参与员工的工作状态，通过调用并行Aporiori算法，挖掘服务流程日志中的关联规则，找出能够高效协作的员工组合。实验结果表明，将并行Apriori算法应用于服务流程日志的关联规则挖掘，使系统可以根据规则将协作关系紧密的员工分配在一起共同处理服务请求，提高了服务效率，取得了合理的应用效果，提高了银行服务管理系统中服务分配的智能。

關鍵詞： 流程挖掘关联规则员工组合组织优化

Abstract：

Key words :

　　盧盛祺1,2,3，李遠剛1,2，管連4,周赟3

　?。?.上海財經(jīng)大學信息管理與工程學院，上海 200433；2.上海財經(jīng)大學上海市金融信息技術重點實驗室，上海 200433；3.復旦大學軟件學院，上海 200433；4.國際商業(yè)機器（中國）有限公司，北京 100101）

摘要：隨著銀行服務信息化的不斷發(fā)展，銀行面臨如何從大量的服務數(shù)據(jù)中提取有價值的信息用以提升服務效率的問題。在銀行服務管理系統(tǒng)的實際應用中，由于其業(yè)務具有并發(fā)性事件多、日志數(shù)量大等特點，選擇并行Apriori算法進行分析。與傳統(tǒng)的Apriori算法相比，針對銀行業(yè)務中并發(fā)性業(yè)務較多的特點，設計使用了并行Apriori算法，解決了單服務器運行效率隨日志數(shù)量明顯下降的弊端。銀行服務管理系統(tǒng)每日會產(chǎn)生大量流程的日志數(shù)據(jù)，記錄每一位參與員工的工作狀態(tài)，通過調用并行Aporiori算法，挖掘服務流程日志中的關聯(lián)規(guī)則，找出能夠高效協(xié)作的員工組合。實驗結果表明，將并行Apriori算法應用于服務流程日志的關聯(lián)規(guī)則挖掘，使系統(tǒng)可以根據(jù)規(guī)則將協(xié)作關系緊密的員工分配在一起共同處理服務請求，提高了服務效率，取得了合理的應用效果，提高了銀行服務管理系統(tǒng)中服務分配的智能。

　　關鍵詞：流程挖掘；關聯(lián)規(guī)則；員工組合；組織優(yōu)化；并行Apriori算法

0引言

　　隨著銀行同業(yè)競爭之間的壓力逐漸加劇，將數(shù)據(jù)挖掘技術應用于發(fā)現(xiàn)流程日志數(shù)據(jù)中的有用模式，解決銀行在新形勢下面臨的問題，成為大數(shù)據(jù)時代下銀行信息化應用的研究熱點［1 2］。作為銀行信息化核心系統(tǒng)之一的銀行服務管理系統(tǒng)，需要針對來自于銀行各種業(yè)務渠道的客戶進行一站式的管理服務，并幫助銀行優(yōu)化客戶服務管理流程，提高服務效率?，F(xiàn)有的銀行服務管理系統(tǒng)主要提供諸如服務請求錄入、服務請求查詢等基本的業(yè)務操作功能，但系統(tǒng)的智能性普遍不高。此外，銀行服務管理系統(tǒng)在長期的運行過程中積累了大量的流程日志，包括事件以及事件執(zhí)行者等數(shù)據(jù)［3］，這些流程日志所包含的數(shù)據(jù)反映了流程的執(zhí)行過程［4］。因此，數(shù)據(jù)挖掘技術的應用為解決上述問題提供了新的機遇［5 6］。通過對流程日志數(shù)據(jù)的分析和重現(xiàn)業(yè)務流程模型，可以發(fā)現(xiàn)影響銀行效率的瓶頸，并更好地利用現(xiàn)有資源提高服務質量，推進了銀行的業(yè)務設計和管理的改進［7 8］。

　　學術界和企業(yè)界已經(jīng)探討了如何應用銀行流程日志的分析來提高銀行服務管理系統(tǒng)的智能［9］。例如，基于時間序列的數(shù)據(jù)挖掘可以預測銀行客戶未來的行為［10］。還有基于支持向量機和決策樹的改進算法，對數(shù)據(jù)進行分析并最終預測銀行的業(yè)務效率［1112］。但總體而言，目前的相關研究還主要集中在對銀行流程日志中所包含的客戶相關數(shù)據(jù)的分析，而對于銀行內部運營效率提升方面的應用研究還相對較少，特別是銀行員工作為服務流程的參與者，他們之間的合作關系也是影響銀行運營效率的主要因素［13］。

　　本文重點討論了如何找到合作效率較高的員工組合，來提升銀行服務效率，其中針對銀行服務管理系統(tǒng)流程日志的大規(guī)模特點，探討了如何有效地應用并行Apriori算法分析銀行員工與服務效率之間的關系［14］。

1銀行服務管理流程日志預處理

　　1.1流程日志的數(shù)據(jù)分析

　　銀行服務管理系統(tǒng)通常會對服務請求處理的流程數(shù)據(jù)加以記錄，最常見的是以日志文件的形式進行保存。而流程日志作為流程挖掘的輸入，記錄了流程執(zhí)行過程中的相關數(shù)據(jù)。

　　在銀行服務管理系統(tǒng)產(chǎn)生的流程日志中，可以提取參與某次服務請求處理的所有員工、處理的時間等數(shù)據(jù)。其中，參與某次服務請求處理的所有員工可以看成是針對該次服務請求處理組成的臨時團隊，而所花費的總處理時間反映了服務的效率。對流程日志數(shù)據(jù)進行簡單的觀察，即可發(fā)現(xiàn)針對相同類型的服務請求，參與處理的員工組合不同，所花費的總處理時間也是不同的。這很大程度上是因為員工之間的協(xié)作緊密程度影響著服務效率。通常協(xié)作關系好的員工在一起處理服務請求，具有更高的服務效率。這說明完成服務處理的員工的組合與總處理時間之間存在一定的關聯(lián)關系。因此可以通過關聯(lián)分析找到與高服務效率相關聯(lián)的員工組合，回答“怎樣的員工組合是高效的”，也側面回答了“哪些員工在一起工作是協(xié)作緊密的”，從而提高了系統(tǒng)的智能性。在此基礎上，針對各類服務請求，生成相應的服務分配規(guī)則，將協(xié)作關系緊密、可以提供高服務效率的員工分配一起，從而提高服務效率，減少客戶的等待時間，提高客戶滿意度。

　　流程日志文件本身往往不是為關聯(lián)分析所設計的，它包含了與分析主題無關的屬性，也存在與分析主題所需數(shù)據(jù)維度不一致的情況，因此數(shù)據(jù)預處理是整個流程日志挖掘過程的基礎以及保證規(guī)則有效性的前提，從大量的數(shù)據(jù)屬性中提取與挖掘過程有關的屬性從而降低了原始數(shù)據(jù)的維數(shù)。數(shù)據(jù)預處理主要包括以下幾方面。

　?。?）忽略或者刪除與關聯(lián)分析無關的屬性。

　　（2）對噪聲數(shù)據(jù)、錯誤數(shù)據(jù)、缺失數(shù)據(jù)進行數(shù)據(jù)清洗處理［15］。由于系統(tǒng)的異常、人為的誤操作等情況都可能產(chǎn)生噪聲數(shù)據(jù)、錯誤數(shù)據(jù)、缺失數(shù)據(jù)，這些數(shù)據(jù)會影響分析的結果，因此在數(shù)據(jù)預處理過程中需要對這些數(shù)據(jù)進行數(shù)據(jù)清洗，以提高數(shù)據(jù)挖掘算法的效率和準確度。其中，對缺失數(shù)據(jù)的問題，通常可以通過數(shù)據(jù)補齊和數(shù)據(jù)預測等方法處理。對于少量錯誤數(shù)據(jù)的問題，通常采取刪除錯誤記錄的方式進行處理。

　?。?）對數(shù)據(jù)進行轉換。這主要包括定義衍生列，并根據(jù)邏輯計算其值，對隱私信息進行轉換等操作。

　　1.2流程數(shù)據(jù)的預處理

　　(1)數(shù)據(jù)清理

　　針對在流程日志數(shù)據(jù)分析中發(fā)現(xiàn)的典型問題，可以通過以下方法進行處理：

　　①針對錯誤數(shù)據(jù)、缺失數(shù)據(jù)的問題，通過定義規(guī)則來定位錯誤數(shù)據(jù)和缺失的數(shù)據(jù)，并將其刪除。例如“InQueueDateTime”、“OutQueueDateTime”分別表示服務請求進入員工服務隊列池的開始時間和結束時間，顯然“InQueueDateTime”晚于“OutQueueDateTime”的數(shù)據(jù)為異常數(shù)據(jù)。因此，可以定義規(guī)則：如果記錄中的“InQueueDateTime”晚于“OutQueueDateTime”，則刪除該條記錄。

　?、卺槍π枰獙?shù)據(jù)進行轉換的問題，可以定義字段轉換規(guī)則和計算公式，并據(jù)此產(chǎn)生衍生字段。例如設定計算規(guī)則：“處理池停留時間（Duration）”可以由“服務請求進入處理池的時間”到“服務請求離開處理池的時間”的間隔計算得到。對各步的處理池停留時間求和，就可以得到衍生字段“總服務處理時間”。

　　③反映服務效率的服務處理時間一般是正態(tài)分布的，因此代表高服務效率的記錄往往很少。針對該問題，可以僅截取代表高服務效率的記錄作為分析的數(shù)據(jù)集，然后設定合適的服務效率分級規(guī)則。

　　(2)會話識別

　　要識別每一條會話，一條完整的會話的界定比較復雜，以撥打電話為例，用戶會在不明確服務流程的情況下，撥打好幾次電話進行嘗試，但其中只有服務成功的會話才是有效的，所以在識別會話的過程中有一些啟發(fā)式規(guī)則可以使用。

　?、僭诙虝r間內，一個用戶進行多次的服務請求，都可以認為是一個會話。

　?、谝粋€用戶如果發(fā)起了不同的服務請求，需要被認為是不同的會話。

　　③與用戶確認結束服務作為一個會話的結束，保證會話的有效性。

　　在各類企業(yè)信息系統(tǒng)所產(chǎn)生的日志文件中，XML是一種比較常見的形式。其中，每一個XML標簽(tag)被稱為一個元素，對應一個屬性。針對銀行服務管理系統(tǒng)產(chǎn)生的流程日志的文件形式，可以通過ETL工具對其進行預處理，只采集與關聯(lián)分析有關的屬性。使用 ETL工具讀取流程日志文件和元數(shù)據(jù)配置文件，將流程數(shù)據(jù)加載到數(shù)據(jù)庫中。流程數(shù)據(jù)表包含的主要屬性有請求類別(RequestType)、請求子類的唯一標識碼(RequestCode)、此次服務請求的唯一標識(RequestCaseUniqID)、操作類別(ActionType)、日志記錄類別(LogRecordType)、系統(tǒng)用戶賬號(LogonID)、會話號(SessionID)、會話開始時間(SessionStartDateTime)、會話結束時間(SessionEndDateTime)、進入處理池時間(InQueueDateTime)、離開處理池時間(OutQueueDateTime）和產(chǎn)品代碼(ProdectCode)等。

　　1.3數(shù)值屬性離散化

　　并行Apriori算法是一種用以挖掘布爾關聯(lián)規(guī)則頻繁項集的關聯(lián)規(guī)則分析算法，而服務請求的總時間是數(shù)值類型的，因此需要對服務請求總時間進行屬性離散化。

　　以處理申請無抵押貸款的服務請求為例，用ProcessRequest_APPL-UPL代表處理客戶申請無抵押貸款的服務請求，且該請求在系統(tǒng)中需要通過4個步驟完成。其基本流程是個人貸款部門業(yè)務員完成對請求的相關信息錄入；客戶信息管理部門根據(jù)錄入的信息核對該客戶信息并在系統(tǒng)中給予核準意見；對于通過核準步驟的請求，貸款部的額度組根據(jù)客戶收入和信息確定批準的貸款金額；最后，個人貸款部門業(yè)務員發(fā)放貸款并在系統(tǒng)中更新該信息。用TCT代表完成此次服務請求的總耗時。包含上述員工的服務請求的部分流程分析數(shù)據(jù)如表1所示。

圖像 001.png

服務總時間數(shù)據(jù)離散的過程如下：

　?。?）計算針對客戶申請無抵押貸款類的服務請求（APPLUPL），所有員工序列的總平均處理時間（AverageConsumedTime，ACT），即ACT=sum（TCT）/ (records count)。

　　（2）將各組員工序列的處理總時間（TotalConsumedTime，TCT）減去總平均處理時間（ACT）并與總平均處理時間求比值，用TCT%表示。

　?。?）確定服務請求處理效率的分級規(guī)則。對服務請求的處理效率進行分級時，需要分析經(jīng)過步驟（2）計算后的TCT%的分布情況，并根據(jù)數(shù)據(jù)的分布情況確定最小置信度的區(qū)間。

　　依據(jù)以下原則選取合適的服務請求處理效率分級規(guī)則。

　?、俦ＷC分級后，包含期望出現(xiàn)在挖掘結果中的服務等級的記錄數(shù)與總記錄數(shù)的比值大于選取的最小置信度。例如，假設定義TCT% 小于-50%為Class A，代表具有高服務處理效率，期望挖掘出的關聯(lián)規(guī)則是員工組合與高服務效率（Class =A）之間的關聯(lián)關系。

　?、诒ＷC分級后，挖掘出的結果是有意義的。如果將TCT% 小于-1%劃分為Class=A，則挖掘出的關聯(lián)規(guī)則包含Class=A的項集。因為各組員工的TCT%符合正態(tài)分布，假設現(xiàn)有的服務效率(ProductivityClass)分為5級，數(shù)據(jù)分布以及在此基礎上設定的服務效率分級規(guī)則如表2所示。

圖像 002.png

　　（4）根據(jù)步驟（3）確定的服務效率分級規(guī)則對（ACT）進行離散化處理。假設根據(jù)表2的規(guī)則對數(shù)據(jù)進行離散化處理，處理后的結果如表3所示。

　　經(jīng)過上述步驟，數(shù)值型的總服務處理時間就轉換成了布爾型的服務效率等級。

2銀行服務管理日志挖掘

　　針對大量的并發(fā)操作，銀行服務管理系統(tǒng)往往采用了并行的處理架構以應對數(shù)據(jù)增加帶來的性能瓶頸問題。因此，系統(tǒng)產(chǎn)生的流程日志文件也分布在多個服務器上。如果將位于各個服務器上的流程日志文件采集集成到一個服務器上處理，則隨著數(shù)據(jù)量的不斷累積和增加，最終導致處理和挖掘效率的直線下降。與此同時，Apriori挖掘算法在掃描儲存了大量數(shù)據(jù)的數(shù)據(jù)庫表時也會消耗大量的資源。

圖像 003.png

　　基于上述問題，本文充分利用銀行服務管理系統(tǒng)本身的并行架構，采用基于并行處理的Apriori算法［16］。假設表4是處理后的完整數(shù)據(jù)集合，若選擇0.4作為最低支持度閾值，則可應用并行Apriori算法挖掘員工序列與服務效率之間的關聯(lián)關系。

圖像 004.png

　?。?）生成局部頻繁集

　　使用典型的Apriori算法對每個流程日志文件進行關聯(lián)分析，分別得到局部的頻繁項目集。

　　（2）使用并行的Apriori算法計算關聯(lián)規(guī)則

　　首先將所有局部頻繁項集進行合并，組合成全局候選的頻繁項集合。然后刪去其中不滿足最小支持度的集合，得到全局的頻繁項目集合。獲得所有頻繁集的非空子集并計算子集的置信度，得到關聯(lián)規(guī)則集。最后，選擇與業(yè)務需求相關的關聯(lián)規(guī)則，即（員工組合）=>（服務等級）形式的規(guī)則。

3實驗

　　為了驗證使用并行Apriori關聯(lián)規(guī)則挖掘員工組合與服務處理效率之間關聯(lián)關系的效果，這里選擇了銀行服務管理系統(tǒng)在一個月內產(chǎn)生的流程日志文件進行實驗。由于不同類別的服務請求處理的流程和所涉及的處理員工差異較大，因此僅提取包含處理客戶申請無抵押貸款的服務請求的數(shù)據(jù)進行實驗分析。剔除未完成的服務處理請求記錄，滿足條件的數(shù)據(jù)集大約有15萬條記錄，其中根據(jù)默認的服務等級劃分后的數(shù)據(jù)分布如表5所示。

圖像 005.png

　　服務等級（Class=A）的記錄由于所占比例太小，在尋找頻繁項集的過程中，會因為不符合最小支持度閾值而被過濾。而如果設定較小的最小支持度閾值，則會帶來性能的問題，并挖掘出大量的無用規(guī)則。因此排除服務等級為D和E的記錄，并根據(jù)選取的最小支持度對服務等級重新劃分。

　　在完成對數(shù)據(jù)的預處理后，使用分布式處理的每一個處理節(jié)點都加載包含了對常見的關聯(lián)規(guī)則算法實現(xiàn)的R擴展包arules后，調用rules包中的apriori函數(shù)對處理后的數(shù)據(jù)做關聯(lián)分析。指定合適的最小支持度和最小置信度后，獲得滿足條件的關聯(lián)規(guī)則的部分結果輸出如下：

　　1{E1=John,E2=Lisa,E3=Jenny,E4=Raju}=>{Class=D} 0.154545450.7500000 5.892857

　　2 {E1=John, E2=Lisa, E3=Jenny, E4=Rajesh} => {Class=C} 0.16363636 0.4285714 2.619048

　　3 {E1=John, E2=Lisa, E3=Jenny, E4=Rajesh} => {Class=B} 0.172727270.4285714 2.964286

　　4 {E1=John, E2=Lisa,E3=Jenny,E4=Sophia}=>{Class=A} 0.154545450.7500000 2.291667

　　5 {E1=David, E2=Ken, E3=Bruce,E4=Sophia}=>{Class=A} 0.145454550.8888889 2.716049

　　... ...

　　上述結果所對應的包含服務等級A的規(guī)則如下：

　　1.{E1=John,E2=Lisa,E3=Jenny,E4=Sophia} => {Class=A} conf:(0.7500000)

　　2.{E1=David,E2=Ken,E3=Bruce,E4=Sophia} => {Class=A} conf:(0.8888889)

　　... ...

　　如果僅僅使用Apriori關聯(lián)算法，在計算支持度時需要多次掃描數(shù)據(jù)庫，而Eclat算法對候選n項集進行支持度計算時不需再次掃描數(shù)據(jù)庫。因此通過應用Eclat關聯(lián)規(guī)則算法對實驗數(shù)據(jù)進行關聯(lián)規(guī)則挖掘，通過對比挖掘出的結果驗證規(guī)則的有效性，并比較它們在性能上的差異。

　　在加載包含了對常見的關聯(lián)規(guī)則算法實現(xiàn)的R擴展包arules后，調用rules包中的eclat函數(shù)對處理后的相同數(shù)據(jù)做關聯(lián)分析。指定相同的最小支持度和最小置信度后，獲得滿足條件的關聯(lián)規(guī)則集合。

　　基于本實驗的數(shù)據(jù)集，且在相同實驗的環(huán)境下，加載R擴展包arules后，通過分別調用apriori函數(shù)和eclat函數(shù)以實現(xiàn)Apriori關聯(lián)規(guī)則挖掘和Eclat關聯(lián)規(guī)則挖掘，然后獲取兩者所消耗的時間并進行比較。結果表明，兩者在性能上差異很小。其中，采用Eclat算法進行挖掘比采用非并行Apriori算法進行挖掘快2 min得出結果，并行Apriori算法的時間明顯減少，其中并行算法使用3臺Dell R530/2.83 Hz/8 GB服務器，其他使用單臺服務器配置。修正最小支持度閾值，得到表6所示的實驗結果。

圖像 006.png

　　因此基于目前銀行服務管理系統(tǒng)產(chǎn)生的流程數(shù)據(jù)，采用并行Apriori關聯(lián)規(guī)則算法進行挖掘，取得了比較理想的效果。

4結論

　　協(xié)作的緊密程度影響著服務處理的效率，分配協(xié)作緊密度高的員工在一起合作可以提高服務的效率。哪些員工在一起合作具有緊密的協(xié)作關系，能提供高效的服務，蘊藏在流程日志數(shù)據(jù)中。本文分析了如何有效地應用并行Apriori算法從流程日志中挖掘出服務處理員工序列與服務效率之間的關系。將挖掘出的關系映射成對服務分配的規(guī)則，使得系統(tǒng)根據(jù)規(guī)則將協(xié)作關系緊密的員工分配在一起共同處理服務請求，提高了服務效率，取得了合理的應用效果，實現(xiàn)了銀行服務管理系統(tǒng)中服務分配的智能化。如何應用數(shù)據(jù)挖掘技術更深層次地去挖掘蘊含在流程日志中的有用模式或知識，是需要進一步思考的問題。

　　參考文獻

　?。?］ LNMON W H.數(shù)據(jù)倉庫(第3版)［M］.王志海，譯.北京：機械工業(yè)出版社,2005.

　?。?］ LAROSE D T. Discovering knowledge in data: an introduction to data mining［M］.New Jersey: WileyInterscience,2005.

　　［3］趙衛(wèi)東．智能化的流程管理［M］．上海：復旦大學出版社，2014.

　?。?］ van der AALST W M P, WEIJTERS T, MATUSTER L．Workflow mining：discovering process models from event logs［J］．IEEE Transactions on Knowledge and Data Engineering, 2004,16(9):1128 1142．

　?。?］ BERSON A, SMITH S, THEARLING K. Building data mining applications for CRM［M］. New York: McGrawHill Companies, 2000.

　?。?］ ROMBEL A. CRM shifts to data mining to keep customers［J］.Global Finance,2001,15(11):97 98.

　?。?］ WEISS G M. Data mining in telecommunications［A］.The data mining and knowledge discovering handbook［M］.Springer US,2005:1187 1201.

　　［8］ GROTH R.Data mining:building competitive advantage［M］.Prentice Hall,1999.

　?。?］趙衛(wèi)東，劉海濤．流程挖掘在流程優(yōu)化中的應用［J］．計算機集成制造系統(tǒng)，2014，20(10)：2633 2641.

　?。?0］ PARVATHY A G,VASUDEVAN B G，KUMAR A,et al．Leveraging call center logs for customer behavior prediction［A］． ADAMS N M．Advances in Intelligent Data Analysis VIII8th International Symposium on Intelligent Data Analysis［C］．Lyon： SpringerVerlag，2009,57772：143 154．

　?。?1］ WRITTEN I H， FRANK E．Data mining practical machine learning tools and techniques［M］．Burlington：Morgan Kaufmann，2011.

　?。?2］ LIN S W， SHIUE Y R， CHEN S C，et al．Applying enhanced data mining approaches in predicting bank performance：A case of Taiwanese commercial banks ［J］.Expert Systems with Applications， 2009，36(9)：11543 11551．

　　［13］ AKHIL K，DIJKMAN R M，SONG M．Optimal resource assignment in workflows for maximizing cooperation［A］．Business Process Management (Proceedings of the 11th International Conference on Business Process Management)［C］．Berlin Heidelberg： SpringerVerlag，2013：235 250．

　?。?4］ Wu Xindong， KUMAR V．The top ten algorithms in data mining［M］．USA：Chapman and Hall/CRC，2009.

　　［15］ Han Jiawei．Data mining：concepts and techniques［M］．Burlington：Morgan Kaufmann，2011.

　?。?6］ YE Y, CHIANG C C. A parallel apriori algorithm for frequent itemsets mining［C］. Fourth International Conference on Software Engineering Research, Management and Applications, 2006, IEEE, 2006: 87 94.

原創(chuàng)聲明：此內容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權禁止轉載。

相關內容