摘 要: 面對電子商務(wù)模式下電商對客戶競爭的現(xiàn)狀,針對傳統(tǒng)的客戶分類方法的不足,設(shè)計(jì)了一種基于FCM模糊聚類算法客戶分類的并行算法。實(shí)驗(yàn)結(jié)果表明設(shè)計(jì)的方法能準(zhǔn)確地對電商客戶分類,在MATLAB集群下并行算法的運(yùn)行取得了明顯的并行效果。
關(guān)鍵詞: 電子商務(wù)客戶分類;FCM算法;MATLAB集群并行
市場經(jīng)濟(jì)的發(fā)展和網(wǎng)絡(luò)技術(shù)的革新促使電子商務(wù)迅速普及。在競爭激烈的電子商務(wù)經(jīng)濟(jì)模式下,客戶成為電商競爭的焦點(diǎn)。電商想要對客戶進(jìn)行分析需要將客戶分類,找出優(yōu)質(zhì)客戶、挖掘潛在客戶才能制定出針對性的營銷策略。電商客戶分類是指根據(jù)客戶的歷史交易情況將客戶群劃分為不同的等級,從中找出共同的要素并對客戶的消費(fèi)需求及消費(fèi)行為進(jìn)行研究,制定并實(shí)施有效的銷售策略。
傳統(tǒng)的客戶分類方法是基于經(jīng)驗(yàn)或簡單統(tǒng)計(jì)方法[1],依據(jù)電商客戶歷史交易數(shù)據(jù)對客戶過去和現(xiàn)在價(jià)值進(jìn)行分析,忽略了客戶的潛在價(jià)值和未來價(jià)值。這兩種方法分類主觀性強(qiáng),與分類標(biāo)準(zhǔn)的關(guān)聯(lián)性大,分類效果不理想。FCM模糊聚類算法是多元統(tǒng)計(jì)算法中廣泛應(yīng)用于經(jīng)濟(jì)分析的算法,它是在聚類分析算法的基礎(chǔ)上,增加“隸屬度”,用數(shù)學(xué)的方法定量地確定每一個(gè)樣本點(diǎn)與各個(gè)類別的親疏關(guān)系,分類結(jié)果客觀。此外,面對電商網(wǎng)站運(yùn)營產(chǎn)生的海量歷史交易數(shù)據(jù),本文利用MATLAB集群可以發(fā)揮其適合執(zhí)行數(shù)據(jù)密集型任務(wù)的優(yōu)勢,解決“數(shù)據(jù)大,計(jì)算難”的問題,高效地計(jì)算出聚類結(jié)果。
本文基于FCM模糊聚類算法設(shè)計(jì)了一個(gè)針對電商客戶分類的方法,以電商網(wǎng)站凡客誠品的歷史交易數(shù)據(jù)為例進(jìn)行實(shí)驗(yàn)測試設(shè)計(jì)方法的有效性。同時(shí)在MATLAB集群中針對3個(gè)規(guī)模不同的數(shù)據(jù)進(jìn)行并行計(jì)算實(shí)驗(yàn),做并行化研究。實(shí)驗(yàn)結(jié)果表明FCM模糊聚類算法能夠準(zhǔn)確地將電子商務(wù)客戶分類,利用MATLAB集群的多個(gè)節(jié)點(diǎn)并行計(jì)算數(shù)據(jù),縮減了計(jì)算數(shù)據(jù)時(shí)間。
1 電子商務(wù)網(wǎng)站客戶分類算法
1.1電子商務(wù)網(wǎng)站客戶分類
電子商務(wù)客戶分類是電商在收集和整理客戶交易信息的基礎(chǔ)上,按照客戶交易記錄把某一類的客戶分到一個(gè)群體的過程,其原理如圖1所示。
首先收集電子商務(wù)客戶的原始交易記錄數(shù)據(jù),利用電子商務(wù)后臺數(shù)據(jù)或者爬蟲技術(shù)爬取。其次是數(shù)據(jù)預(yù)處理環(huán)節(jié),要對收集的數(shù)據(jù)進(jìn)行規(guī)約和清洗,刪除其中沒有用處的數(shù)據(jù)。最后通過FCM模糊聚類算法對輸入數(shù)據(jù)進(jìn)行聚類分析,獲得聚類分析結(jié)果。電商可以針對不同消費(fèi)群體制定指定的銷售策略,實(shí)現(xiàn)穩(wěn)定盈利。
1.2 FCM模糊聚類算法
K-means聚類分析算法是依據(jù)實(shí)驗(yàn)數(shù)據(jù)本身具備的定性或定量的特征來對數(shù)據(jù)進(jìn)行分組歸類的方法,方便了解數(shù)據(jù)集的內(nèi)在結(jié)構(gòu),是數(shù)據(jù)挖掘的主要數(shù)據(jù)分析方法[2]。算法優(yōu)勢是操作簡單、聚類速度快。算法存在的缺陷是容易陷入局部最優(yōu)值,這樣獲得的聚類結(jié)果是局部最優(yōu)解而不是全局最優(yōu)解。由于K-means聚類分析算法的缺陷,用于電子商務(wù)客戶分類的聚類效果不理想。
模糊聚類分析算法FCM(Fuzzy C-Means algorithm)是在K-means聚類分析算法的基礎(chǔ)之上,增加“隸屬度”,用數(shù)學(xué)方法定量地確定樣本點(diǎn)與其他各個(gè)樣本的親疏關(guān)系,客觀地劃分樣本集類型。能夠客觀地計(jì)算出每一個(gè)客戶屬于各類樣本的概率,分析效果更加精確[3]。FCM模糊聚類算法步驟如下:
FCM模糊聚類分析算法的目標(biāo)函數(shù)是:
表1是實(shí)驗(yàn)取得的隸屬度矩陣表,結(jié)尾保留4位有效小數(shù)。列代表客戶編號,行代表4個(gè)類別。對應(yīng)的數(shù)值就是每一個(gè)客戶屬于每一類的概率。每一列概率數(shù)值相加之和為1,代表概率越大,屬于那一類的可能性越大。
2.2 舉例實(shí)驗(yàn)分析
本文先后分別對這100個(gè)客戶數(shù)據(jù)進(jìn)行聚類,分為3類、4類和5類。結(jié)果如圖4和圖5所示。
第一類潛在客戶:該類消費(fèi)群體關(guān)心價(jià)格,喜歡打折促銷。流失傾向偏大,對網(wǎng)站信任度低。雖然具有一定的價(jià)值,但給企業(yè)帶來的利潤小。
第二類小客戶:該群體主要購買飾品,企業(yè)從這類消費(fèi)群體可以獲得的利潤較小。流失傾向偏小,應(yīng)該通過營銷方法使其成為一般客戶。維持該類客戶對電子商務(wù)的發(fā)展仍具有一定的意義。
第三類優(yōu)質(zhì)客戶:群體主要購買服裝,這類群體是企業(yè)可以從中獲得利潤最大的群體。該類群體購買優(yōu)質(zhì)產(chǎn)品,且購買的數(shù)量多,是企業(yè)的高端顧客。該網(wǎng)站的客戶忠誠度高,在一定時(shí)間內(nèi)購買的商品種類和交易數(shù)量多,是企業(yè)需要重點(diǎn)維護(hù)的對象。
第四類一般客戶群體:主要購買服裝,該類客戶偏向于購買普通服裝,電商的該類客戶數(shù)量最多。對網(wǎng)站的產(chǎn)品持肯定態(tài)度,雖然沒有為電商提供高利潤,但是交易會穩(wěn)定持續(xù)地進(jìn)行,是企業(yè)穩(wěn)定生存的基礎(chǔ)。
3 MATLAB集群并行化
MATLAB是一套高性能的數(shù)值計(jì)算和可視化軟件,集數(shù)值分析、矩陣運(yùn)算、圖形處理和信號處理于一體。MATLAB最大的優(yōu)勢在于它的強(qiáng)大的科學(xué)計(jì)算能力,專用工具箱具備全面的數(shù)學(xué)函數(shù),能夠執(zhí)行數(shù)據(jù)復(fù)雜型任務(wù)和數(shù)據(jù)密集型任務(wù)[4]。
(1)實(shí)驗(yàn)環(huán)境:由3臺PC機(jī)搭建的MATLAB集群。硬件配置:Intel(R)Core(TM)、i3CPU530@2.93 GHz(2CPUs),2 GB內(nèi)存。軟件配置:系統(tǒng)環(huán)境Windows XP、MATLAB(R2011b)。文件大?。阂?guī)模大小為1 GB、2.2 GB、3 GB的3個(gè)數(shù)據(jù)表。
(2)實(shí)驗(yàn)結(jié)果及分析:本文采用數(shù)據(jù)分割的方式對FCM模糊聚類算法進(jìn)行集群并行計(jì)算。實(shí)驗(yàn)分別在單節(jié)點(diǎn)與多節(jié)點(diǎn)環(huán)境下執(zhí)行,首先在雙節(jié)點(diǎn)環(huán)境下的運(yùn)行時(shí)間小于單節(jié)點(diǎn)下運(yùn)行的時(shí)間,并行效果明顯。其次又分別在4個(gè)節(jié)點(diǎn)與6個(gè)節(jié)點(diǎn)下分別執(zhí)行聚類計(jì)算,實(shí)驗(yàn)結(jié)果表明時(shí)間縮短的增量與集群節(jié)點(diǎn)數(shù)目成正比,隨著集群節(jié)點(diǎn)的增加而增大。說明用MATLAB集群來處理本文的數(shù)據(jù)是有效的,發(fā)揮了MATLAB集群處理數(shù)據(jù)密集型任務(wù)的優(yōu)勢,體現(xiàn)了MATLAB集群的高性能。實(shí)驗(yàn)結(jié)果如表4所示。
通過對圖6單節(jié)點(diǎn)與雙節(jié)點(diǎn)環(huán)境下運(yùn)行時(shí)間的對比,可以看出并行計(jì)算時(shí)間短于串行計(jì)算的時(shí)間,且隨著數(shù)據(jù)規(guī)模的加大,時(shí)間縮短增量逐漸提高。圖7顯現(xiàn)了加速比的變化,不同規(guī)模大小數(shù)據(jù)的加速比均隨著集群節(jié)點(diǎn)數(shù)目的增大而增大。由此可以證實(shí),F(xiàn)CM模糊聚類算法在并行集群中應(yīng)用于電子商務(wù)客戶分類適用,能夠取得良好的并行效果,輸出結(jié)果時(shí)間縮短。充分說明了FCM模糊聚類算法并行化的可行性和MATLAB集群的高性能性。
電子商務(wù)處于蓬勃發(fā)展階段,如何準(zhǔn)確有效地對消費(fèi)客戶進(jìn)行分類并制定針對性的營銷策略是其盈利的關(guān)鍵。本文針對這一現(xiàn)實(shí)問題,選定多元統(tǒng)計(jì)分析中的FCM模糊聚類算法進(jìn)行客戶分類并做了并行化研究。實(shí)驗(yàn)結(jié)果表明,在MATLAB集群中運(yùn)行并行后的FCM模糊聚類算法能夠取得良好的并行效率,同時(shí)也驗(yàn)證了MATLAB集群在處理數(shù)據(jù)密集型任務(wù)的高效性。本文設(shè)計(jì)的方法可以應(yīng)用于電子商務(wù)中,對電子商務(wù)客戶分析方面有一定的實(shí)際意義。
參考文獻(xiàn)
[1] 朱晶晶.電子商務(wù)網(wǎng)站分類體系理解的用戶心智模型研究[D].南京:南京理工大學(xué),2010.
[2] SELIM S Z. K-Means-type algorithms: A generalized convergence theorem and characterization of local optimality[J]. IEEE Transactions on Pattern Analysis and Machine Intelligce, 1984,6(1): 81-87.
[3] DUNN J C. A fuzzy relative of the IOSDATA process and its use in detecting compact well separated clusters[J].Cybemet.3,197:32-57.
[4] MathWorks. MATLAB Distributed Computing Server 5 System Administrator′s Guide[EB/OL]. http://www.mathworks.com/access/helpdesk/help/pdf_doc/mdce/mdce.pdf, 2010.
[5] 徐瑞,黃兆東,閻鳳玉.MATLAB2007科學(xué)計(jì)算與工程分析[M].北京:科學(xué)出版社,2008.
[6] 瞿小寧.K均值聚類算法在商業(yè)銀行客戶分類中的應(yīng)用[J].計(jì)算機(jī)仿真,2011,28(6):357-360.
[7] 李容.基于K均值聚類算法的圖書商品推薦仿真系統(tǒng)[J].計(jì)算機(jī)仿真,2010,27(6):346-349.