摘 要: 以網(wǎng)上書店為例,利用貝葉斯分類預測技術,進行了發(fā)現(xiàn)潛在客戶群體的研究,用隨機選取的10組樣本進行試驗預測,預測準確率達96.5%,表明了該算法是有效的。
關鍵詞: 數(shù)據(jù)挖掘;貝葉斯分類;潛在用戶;網(wǎng)上書店
當前信息時代發(fā)展迅猛,電子商務的興起使得用戶和商家都借助于Internet這個平臺進行交流,方便用戶購書的網(wǎng)上書店也隨之發(fā)展起來。在服務成本加大、而收效甚微的前提下,商家面臨著拓寬客戶的問題。挖掘潛在顧客群體,為網(wǎng)站經(jīng)營者在激烈的市場競爭中洞察先機、調整有效的顧客服務策略,提供準確的參考信息及科學的決策依據(jù),最終達到識別潛在顧客、吸引新顧客、真正做到以顧客價值為中心,全方位為其提供整體服務,從而提升品牌、促進消費,在總體上減少商業(yè)成本并增加利潤。
國內外關于面向Web日志挖掘用戶行為及潛在顧客信息的研究發(fā)現(xiàn),其包括三個過程:數(shù)據(jù)預處理、模式識別及模式分析[1]。在國外,Ngu D S W和Wu X等人也研究了SiteHelper系統(tǒng),其主要方法是使用信息提取的方法提取頁面信息,并且結合用戶訪問歷史、用戶個人資料提供的線索,向用戶動態(tài)推薦訪問的頁面,缺點是涉及了比較敏感的用戶個人隱私問題[2]。參考文獻[3]根據(jù)用戶的查詢與目標頁面的并發(fā)關系,分析聚類用戶的存取事務,發(fā)現(xiàn)用戶的個性化搜索模式,對其所需服務進行主動定制。在國內,參考文獻[4]提出利用數(shù)據(jù)挖掘中的分類方法,根據(jù)已有用戶的訪問信息,訓練分類器,其貢獻在于能夠量化地推斷匿名用戶的訪問特性;其不足在于訪問特性本身需要人工定義,存在著缺漏。郭新濤等人提出了一種新的支持站點設計優(yōu)化的Web使用挖掘方案,該方案基于Web日志中的搜尋路徑統(tǒng)計用戶尋找目標花費的平均時間,以量化Web頁面的搜尋費用,在此基礎上提出了一種數(shù)據(jù)挖掘方法,尋找一組能夠有效壓縮搜尋路徑(降低時間費用)的超鏈接,以便挖掘用戶[5]。
基于上述不足,本文利用數(shù)據(jù)挖掘中貝葉斯分類技術來研究網(wǎng)上書店中的有關挖掘潛在用戶的問題。貝葉斯算法作為處理不確定性信息的重要工具,已成功運用在統(tǒng)計決策、醫(yī)療診斷、零售業(yè)[6]、考試成績檢測機制等領域[7]。最為成熟的是,采用貝葉斯算法對郵件進行判斷,建立了最優(yōu)化的垃圾郵件過濾技術[8]。而本文所說的潛在用戶也是具有不確定性,基于這個相似點,而選擇使用貝葉斯算法[9]。
1 貝葉斯分類預測方法
分類分析就是通過分析示例數(shù)據(jù)庫中的數(shù)據(jù),為每個類別做出準確的描述、建立分析模型或挖掘出分類規(guī)則,然后用這個分類規(guī)則對新的數(shù)據(jù)記錄進行分類,其中貝葉斯分類方法是一種易于使用并且具有最小錯誤率的概率分類法,它以完善的貝葉斯理論為基礎,有較強的模型示、學習和推理能力,是一種很受歡迎的數(shù)據(jù)挖掘分類方法。貝葉斯分類是統(tǒng)計學分類方法,可以預測類成員關系的可能性,如給定數(shù)據(jù)項屬于一個特定類的概率。

2 貝葉斯分類技術在網(wǎng)上書店挖掘潛在用戶中的應用
本文以網(wǎng)上書店欲銷售小說為案例,以網(wǎng)上書店的顧客cookies數(shù)據(jù)庫為對象,用貝葉斯分類的挖掘技術對收集到的已經(jīng)購買過本產(chǎn)品顧客的瀏覽持續(xù)時間、瀏覽次數(shù)、書的銷售類型以及小說類型等數(shù)據(jù)進行分析,生成對當前數(shù)據(jù)庫有效的用戶分類模型,從中識別顧客購買行為,發(fā)現(xiàn)顧客購物模式和傾向,挖掘潛在用戶,對不同顧客實施不同的推銷策略,為該商店調整有效的銷售策略提供一些有用的參考依據(jù)。
2.1 數(shù)據(jù)描述
首先把分類結果即目標屬性定為兩類:購買和不購買。其中數(shù)據(jù)樣本可用一個五維特征向量X={x1,x2,x3,x4,x5}分別描述以下屬性(瀏覽持續(xù)時間、一天之內的瀏覽次數(shù)、書的銷售類型、小說類型、是否購買),其中各屬性的數(shù)據(jù)泛化過程如下:
瀏覽持續(xù)時間:0表示0~5 min,1表示5~10 min,2表示10~30 min。
一天之內的瀏覽次數(shù):3代表瀏覽1次,4代表瀏覽2次,5代表瀏覽5次。
書的銷售類型:6代表特價書,7代表熱賣書。
小說類型:8代表言情小說,9代表武俠小說。
是否購買:-2代表購買,-1代表不購買。
2.2 預處理數(shù)據(jù)
把cookies數(shù)據(jù)庫中的部分信息(顧客購買的子集, 14人)作為訓練樣本(可隨機抽取),推斷一下網(wǎng)站對未知類別樣本的購買情況,以簡單說明貝葉斯分類的一般工作流程。
表1給出了一個類別標記的數(shù)據(jù)項的樣本,它是商店的cookies數(shù)據(jù)庫中抽取的顧客訓練集樣本。

其相應的數(shù)據(jù)泛化后的顧客樣本為:
顧客1{0,3,6,8,-1} 顧客2{0,3,6,9,-1}
顧客3{1,3,6,8,-2} 顧客4{2,4,6,8,-2}
顧客5{2,5,7,8,-2} 顧客6{2,5,7,9,-1}
顧客7{1,5,7,9,-2} 顧客8{0,4,6,8,-1}
顧客9{0,5,7,8,-2} 顧客10{2,4,7,8,-2}
顧客11{1,4,7,9,-2} 顧客12{1,4,6,9,-2}
顧客13{1,3,7,8,-2} 顧客14{2,4,6,9,-1}
2.3 挖掘潛在用戶的算法流程
基于貝葉斯的挖掘潛在用戶的分類算法流程如圖1所示。

2.4實例分析
推斷新樣本X(2,3,6,9)的用戶類別,用貝葉斯分類解法挖掘潛在用戶的每個步驟的結果為:
(1)P(是否購買=“購買”)=9/14=0.643,P(是否購買=“不購買”)=5/14=0.357。
(2)使用貝葉斯算法計算各屬性的所有取值相對于每個類別的概率結果如表2所示。

(3)判斷用戶類別
P(‘10~30 min,瀏覽1次,特價書,武俠小說’|‘購買’)×P(‘購買’)=0.333×0.222×0.333×0.333×0.643=0.005 3
P(‘10~30 min,瀏覽1次,特價書,武俠小說’|‘不購買’)×P(‘不購買’)=0.4×0.4×0.8×0.6×0.357=0.027 4
根據(jù)上述結果可知,P(‘不購買’)>P(‘購買’),所以由貝葉斯挖掘技術預測的新樣本的用戶類為:“是否購買=不購買”,也就是具有這種基本信息的顧客有很大的可能性不購買該商店的產(chǎn)品(武俠小說)。
3 實驗結果與分析
為了驗證貝葉斯分類方法的正確性和有效性,從cookies數(shù)據(jù)庫隨機抽取10組樣本,分類結果如表3所示。可以看出,每組樣本的樣本個數(shù)不確定,其中有9組樣本的正確率達到了95%以上,在這9組樣本中有5組樣本的正確率達到了100%,有一組樣本的正確率在95%以下。同時也可以看出,貝葉斯算法的不足之處在于,對發(fā)生頻率較低事件的預測效果和對于樣本個數(shù)較少的樣本預測效果不好。從10組樣本的預測結果中得出平均正確率為96.5%,說明貝葉斯算法分類的正確率相當高,貝葉斯分類算法具有很強的學習、推理能力,能很好地利用先驗知識。

本文研究了貝葉斯分類挖掘技術在購書網(wǎng)站挖掘潛在用戶中的運用,基于貝葉斯方法的分類預測具有形式簡單、易于解釋、預測結果正確率高,且可以很容易從不同的領域進行推廣等優(yōu)點,但是對發(fā)生頻率較低事件的預測效果不好,在這方面需要進一步改進。
參考文獻
[1] 王嵐,翟正軍.Web日志挖掘的預處理及路徑補全算法的研究[J].微電子學與計算機,2006,23(8):113-114.
[2] NGU D S T, WU X. Sitehelper: A locall’zed agent that helps incremental exploration of the World Wide Web[C]. 6th International World Wide Web Conference. Santa,Clara, CA, 1997: 1249-1255.
[3] DOUG B, ADAM B. Agglomerative clustering of a search engine query log[C]. Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Boston, Massachusetts, United States, 2000. New York: ACM Press, 2000: 407-415.
[4] 張娥,鄭斐峰,馮耕中.Web日志數(shù)據(jù)挖掘的數(shù)據(jù)預處理方法研究[J].計算機應用研究,2004,3(2):58-60.
[5] 郭新濤,梁敏,阮備軍,等.挖掘Web日志降低信息搜尋的時間費用[J].計算機研究與發(fā)展,2004,41(10):1737-1747.
[6] 魏小琴,劉慧玲,李明東.樸素貝葉斯分類挖掘技術在零售業(yè)的應用[J].中國西部科技,2008,27(7):28-29.
[7] 任喜峰.基于樸素貝葉斯分類的考試成績監(jiān)測機制研究[J].統(tǒng)計與決策,2007,59(22):163-164.
[8] 張付志,伍朝輝,姚芳.基于貝葉斯算法的垃圾郵件過濾技術的研究與改進[J].燕山大學學報,2009,33(1):47-52.
[9] 李艷,劉信杰,胡學鋼.數(shù)據(jù)挖掘中樸素貝葉斯分類器的應用[J].濰坊學院學報,2007,7(4):48-50.
