摘 要: 將面向?qū)傩缘臍w納方法應(yīng)用到網(wǎng)上書店中,通過(guò)概念層次技術(shù)從用戶的注冊(cè)信息中歸納出用戶的訪問需求,從而實(shí)時(shí)主動(dòng)地為用戶提供個(gè)性化服務(wù)。實(shí)驗(yàn)證明該方法對(duì)研究用戶的興趣愛好有意義。
關(guān)鍵詞: 用戶特征;屬性歸納;概念層次樹;網(wǎng)上書店
電子商務(wù)的迅猛發(fā)展使得越來(lái)越多的用戶把注意力轉(zhuǎn)移到網(wǎng)絡(luò)上,但是由于Web信息量及復(fù)雜度的迅速上升,直接導(dǎo)致用戶面對(duì)龐大的網(wǎng)絡(luò)時(shí)無(wú)從著手。因此,研究如何使用戶更加方便快捷地訪問網(wǎng)站,如何在短時(shí)間內(nèi)更有效地獲取用戶需求的信息,成為當(dāng)前各個(gè)網(wǎng)站構(gòu)建與優(yōu)化需要重點(diǎn)考慮的問題。
網(wǎng)站為用戶提供個(gè)性化服務(wù)是有效解決以上問題的方法之一。個(gè)性化服務(wù)就是網(wǎng)站通過(guò)收集和分析用戶的注冊(cè)信息及訪問行為等知識(shí),預(yù)測(cè)用戶未來(lái)的網(wǎng)頁(yè)請(qǐng)求、了解用戶的興趣愛好、分析用戶的訪問模式,根據(jù)用戶的個(gè)性化需求,為用戶實(shí)時(shí)、主動(dòng)提供所需求的信息頁(yè)面。通過(guò)網(wǎng)絡(luò)提供的個(gè)性化服務(wù)可以有效地解決用戶“信息過(guò)載”和“信息迷失”的困擾。一方面可以方便用戶使用,提高用戶的訪問效率,滿足用戶的個(gè)性化需求;另一方面對(duì)企業(yè)在改善顧客關(guān)系、培養(yǎng)顧客忠誠(chéng)以及增加網(wǎng)上銷售方面也具有明顯的效果。
目前在個(gè)性化服務(wù)中的研究主要集中在從用戶的訪問行為中挖掘特征規(guī)則。Mobasher[1]提出了一種基于Web使用挖掘的個(gè)性化服務(wù)體系結(jié)構(gòu),通過(guò)使用聚類和關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法為用戶提供個(gè)性化服務(wù);張成[2]等提出了一種基于OWL-S的服務(wù)挖掘算法,通過(guò)計(jì)算服務(wù)關(guān)鍵字權(quán)重得出服務(wù)的相識(shí)度,來(lái)分析服務(wù)之間的匹配,從而定位所需服務(wù),在一定程度上提高了服務(wù)的性能,但挖掘用戶注冊(cè)信息中特征規(guī)則的研究居少;盧明等[3]提出一種使用屬性表的快速概念聚類算法,通過(guò)構(gòu)造一張屬性表對(duì)前綴樹進(jìn)行剪枝,概念聚類的過(guò)程僅在一些有效的子空間中執(zhí)行。
本文主要研究如何從用戶注冊(cè)信息中挖掘出用戶的特征規(guī)則。結(jié)合網(wǎng)上書店,應(yīng)用面向?qū)傩缘臍w納AOI(Attribute Oriented Induction)方法,從關(guān)系數(shù)據(jù)庫(kù)的用戶注冊(cè)信息中挖掘與用戶購(gòu)書行為有關(guān)的特征規(guī)則,從而推斷同類用戶將來(lái)的購(gòu)書需求,并為調(diào)整網(wǎng)站結(jié)構(gòu)及個(gè)性化服務(wù)提供依據(jù)。
1 網(wǎng)絡(luò)用戶特征的挖掘方法
對(duì)于網(wǎng)站來(lái)說(shuō),將網(wǎng)絡(luò)用戶分為注冊(cè)用戶和非注冊(cè)用戶。挖掘網(wǎng)絡(luò)用戶特征主要從兩方面研究,分別為用戶注冊(cè)信息特征(從用戶的注冊(cè)信息中歸納出的特征)和用戶行為特征(從用戶在網(wǎng)站的瀏覽行為中歸納的特征)。對(duì)于非注冊(cè)的用戶,其基本信息獲取比較困難,故欲不考慮這部分用戶。
面向?qū)傩缘臍w納方法主要是根據(jù)用戶的屬性數(shù)據(jù)概化出用戶的特征,從而得知用戶的需求,被廣泛地應(yīng)用于特征規(guī)則、多層規(guī)則和分類規(guī)則的挖掘。特征規(guī)則(Characterization Rule)描述的是目標(biāo)數(shù)據(jù)集中大部分?jǐn)?shù)據(jù)所共有的特征。挖掘方法有概念描述(Concept Description)方法和數(shù)據(jù)泛化(Data Generalization)方法。概念描述是對(duì)某類對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類對(duì)象的有關(guān)特征;數(shù)據(jù)泛化是一個(gè)將數(shù)據(jù)集中的屬性從較低的概念層抽象到較高的概念層的過(guò)程。實(shí)現(xiàn)數(shù)據(jù)泛化的方法有數(shù)據(jù)立方體(OLAP)方法和面向?qū)傩苑椒▋煞N:(1)OLAP方法是通過(guò)一系列分析處理過(guò)程將數(shù)據(jù)集中的數(shù)據(jù)以不同的數(shù)據(jù)組織方式和可視化的形式呈現(xiàn)給用戶;(2)面向?qū)傩詺w納方法則采用概念分層的思想,通過(guò)以高層概念替換低層數(shù)據(jù)來(lái)實(shí)現(xiàn)泛化[4]。
概念層次結(jié)構(gòu)是表示抽象知識(shí)的重要手段,把原始數(shù)據(jù)泛化到較高層次,實(shí)現(xiàn)在不同概念層次上對(duì)數(shù)據(jù)的抽象。面向?qū)傩詺w納方法中用來(lái)進(jìn)行概念泛化的技術(shù)稱為概念層次技術(shù),用概念層次樹來(lái)表示用于泛化的背景知識(shí),實(shí)現(xiàn)具體與抽象概念之間的轉(zhuǎn)化。概念層次樹是將數(shù)據(jù)庫(kù)中記錄的屬性字段根據(jù)一定的抽象程度進(jìn)行歸類合并而形成的層次結(jié)構(gòu)。面向?qū)傩詺w納方法利用概念層次技術(shù)進(jìn)行概念提升,得到高度概括的表,再進(jìn)而將它轉(zhuǎn)換成用戶的特征需求,為用戶個(gè)性化服務(wù)提供依據(jù)。
目前挖掘網(wǎng)絡(luò)用戶行為特征主要應(yīng)用Web數(shù)據(jù)挖掘技術(shù),通過(guò)挖掘用戶訪問Web時(shí)在服務(wù)器上留下的日志記錄,來(lái)發(fā)現(xiàn)用戶訪問Web頁(yè)面的模式。主要有用戶聚類和網(wǎng)頁(yè)聚類兩種聚類技術(shù)用來(lái)挖掘用戶行為特征。用戶聚類主要是把所有用戶劃分成許多組,具有相似瀏覽模式的用戶分在一組。網(wǎng)頁(yè)聚類則可以找出具有相關(guān)內(nèi)容的網(wǎng)頁(yè)組,根據(jù)用戶的詢問或過(guò)去所需信息的歷史來(lái)生成靜態(tài)或動(dòng)態(tài)網(wǎng)頁(yè),從而向用戶推薦相關(guān)的超鏈接。
綜上所述,從用戶注冊(cè)信息和行為兩方面挖掘出的特征規(guī)則都能反映出用戶的興趣愛好、個(gè)人需求信息等,可以同時(shí)為網(wǎng)站的構(gòu)建及優(yōu)化提供依據(jù),從而達(dá)到為用戶提供個(gè)性化服務(wù)的目的。
2 挖掘網(wǎng)上書店的用戶注冊(cè)信息中的特征規(guī)則
實(shí)驗(yàn)中服務(wù)器系統(tǒng)為Windows Server 2003,版本為Enterprise Edition。構(gòu)建了一個(gè)網(wǎng)上購(gòu)書網(wǎng)站,用戶的注冊(cè)信息以記錄的形式存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中。選取數(shù)據(jù)庫(kù)中的記錄,通過(guò)概念層次技術(shù),挖掘出與用戶有關(guān)的特征規(guī)則。
用戶的注冊(cè)信息包括用戶名、性別、年齡、職業(yè)、教育程度、收入、喜歡的書等基本信息。其中職業(yè)的分類是按照國(guó)家標(biāo)準(zhǔn)分為八大類,分別為國(guó)家機(jī)關(guān)及企事業(yè)單位負(fù)責(zé)人、專業(yè)技術(shù)人員、辦事人員及有關(guān)人員、商業(yè)和服務(wù)業(yè)人員、農(nóng)林等業(yè)的生產(chǎn)人員、生產(chǎn)及運(yùn)輸設(shè)備操作人員、軍人、其他八大類。教育程度分為小學(xué)、初中、職中、高中、中專、大專、本科、研究生及以上八類。收入由四個(gè)分界點(diǎn)分為五個(gè)不同的層次。喜歡的書分為小說(shuō)類、歷史、人文社科、計(jì)算機(jī)類、管理學(xué)、其他六類。實(shí)驗(yàn)中要求用戶在注冊(cè)網(wǎng)站時(shí)需要選擇基本信息的相關(guān)選項(xiàng),以下是挖掘用戶注冊(cè)信息中的特征規(guī)則的步驟。
2.1 建立概念層次樹
根據(jù)關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),為用戶的每個(gè)屬性構(gòu)建概念層次樹,使具體的屬性值概化為抽象的知識(shí)并歸類合并,實(shí)現(xiàn)在不同概念層次上對(duì)數(shù)據(jù)的抽象。概念層次樹是通過(guò)樹結(jié)構(gòu)的形式,將具體的屬性值分組,然后按照背景知識(shí)逐級(jí)提升概念。每個(gè)獨(dú)立節(jié)點(diǎn)表示一個(gè)基本概念,它可能是一個(gè)屬性的簡(jiǎn)單組,也可能是若干屬性形成的復(fù)合組。概念層次樹的節(jié)點(diǎn)可以是同一屬性的不同抽象度的匯聚點(diǎn),也可以是由一個(gè)概念包含的多個(gè)子概念,網(wǎng)站中用戶的性別、年齡、職業(yè)、教育程度、收入、喜歡的書等基本信息都不同程度上對(duì)用戶的興趣愛好產(chǎn)生一定的影響。所以需要把這些基本信息的概念層次樹構(gòu)建出來(lái),其中“喜歡的書”這一基本信息是兩層的概念層次樹,與“職業(yè)”的相同。
圖1~圖4所示分別是性別、年齡、職業(yè)、教育程度、收入的概念層次樹。

2.2 描述概念層次的數(shù)據(jù)庫(kù)表
為了將概念層次樹存入數(shù)據(jù)庫(kù),在表1中列出了描述概念層次的數(shù)據(jù)表。將概念層次樹中的屬性信息映射到數(shù)據(jù)庫(kù)表中,表中給出了層次編碼、概念節(jié)點(diǎn)的名稱、層號(hào)、屬性標(biāo)志和與概念相對(duì)應(yīng)的屬性取值的區(qū)間。概念層次樹中葉節(jié)點(diǎn)為第0層,葉節(jié)點(diǎn)的父概念所在節(jié)點(diǎn)為第1層,以此向上類推。如果概念層次樹是兩層,在數(shù)據(jù)表中層次編碼用兩位數(shù)字;如果是三層的,編碼用三位數(shù)字。性別的屬性標(biāo)志是1,年齡的屬性標(biāo)志是2,教育程度的屬性標(biāo)志是3,收入的屬性標(biāo)志是4,以此類推。

2.3 特征規(guī)則挖掘的處理過(guò)程
(1)由概念層次描述的數(shù)據(jù)建立數(shù)據(jù)庫(kù)表進(jìn)行組合條件計(jì)算,具體包括基于單一屬性的概念提升和生成基于多屬性的關(guān)聯(lián)條件;
(2)進(jìn)行類組(基本概念或復(fù)合概念相對(duì)應(yīng)的數(shù)據(jù)子集)數(shù)據(jù)計(jì)算,內(nèi)容包括生成數(shù)據(jù)庫(kù)子集、對(duì)類組記錄進(jìn)行排序及數(shù)據(jù)統(tǒng)計(jì)等。排序時(shí)可以計(jì)算高收入階層占總購(gòu)書的比例或者高文化水平占總購(gòu)書的比例,并以此作為排序的依據(jù)。
用戶注冊(cè)成功后,根據(jù)用戶的信息映射到數(shù)據(jù)庫(kù)表中,按照得出的規(guī)則特征為用戶提供感興趣的圖書及網(wǎng)頁(yè)等。
3 實(shí)驗(yàn)結(jié)果與分析
通過(guò)購(gòu)書網(wǎng)站的關(guān)系數(shù)據(jù)庫(kù)中選取2010.04~2010.05期間的3 625條記錄,選取“教育程度”、“收入”、“喜歡的書”三個(gè)屬性進(jìn)行分析。首先按照2.1節(jié)建立這三個(gè)屬性的概念層次樹,使具體數(shù)據(jù)值抽象化。然后按2.2節(jié)將屬性信息映射到數(shù)據(jù)庫(kù)表中,經(jīng)過(guò)概念提升和類組計(jì)算后,得出以下一些特征規(guī)則:
教育程度=初級(jí)文化水平&收入=低收入階層&喜歡的書=小說(shuō)類+其他&購(gòu)書→1.15%
教育程度=初級(jí)文化水平&收入=中收入階層&喜歡的書=人文社科+管理學(xué)&購(gòu)書→5.23%
教育程度=中級(jí)文化水平&收入=中收入階層&喜歡的書=人文社科+管理學(xué)&購(gòu)書→2.36%
教育程度=中級(jí)文化水平&收入=高收入階層&喜歡的書=計(jì)算機(jī)類+管理學(xué)&購(gòu)書→7.56%
教育程度=高級(jí)文化水平&收入=中收入階層&喜歡的書=人文社科&購(gòu)書→2.17%
教育程度=高級(jí)文化水平&收入=中收入階層&喜歡的書=計(jì)算機(jī)類+管理學(xué)&購(gòu)書→6.28%
教育程度=高級(jí)文化水平&收入=高收入階層&喜歡的書=人文社科&購(gòu)書→3.34%
教育程度=高級(jí)文化水平&收入=高收入階層&喜歡的書=計(jì)算機(jī)類+管理學(xué)&購(gòu)書→8.13%
在只考慮這三個(gè)屬性的情況下,得出以上特征規(guī)則。但是這些購(gòu)書比例會(huì)受到其他因素的影響而有所不同,例如用戶并不是按實(shí)際情況選取屬性信息、或者用戶臨時(shí)需求要選取一類書等。由于用戶的注冊(cè)信息在一定程度上對(duì)購(gòu)書結(jié)果產(chǎn)生了影響,所以研究用戶注冊(cè)信息的特征對(duì)了解用戶興趣愛好并提供個(gè)性化服務(wù)是有意義的。
面向?qū)傩詺w納的方法能夠根據(jù)用戶的注冊(cè)信息,通過(guò)概化技術(shù),初步歸納出用戶的興趣愛好。該方法應(yīng)用到網(wǎng)上書店中,為用戶的個(gè)性化服務(wù)提供了依據(jù)。同時(shí)為以后更準(zhǔn)確地提供給用戶需求的信息也提供了研究依據(jù)。
參考文獻(xiàn)
[1] MOBASHER B.A Web personalization engine basedon user transaction clustering[C]∥In Proceedings of the 9th Workshop on Information Technologies and Systems(WITS’99), December 1999.
[2] 張成,張璟.一種服務(wù)挖掘算法的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(4):117-119.
[3] 盧明,胡成全,齊紅,等.一種使用屬性表的快速概念聚類算法[J].復(fù)旦學(xué)報(bào),2004,43(5):823-826.
[4] 孫華梅,郭茂祖,焦杰,等.一種新的面向?qū)傩詺w納中概念層次技術(shù)研究[J].管理科學(xué)學(xué)報(bào),2004,7(1):65-72.
