摘 要: 隨著Web Mining技術的應用,基于Web Mining技術的推薦系統(tǒng)得到了迅速發(fā)展。本文就此系統(tǒng)作了一些改進,并提出了工作框架RESIK。
關鍵詞: 推薦系統(tǒng);Web Mining;興趣度知識
隨著網(wǎng)絡應用的不斷普及,越來越多的公司將注意力從傳統(tǒng)商務轉(zhuǎn)向了電子商務,這在方便了用戶瀏覽和購買產(chǎn)品的同時,也帶來了如何讓用戶盡快地從上百萬件產(chǎn)品中找到所需產(chǎn)品的難題。為了解決這個問題,提出了推薦系統(tǒng)技術。
推薦系統(tǒng)被電子商務站點用來向用戶提供信息以幫助用戶選擇產(chǎn)品,它根據(jù)統(tǒng)計結果或者用戶以前的瀏覽和購買記錄來預測用戶未來的行為,向用戶推薦產(chǎn)品。由于基于傳統(tǒng)技術的推薦系統(tǒng)有很多缺陷[1-4],所以能夠克服這些缺陷的基于Web Mining的推薦系統(tǒng)近來得到了迅速發(fā)展,其主要的工作流程如圖1所示。

一般而言,推薦系統(tǒng)由兩部分構成:離線部分和在線部分。離線部分對數(shù)據(jù)進行處理,生成相應的模型;在線部分應用離線部分的處理結果,根據(jù)用戶的當前會話,向用戶推薦個性化的信息。推薦系統(tǒng)所提供信息的個性化程度分為三類:
(1)非個性化信息,在同一個點上站點提供給所有用戶的信息都是相同的(一般是由管理員或其他人編輯好,然后提供給用戶)。
(2)淺度個性化信息,站點根據(jù)瀏覽路徑和瀏覽行為的不同向用戶提供不同的信息。
(3)深度個性化信息,即使不同用戶具有相同的瀏覽路徑和瀏覽行為,站點也會根據(jù)歷史興趣的不同向他們提供不同的信息。
推薦系統(tǒng)一般提供的是淺度個性化和深度個性化信息。
基于Web Mining的推薦系統(tǒng)也有其自身的缺陷,本文就此系統(tǒng)作了一些改進,并提出了工作框架RESIK(Recommendation System based on Interest Knowledge)。
1 RESIK框架的提出
基于Web Mining的推薦系統(tǒng)的缺陷主要表現(xiàn)在[5]:
(1)不正確的推薦。對于推薦給用戶的頁面,有可能是用戶不感興趣的信息,下次推薦時就不應該再向該用戶推薦相關內(nèi)容的頁面。而推薦系統(tǒng)主要是根據(jù)用戶會話進行推薦,如果下次該用戶以同樣的瀏覽順序訪問網(wǎng)站時,則推薦系統(tǒng)將會把用戶不感興趣的信息再次推薦給用戶。
(2)新加入的信息。對于新加入的頁面,由于沒有任何瀏覽記錄與之相關,所以在線推薦時,無法將其推薦給用戶。更有甚者,對于一個網(wǎng)頁來說,如果經(jīng)常得到推薦,則其瀏覽次數(shù)也會增加,下次該網(wǎng)頁得到推薦的機會也將增加,這顯然是不合理的。
本文基于以上的缺陷,提出了一個推薦系統(tǒng)的工作框架RESIK。
RESIK框架與基于Web Mining的推薦系統(tǒng)一樣,也分為離線和在線兩部分,所不同的是,RESIK在線推薦時,不僅使用離線部分的處理結果,而且還根據(jù)要推薦的信息對該用戶的興趣度進行判斷,只有當興趣度超過設定的閾值,才認為要推薦的信息對該用戶是有用的。
RESIK的工作流程如圖2所示。

圖中,興趣度知識庫存儲的是經(jīng)過興趣度分析得到的網(wǎng)頁與用戶的相關興趣度,在線推薦時,不僅將離線所生成的結果模型推薦給用戶,還要將與該用戶相關興趣度高的新加入的頁面推薦給用戶。因為興趣度知識庫是在離線部分生成的,這樣在線推薦時只需要增加很小的開銷就能解決新加入信息的缺陷。
對于多次將用戶不感興趣的同一信息推薦給用戶的缺陷,也可以通過興趣度知識庫來解決。在線推薦時,根據(jù)要推薦的頁面對興趣度知識庫進行查找,只有該頁面對用戶的相關興趣度超過設定的閾值時,才將其推薦給用戶。
另外,興趣度知識庫也可以由管理員向其中人工添加規(guī)則。例如,將某些重要信息設置為對所有用戶都有很高的興趣度,這樣在用戶訪問網(wǎng)站時,都會得到該信息的推薦。
2 RESIK的詳細處理過程[2,4-5]
2.1 數(shù)據(jù)收集與預處理
RESIK工作所需要的數(shù)據(jù)主要有三類:日志文件、站點文件和站點結構。日志文件存儲了用戶訪問站點的信息,包括瀏覽路徑、瀏覽時間等;站點文件包括頁面,用戶注冊信息等;站點結構即拓撲結構,包含了頁面的鏈入鏈出信息。
在進行具體的挖掘和分析之前,需要對采集的數(shù)據(jù)進行預處理,以將它們轉(zhuǎn)換成符合挖掘所需要的高質(zhì)量數(shù)據(jù)。這些預處理包括內(nèi)容預處理和使用預處理。
內(nèi)容預處理為站點文件建立挖掘所需要的特征表示,根據(jù)TFIDF對文件抽取關鍵詞并建立VSM模型,即對關鍵詞集合

使用預處理的任務是將采集的用戶訪問信息加工成可靠的事務文件,包括以下步驟:
(1)數(shù)據(jù)凈化:Web訪問日志內(nèi)存儲的大部分信息對大多數(shù)挖掘而言,都是沒有利用價值的,所以必須對日志進行凈化處理。
(2)用戶識別:對于已經(jīng)注冊的用戶,這一步很簡單;對于沒有注冊的用戶,將日志文件按IP分割,每個IP對應1個用戶群,對同一個IP的用戶群,根據(jù)請求Agent的不同進一步將請求切分到單個用戶。最終得到每個用戶的訪問記錄。
(3)會話識別:對用戶識別得出的單個用戶的訪問記錄,以相鄰訪問發(fā)生的時間間隔是否大于30 min來進行會話識別。如果大于30 min,就可以認為該用戶在兩個訪問的中間點又開始了一個新的會話。最后得到各個會話的訪問記錄。
(4)幀頁面識別:站點常常使用由多個頁面組合而成的幀頁面。在用戶行為里,幀頁面是一個整體,而在日志文件中,幀頁面卻被分解成了多個組合頁面,這種不一致往往會對挖掘結果產(chǎn)生消極的影響。所以需要在會話識別的基礎上處理日志記錄中的組合頁面,進行幀頁面識別:順次檢查會話的訪問記錄,如果有請求網(wǎng)頁內(nèi)容含有“Frame”的標簽,則以此網(wǎng)頁組合為初始點使用幀頁面識別算法開始一個系列幀頁面的識別過程,否則認為請求網(wǎng)頁獨自構成了1個幀頁面。
(5)路徑補缺:路徑補缺的任務是處理緩存導致的請求缺失。
(6)事務識別:挖掘技術處理的粒度是用戶的一個行為,所以要進行事務識別。事務識別得到用戶的訪問事務集。
數(shù)據(jù)預處理可以改進數(shù)據(jù)的質(zhì)量,從而有助于提高其后的挖掘過程的精度和性能,因此在離線處理部分占有很大比重。
2.2 Web Mining分析
Web Mining所采用的分析技術主要有由數(shù)據(jù)挖掘技術演化而來的關聯(lián)規(guī)則、聚類技術和序列模式以及一些統(tǒng)計學知識,其處理的對象為預處理之后的文檔和事務集合,生成結果為可用于在線推薦的結果模型,模型的表示與所采用的分析技術有關。
2.3 信息的興趣度分析
興趣度分析以站點用戶的注冊信息為依據(jù),對站點文件進行分析。首先對注冊用戶進行訪問日志的分析,對其建立UP(User Profiles):
式中,di為關鍵詞集合中的元素,w(UP,di)為di關于某個用戶的權重。
然后利用內(nèi)容預處理的結果對每一個站點文件計算到各個用戶的距離,并以此作為用戶的一種興趣度度量,稱為軟興趣度知識。另外,興趣度分析也接受來自Web服務器的用戶反饋信息,根據(jù)用戶對推薦系統(tǒng)所推薦頁面的反應動作來做為用戶的另外一種興趣度度量,稱為硬興趣度知識。
2.4 在線推薦
推薦系統(tǒng)在線推薦時,使用Web Mining分析和信息興趣度分析的結果得到推薦頁面,具體推薦過程如下:
(1)使用推薦系統(tǒng)的一般方法從Web Mining分析的結果中得到要推薦的頁面。
(2)將要推薦的頁面依次和信息興趣度分析的結果進行比較。如果和硬興趣度知識發(fā)生沖突,則該頁面絕對不能推薦給用戶,如果和軟興趣度知識發(fā)生沖突,則由管理員預先制定的規(guī)則來處理。
(3)將軟興趣度知識中有較高興趣度的頁面也加入到要推薦的頁面集合中,得到最終的推薦結果。
本文的下一步工作將在如下幾個方面展開:
(1)將此工作框架應用到實踐當中,以檢驗其效率和準確度。
(2)對于度量用戶對站點文件的興趣度,希望能夠找到其他更準確合理的度量算法。
(3)希望找到將Web Mining分析和信息興趣度分析的結果綜合在一起的更好的方法。
本文簡要介紹了基于Web Mining技術的推薦系統(tǒng)及其工作流程,并指出其缺陷,同時提出了工作框架RESIK來處理這些缺陷,詳細描述了RESIK的工作流程,最后提出了下一步的工作方向。
隨著Web的飛速發(fā)展,推薦系統(tǒng)在站點和用戶之間扮演著越來越重要的角色。相信隨著技術的發(fā)展,推薦系統(tǒng)也將得到越來越廣泛的應用,更好地為Web應用服務。
參考文獻
[1] SCHAFER J B, KONSTAN J A, RIEDL J. E-commerce recommendation applications[M]. Data Mining and Knowledge Discovery, 2001.
[2] ADOMAVICIUS G, TUZHILIN A. Recommendation technologies: survey of current methods and possible extensions[R]. Working paper, Stern School of Business, New York University, New York. 2003.
[3] NAKAGAWA M, MOBASHER B. Impact of site characteristics on recommendation models based on association rules and sequential patterns[C]. IJCAI'03. 2003.
[4] MOBASHER B. WebPersonalizer: a server-side recommendation system based on Web usage Mining[R]. Technical Report #01-004, DePaul University, School of CTI, 2000.
[5] LI J, ZAIANE O R. Combining usage, content, and structure data to improve Web site recommendation[C]. EC-Web 2004,2004:305-315.
