姜建武,李景文,陸妍玲,葉良松
(桂林理工大學(xué) 測(cè)繪地理信息學(xué)院,廣西 桂林 541004)
摘要:針對(duì)傳統(tǒng)信息推送服務(wù)由于缺少對(duì)用戶個(gè)人綜合因素的考慮,存在針對(duì)性差、推廣轉(zhuǎn)化率低的問(wèn)題,在大數(shù)據(jù)理論基礎(chǔ)上提出了一種基于用戶畫像的智能信息推送方法。該方法將用戶抽象為結(jié)構(gòu)化信息本體,通過(guò)構(gòu)建行為-主題、主題-詞匯及行為-詞匯三位一體的數(shù)學(xué)模型,研究基于用戶畫像的信息本體提取方法。采用包含對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為和重返次數(shù)六方面內(nèi)容的事件描述法計(jì)算本體權(quán)重,以此構(gòu)建用戶畫像。設(shè)計(jì)了基于用戶畫像的智能信息推送系統(tǒng),為大數(shù)據(jù)環(huán)境下面向用戶的智能信息推送提供了一種新的方法。
關(guān)鍵詞:用戶畫像;信息推送;信息本體;大數(shù)據(jù)
中圖分類號(hào):TP399文獻(xiàn)標(biāo)識(shí)碼:ADOI: 10.19358/j.issn.16747720.2016.23.025
引用格式:姜建武,李景文,陸妍玲,等. 基于用戶畫像的信息智能推送方法[J].微型機(jī)與應(yīng)用,2016,35(23):86-89,92.
0引言
基于“用戶畫像”的信息智能推送服務(wù)已經(jīng)廣泛應(yīng)用于亞馬遜、京東、阿里、百度、百分點(diǎn)、騰訊等電商和信息服務(wù)企業(yè),國(guó)內(nèi)外眾多學(xué)者也對(duì)其進(jìn)行了深入研究。彭藝等研究了云環(huán)境下智能推送服務(wù)在數(shù)字化教學(xué)中的應(yīng)用[1];顏友軍研究了移動(dòng)平臺(tái)上基于本體知識(shí)庫(kù)的問(wèn)答與Web服務(wù)推送系統(tǒng)[2];赫磊研究了基于云平臺(tái)的智慧旅游信息推送系統(tǒng)[3];黃舒榕提出了基于JXTA的移動(dòng)智能小區(qū)信息推送服務(wù)平臺(tái)[4];劉海等采用4C理論構(gòu)建了服裝領(lǐng)域的“用戶畫像”數(shù)據(jù)庫(kù),并在此基礎(chǔ)上構(gòu)建了精準(zhǔn)營(yíng)銷細(xì)分模型[5];莫靜泱構(gòu)建了B/S架構(gòu)的用戶健康消費(fèi)智能推送系統(tǒng)[6];肖鋒等圍繞LBS服務(wù)、情景模型和智能信息推送,提出了基于位置的智能信息服務(wù)模式[78]。然而,這些研究都是傳統(tǒng)的信息推送方法,缺少對(duì)用戶的偏好、時(shí)間、購(gòu)買力等個(gè)人因素的考慮,導(dǎo)致推送信息泛濫,缺乏精準(zhǔn)性。本文研究了用戶畫像數(shù)學(xué)模型的構(gòu)建及基于用戶畫像的智能信息推送方法,通過(guò)對(duì)用戶網(wǎng)絡(luò)行為數(shù)據(jù)和個(gè)人信息數(shù)據(jù)的采集、處理,建立用戶畫像數(shù)學(xué)模型,提取信息本體、計(jì)算本體權(quán)重,構(gòu)建用戶個(gè)人信息畫像,并融入信息智能推送過(guò)程,提供面向用戶的個(gè)性化精準(zhǔn)信息推送服務(wù)。
1構(gòu)建用戶畫像數(shù)學(xué)模型
1.1信息本體的確定
用戶畫像又稱用戶角色[9],是一種大數(shù)據(jù)環(huán)境下用戶信息標(biāo)簽化方法。信息本體是一種語(yǔ)義本體,分為靜態(tài)(如人口屬性、商業(yè)屬性等)和動(dòng)態(tài)兩類。靜態(tài)本體來(lái)自用戶注冊(cè)信息,該類本體自成標(biāo)簽,在實(shí)際提取中主要進(jìn)行數(shù)據(jù)清洗工作。動(dòng)態(tài)本體隱藏于用戶隨機(jī)互聯(lián)網(wǎng)行為中,具有隱蔽性,需通過(guò)數(shù)據(jù)分析,挖掘隱藏信息并提取本體,其提取過(guò)程如圖1所示。
圖1中,K表示主題集合,M表示行為集合,Nm表示第m個(gè)行為中的詞匯個(gè)數(shù),α,β為先驗(yàn)參數(shù)。
動(dòng)態(tài)本體的提取分為數(shù)據(jù)預(yù)處理、行為主題建模、主題詞匯建模和行為詞匯建模四個(gè)部分,其中行為主題模型與主題詞匯模型服從Dirichlet分布,行為詞匯模型服從Multiomial分布。
(1)行為數(shù)據(jù)預(yù)處理
首先過(guò)濾用戶行為數(shù)據(jù),去除非文本信息,且只保留行為文本中的動(dòng)詞和名詞[10],然后求解各詞匯的TFIDF指標(biāo),保留指標(biāo)在70%以上的詞匯,構(gòu)成動(dòng)態(tài)本體數(shù)據(jù)源。
其中,TF指詞項(xiàng)頻率,TFIDF指逆文檔頻率[11],TFIDF指標(biāo)的計(jì)算公式為:
式(1)中,N代表互聯(lián)網(wǎng)行為總集,ni為詞匯i出現(xiàn)過(guò)的行為集合,j為某一行為記錄,fi,j表示詞i在j中出現(xiàn)的次數(shù)[12]。
(2)行為主題建模
從參數(shù)為α的Dirichlet分布中抽取各文檔M對(duì)應(yīng)的行為主題分布模型,記為θm,則有[10]:
其中整個(gè)行為庫(kù)中主題的生成概率為:
(3) 主題-詞匯建模
從參數(shù)為β的Dirichlet分布中抽取各主題K對(duì)應(yīng)的主題-詞匯分布模型,記為φk,則:
其中所有主題中詞匯生成的概率為:
根據(jù)主題生成概率和詞匯生成概率得出主題詞匯的聯(lián)合分布為:
(4) 行為 詞匯建模
根據(jù)主題 詞匯分布模型和行為主題分布模型,則行為m對(duì)應(yīng)的第n個(gè)詞匯的計(jì)算過(guò)程為:
?、?從θm中采樣一個(gè)主題,記為Zm,n,則 [10]:
② 根據(jù)計(jì)算的主題Zm,n,從φk中取出與Zm,n對(duì)應(yīng)的特定單詞Wm,n:
在以上求解過(guò)程中,Wm,n為獲取量,Zm,n為隱含量,本文采用Gibbs Sampling采樣法求解Zm,n,由于圖1中①和②兩過(guò)程均服從Dirichlet-Multiomial共軛分布,根據(jù)前述所得的聯(lián)合分布p(w,z|α,β),并將行為Z中的第i個(gè)詞對(duì)應(yīng)的主題記為Zi,i表示去除下標(biāo)為i的詞,假設(shè)已經(jīng)觀測(cè)的詞wi=t,則有如下推導(dǎo):
mk和kt是對(duì)應(yīng)的兩個(gè)Dirichlet后驗(yàn)分布在貝葉斯框架下的參數(shù)估計(jì),根據(jù)Dirichlet參數(shù)估計(jì)公式得[13]:
根據(jù)以上兩式,得到最終行為-詞匯模型的Gibbs Sampling公式如下[13-14]:
通過(guò)以上步驟,提取用戶隨機(jī)互聯(lián)網(wǎng)行為中的動(dòng)態(tài)信息本體,綜合靜態(tài)信息本體,構(gòu)成用戶畫像數(shù)學(xué)模型的label參數(shù)。label只能表示用戶的興趣偏向內(nèi)容,而無(wú)法體現(xiàn)偏向程度,需計(jì)算label權(quán)重p(i)。
1.2本體權(quán)重的計(jì)算
權(quán)重用于表示用戶對(duì)某一本體的偏向程度。靜態(tài)本體相對(duì)穩(wěn)定,權(quán)重設(shè)為1。目前,用戶畫像標(biāo)簽權(quán)重的計(jì)算主要考慮對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容4個(gè)因素,文中提出用戶隨機(jī)互聯(lián)網(wǎng)行為的對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為和重返次數(shù)6因素事件描述法,可更全面地描述用戶的隨機(jī)互聯(lián)網(wǎng)行為。采用6因素事件描述法表示的互聯(lián)網(wǎng)隨機(jī)行為動(dòng)態(tài)本體的權(quán)重計(jì)算方法如下:
(1) 對(duì)象
對(duì)象即互聯(lián)網(wǎng)上區(qū)分用戶的標(biāo)識(shí)(Cookie、IP、Email、身份證等),不同標(biāo)識(shí)的可信度不同。對(duì)象權(quán)重為該標(biāo)識(shí)可信度值與可信度值總和的比值,即:
(2) 時(shí)間
時(shí)間包含時(shí)間戳和時(shí)間間隔兩方面內(nèi)容。時(shí)間戳用于標(biāo)識(shí)事件發(fā)生、結(jié)束的時(shí)刻,時(shí)間間隔用于標(biāo)識(shí)瀏覽時(shí)間,則時(shí)間對(duì)動(dòng)態(tài)本體的權(quán)重T(label)記為瀏覽本體的時(shí)間與用戶所有上網(wǎng)時(shí)間的比值,即:
(3) 地點(diǎn)(接觸點(diǎn))
地點(diǎn)是用戶互聯(lián)網(wǎng)行為的接觸點(diǎn)(天貓、官網(wǎng)等),用戶行為接觸點(diǎn)的不同,對(duì)標(biāo)簽的影響亦不同。為不同接觸點(diǎn)設(shè)置重要程度度量值,則地點(diǎn)對(duì)本體的權(quán)重L(label)為:
(4) 內(nèi)容
內(nèi)容是動(dòng)態(tài)本體權(quán)重的重要組成部分,標(biāo)識(shí)了一個(gè)互聯(lián)網(wǎng)行為的核心,用C(label)表示,即該動(dòng)態(tài)本體包含詞匯的最大TFIDF指標(biāo):
(5) 行為
行為是用戶對(duì)網(wǎng)站內(nèi)容的操作,如瀏覽、收藏等,不同的行為具有的權(quán)重不同,用A(label)表示,計(jì)算公式為:
(6) 重返次數(shù)
重返次數(shù)體現(xiàn)了用戶對(duì)該網(wǎng)站(產(chǎn)品、內(nèi)容)的關(guān)注程度,這將在很大程度上影響該次互聯(lián)網(wǎng)行為的“有效性”。重返次數(shù)采用R(label)表示,其權(quán)重為該行為的重返次數(shù)與用戶所有瀏覽次數(shù)的比值,計(jì)算公式為:
1.3用戶畫像最終數(shù)學(xué)模型
用戶畫像最終數(shù)學(xué)模型如式(18)所示。
式中l(wèi)abeli表示某一方面用戶的信息標(biāo)簽,p(i)表示該標(biāo)簽的權(quán)重,Obj(label)、T(label)、L(label)、C(label)、 A(label)、R(label)為事件對(duì)應(yīng)六方面內(nèi)容對(duì)標(biāo)簽的權(quán)重,r為衰減因子,用來(lái)描述信息本體對(duì)某一標(biāo)簽的興趣隨著時(shí)間變化的衰減程度。
2基于用戶畫像的智能信息推送系統(tǒng)
推送技術(shù)的模式分為操作式推送和觸發(fā)式推送兩種[15]?;谟脩舢嬒竦闹悄苄畔⑼扑拖到y(tǒng)是操作式推送與觸發(fā)式推送的結(jié)合體,即客戶端操作觸發(fā)信息推送與服務(wù)器主動(dòng)推送二者相結(jié)合。該系統(tǒng)分為數(shù)據(jù)獲取及處理、信息本體獲取及權(quán)重計(jì)算、信息推送三個(gè)階段,具體過(guò)程如下:
(1) 數(shù)據(jù)獲取及處理
用戶基本數(shù)據(jù)(年齡、體重等)通過(guò)注冊(cè)信息獲取,該部分信息相對(duì)穩(wěn)定,為靜態(tài)信息本體(如表1所示),權(quán)重定為1。動(dòng)態(tài)本體隱藏于用戶行為中,通過(guò)用戶互聯(lián)網(wǎng)行為抓取,實(shí)現(xiàn)電商、社交、媒體等信息的獲取。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,主要獲取網(wǎng)頁(yè)的標(biāo)題信息,過(guò)濾用戶行為中非文本信息,只保留動(dòng)詞與名詞,且只保留TFIDF指標(biāo)在70%以上的詞匯,并按照對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為五方面內(nèi)容以天為單位存儲(chǔ)至數(shù)據(jù)庫(kù)(如表2所示)。
(2)動(dòng)態(tài)信息本體獲取
通過(guò)行為主題建模、主題詞匯建模、行為詞匯建模三個(gè)過(guò)程,從用戶行為庫(kù)中挖掘動(dòng)態(tài)信息本體,提取行為主體及主題詞匯。
(3)動(dòng)態(tài)信息本體權(quán)重計(jì)算
根據(jù)對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為五個(gè)方面,依據(jù)動(dòng)態(tài)信息本體權(quán)重計(jì)算公式求解其聯(lián)合影響權(quán)重。
(4)用戶畫像構(gòu)建
根據(jù)步驟(1)、(2)、(3)所得結(jié)果,結(jié)合用戶畫像數(shù)學(xué)模型,構(gòu)建特定用戶的用戶畫像,采用非關(guān)系型數(shù)據(jù)庫(kù)MongoDB以Bson格式存儲(chǔ)。對(duì)用戶畫像做可視化處理,直觀顯示用戶偏向內(nèi)容及偏向程度,如圖2所示。
(5)信息推送
將用戶畫像中各信息本體按照權(quán)重排列,采用LBS技術(shù)定位用戶實(shí)時(shí)位置,以位置和信息本體為查詢條件,查詢信息數(shù)據(jù)庫(kù),將查詢結(jié)果組合、排序,為用戶提供符合個(gè)人情況的智能信息,如圖3。
3結(jié)束語(yǔ)
本文提出的信息本體概念利于用戶描述和計(jì)算機(jī)處理,基于行為主題、主題詞匯及行為詞匯模型的信息本體提取方法和采用對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為和重返次數(shù)的聯(lián)合影響權(quán)重計(jì)算方法構(gòu)建的用戶畫像數(shù)學(xué)模型,能夠較好地描述用戶偏好。本文設(shè)計(jì)的基于用戶畫像的智能信息推送系統(tǒng),為大數(shù)據(jù)環(huán)境下的精準(zhǔn)營(yíng)銷提供了一種新的方法。
參考文獻(xiàn)
[1] Peng Yi .An application for digital teaching of intelligent push technology under the cloud environment[C].International Conference on Social Science and Education,2013:398-403.
?。?] 顏友軍.移動(dòng)平臺(tái)上基于本體知識(shí)庫(kù)的問(wèn)答與Web服務(wù)推送系統(tǒng)[D].南京:南京大學(xué),2013.
?。?] 赫磊.基于云平臺(tái)的智慧旅游信息推送系統(tǒng)研究[D].西安:西安工業(yè)大學(xué),2014.
[4] 黃舒榕.基于JXTA的移動(dòng)智能小區(qū)信息推送服務(wù)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D].廈門:廈門大學(xué),2014.
?。?] 劉海,盧慧,阮金花,等.基于“用戶畫像”挖掘的精準(zhǔn)營(yíng)銷細(xì)分模型研究[J].絲綢,2015,52(12):37-42.
?。?] 莫靜泱.基于數(shù)據(jù)挖掘的用戶個(gè)性化健康消費(fèi)智能推送系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].南京:南京郵電大學(xué),2015.
?。?] 肖鋒,侯岳,王留召,等.基于LBS的智能信息推送技術(shù)研究[J].測(cè)繪與空間地理信息,2015 (6):125-127.
[8] 肖鋒,侯岳,賈寶.情境建模下的LBS智能信息服務(wù)推送方法[J].測(cè)繪通報(bào),2016(4):96-98.
?。?] 余孟杰.產(chǎn)品研發(fā)中用戶畫像的數(shù)據(jù)建?!獜木呦蟮匠橄螅跩].設(shè)計(jì)藝術(shù)研究,2014,4(6):62-64.
[10] 何建云,陳興蜀,杜敏,等.基于改進(jìn)的在線LDA模型的主題演化分析[J].中南大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(2):547-553.
?。?1] 周品.云時(shí)代的大數(shù)據(jù)[M].北京:電子工業(yè)出版社,2013.
[12] 張亮.數(shù)字圖書館多層次閱讀擴(kuò)展系統(tǒng)[D].杭州:浙江大學(xué),2010.
?。?3] LDA math LDA [EB/OL].(2013-02-03)[2016-07-30].https://www.baidu.com/link?url=7pX4p07QnrELNMnz Fp8w_tOVaZQjd_M_YCzHJ3K76EkWWlLdGHKTz7O0 BUQlsgOrp5zWAa87JtJ082036AWV_DTPWUPvUrK 0x9U8Wc44_&wd=&eqid=d0a6f0b80002a92f000000035672ad45.
[14] GREGOR Heinrich. Parameter estimation for text analysis[R].Darmstadt: Fraunhofer,2009:17-30.
?。?5] 石巖.基于智能推送技術(shù)的個(gè)性化服務(wù)系統(tǒng)研究[J].現(xiàn)代情報(bào),2006,26(10):146-148.