《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 設(shè)計(jì)應(yīng)用 > 基于用戶畫像的信息智能推送方法
基于用戶畫像的信息智能推送方法
2016年微型機(jī)與應(yīng)用第23期
姜建武,李景文,陸妍玲,葉良松
桂林理工大學(xué) 測(cè)繪地理信息學(xué)院,廣西 桂林 541004
摘要: 針對(duì)傳統(tǒng)信息推送服務(wù)由于缺少對(duì)用戶個(gè)人綜合因素的考慮,存在針對(duì)性差、推廣轉(zhuǎn)化率低的問(wèn)題,在大數(shù)據(jù)理論基礎(chǔ)上提出了一種基于用戶畫像的智能信息推送方法。該方法將用戶抽象為結(jié)構(gòu)化信息本體,通過(guò)構(gòu)建行為-主題、主題-詞匯及行為-詞匯三位一體的數(shù)學(xué)模型,研究基于用戶畫像的信息本體提取方法。采用包含對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為和重返次數(shù)六方面內(nèi)容的事件描述法計(jì)算本體權(quán)重,以此構(gòu)建用戶畫像。設(shè)計(jì)了基于用戶畫像的智能信息推送系統(tǒng),為大數(shù)據(jù)環(huán)境下面向用戶的智能信息推送提供了一種新的方法。
Abstract:
Key words :

  姜建武,李景文,陸妍玲,葉良松

  (桂林理工大學(xué) 測(cè)繪地理信息學(xué)院,廣西 桂林 541004)

       摘要:針對(duì)傳統(tǒng)信息推送服務(wù)由于缺少對(duì)用戶個(gè)人綜合因素的考慮,存在針對(duì)性差、推廣轉(zhuǎn)化率低的問(wèn)題,在大數(shù)據(jù)理論基礎(chǔ)上提出了一種基于用戶畫像的智能信息推送方法。該方法將用戶抽象為結(jié)構(gòu)化信息本體,通過(guò)構(gòu)建行為-主題、主題-詞匯及行為-詞匯三位一體的數(shù)學(xué)模型,研究基于用戶畫像的信息本體提取方法。采用包含對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為和重返次數(shù)六方面內(nèi)容的事件描述法計(jì)算本體權(quán)重,以此構(gòu)建用戶畫像。設(shè)計(jì)了基于用戶畫像的智能信息推送系統(tǒng),為大數(shù)據(jù)環(huán)境下面向用戶的智能信息推送提供了一種新的方法。

  關(guān)鍵詞:用戶畫像;信息推送;信息本體;大數(shù)據(jù)

  中圖分類號(hào):TP399文獻(xiàn)標(biāo)識(shí)碼:ADOI: 10.19358/j.issn.16747720.2016.23.025

  引用格式:姜建武,李景文,陸妍玲,等. 基于用戶畫像的信息智能推送方法[J].微型機(jī)與應(yīng)用,2016,35(23):86-89,92.

0引言

  基于“用戶畫像”的信息智能推送服務(wù)已經(jīng)廣泛應(yīng)用于亞馬遜、京東、阿里、百度、百分點(diǎn)、騰訊等電商和信息服務(wù)企業(yè),國(guó)內(nèi)外眾多學(xué)者也對(duì)其進(jìn)行了深入研究。彭藝等研究了云環(huán)境下智能推送服務(wù)在數(shù)字化教學(xué)中的應(yīng)用[1];顏友軍研究了移動(dòng)平臺(tái)上基于本體知識(shí)庫(kù)的問(wèn)答與Web服務(wù)推送系統(tǒng)[2];赫磊研究了基于云平臺(tái)的智慧旅游信息推送系統(tǒng)[3];黃舒榕提出了基于JXTA的移動(dòng)智能小區(qū)信息推送服務(wù)平臺(tái)[4];劉海等采用4C理論構(gòu)建了服裝領(lǐng)域的“用戶畫像”數(shù)據(jù)庫(kù),并在此基礎(chǔ)上構(gòu)建了精準(zhǔn)營(yíng)銷細(xì)分模型[5];莫靜泱構(gòu)建了B/S架構(gòu)的用戶健康消費(fèi)智能推送系統(tǒng)[6];肖鋒等圍繞LBS服務(wù)、情景模型和智能信息推送,提出了基于位置的智能信息服務(wù)模式[78]。然而,這些研究都是傳統(tǒng)的信息推送方法,缺少對(duì)用戶的偏好、時(shí)間、購(gòu)買力等個(gè)人因素的考慮,導(dǎo)致推送信息泛濫,缺乏精準(zhǔn)性。本文研究了用戶畫像數(shù)學(xué)模型的構(gòu)建及基于用戶畫像的智能信息推送方法,通過(guò)對(duì)用戶網(wǎng)絡(luò)行為數(shù)據(jù)和個(gè)人信息數(shù)據(jù)的采集、處理,建立用戶畫像數(shù)學(xué)模型,提取信息本體、計(jì)算本體權(quán)重,構(gòu)建用戶個(gè)人信息畫像,并融入信息智能推送過(guò)程,提供面向用戶的個(gè)性化精準(zhǔn)信息推送服務(wù)。

1構(gòu)建用戶畫像數(shù)學(xué)模型

  1.1信息本體的確定

  用戶畫像又稱用戶角色[9],是一種大數(shù)據(jù)環(huán)境下用戶信息標(biāo)簽化方法。信息本體是一種語(yǔ)義本體,分為靜態(tài)(如人口屬性、商業(yè)屬性等)和動(dòng)態(tài)兩類。靜態(tài)本體來(lái)自用戶注冊(cè)信息,該類本體自成標(biāo)簽,在實(shí)際提取中主要進(jìn)行數(shù)據(jù)清洗工作。動(dòng)態(tài)本體隱藏于用戶隨機(jī)互聯(lián)網(wǎng)行為中,具有隱蔽性,需通過(guò)數(shù)據(jù)分析,挖掘隱藏信息并提取本體,其提取過(guò)程如圖1所示。

圖像 001.png

  圖1中,K表示主題集合,M表示行為集合,Nm表示第m個(gè)行為中的詞匯個(gè)數(shù),α,β為先驗(yàn)參數(shù)。

  動(dòng)態(tài)本體的提取分為數(shù)據(jù)預(yù)處理、行為主題建模、主題詞匯建模和行為詞匯建模四個(gè)部分,其中行為主題模型與主題詞匯模型服從Dirichlet分布,行為詞匯模型服從Multiomial分布。

  (1)行為數(shù)據(jù)預(yù)處理

  首先過(guò)濾用戶行為數(shù)據(jù),去除非文本信息,且只保留行為文本中的動(dòng)詞和名詞[10],然后求解各詞匯的TFIDF指標(biāo),保留指標(biāo)在70%以上的詞匯,構(gòu)成動(dòng)態(tài)本體數(shù)據(jù)源。

  其中,TF指詞項(xiàng)頻率,TFIDF指逆文檔頻率[11],TFIDF指標(biāo)的計(jì)算公式為:

  QQ圖片20170106142319.png

  式(1)中,N代表互聯(lián)網(wǎng)行為總集,ni為詞匯i出現(xiàn)過(guò)的行為集合,j為某一行為記錄,fi,j表示詞i在j中出現(xiàn)的次數(shù)[12]。

  (2)行為主題建模

  從參數(shù)為α的Dirichlet分布中抽取各文檔M對(duì)應(yīng)的行為主題分布模型,記為θm,則有[10]:

  QQ圖片20170106142322.png

  其中整個(gè)行為庫(kù)中主題的生成概率為:

  QQ圖片20170106142328.png

  (3) 主題-詞匯建模

  從參數(shù)為β的Dirichlet分布中抽取各主題K對(duì)應(yīng)的主題-詞匯分布模型,記為φk,則:

  QQ圖片20170106142331.png

  其中所有主題中詞匯生成的概率為:

  QQ圖片20170106142344.png

  根據(jù)主題生成概率和詞匯生成概率得出主題詞匯的聯(lián)合分布為:

  QQ圖片20170106142346.png

  (4) 行為 詞匯建模

  根據(jù)主題 詞匯分布模型和行為主題分布模型,則行為m對(duì)應(yīng)的第n個(gè)詞匯的計(jì)算過(guò)程為:

 ?、?從θm中采樣一個(gè)主題,記為Zm,n,則 [10]:

  QQ圖片20170106142351.png

  ② 根據(jù)計(jì)算的主題Zm,n,從φk中取出與Zm,n對(duì)應(yīng)的特定單詞Wm,n:

  QQ圖片20170106142354.png

  在以上求解過(guò)程中,Wm,n為獲取量,Zm,n為隱含量,本文采用Gibbs Sampling采樣法求解Zm,n,由于圖1中①和②兩過(guò)程均服從Dirichlet-Multiomial共軛分布,根據(jù)前述所得的聯(lián)合分布p(w,z|α,β),并將行為Z中的第i個(gè)詞對(duì)應(yīng)的主題記為Zi,i表示去除下標(biāo)為i的詞,假設(shè)已經(jīng)觀測(cè)的詞wi=t,則有如下推導(dǎo):

  QQ圖片20170106142357.png

  mk和kt是對(duì)應(yīng)的兩個(gè)Dirichlet后驗(yàn)分布在貝葉斯框架下的參數(shù)估計(jì),根據(jù)Dirichlet參數(shù)估計(jì)公式得[13]:

  QQ圖片20170106142401.png

  根據(jù)以上兩式,得到最終行為-詞匯模型的Gibbs Sampling公式如下[13-14]:

  QQ圖片20170106142407.png

  通過(guò)以上步驟,提取用戶隨機(jī)互聯(lián)網(wǎng)行為中的動(dòng)態(tài)信息本體,綜合靜態(tài)信息本體,構(gòu)成用戶畫像數(shù)學(xué)模型的label參數(shù)。label只能表示用戶的興趣偏向內(nèi)容,而無(wú)法體現(xiàn)偏向程度,需計(jì)算label權(quán)重p(i)。

  1.2本體權(quán)重的計(jì)算

  權(quán)重用于表示用戶對(duì)某一本體的偏向程度。靜態(tài)本體相對(duì)穩(wěn)定,權(quán)重設(shè)為1。目前,用戶畫像標(biāo)簽權(quán)重的計(jì)算主要考慮對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容4個(gè)因素,文中提出用戶隨機(jī)互聯(lián)網(wǎng)行為的對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為和重返次數(shù)6因素事件描述法,可更全面地描述用戶的隨機(jī)互聯(lián)網(wǎng)行為。采用6因素事件描述法表示的互聯(lián)網(wǎng)隨機(jī)行為動(dòng)態(tài)本體的權(quán)重計(jì)算方法如下:

  (1) 對(duì)象

  對(duì)象即互聯(lián)網(wǎng)上區(qū)分用戶的標(biāo)識(shí)(Cookie、IP、Email、身份證等),不同標(biāo)識(shí)的可信度不同。對(duì)象權(quán)重為該標(biāo)識(shí)可信度值與可信度值總和的比值,即:

  QQ圖片20170106142410.png

  (2) 時(shí)間

  時(shí)間包含時(shí)間戳和時(shí)間間隔兩方面內(nèi)容。時(shí)間戳用于標(biāo)識(shí)事件發(fā)生、結(jié)束的時(shí)刻,時(shí)間間隔用于標(biāo)識(shí)瀏覽時(shí)間,則時(shí)間對(duì)動(dòng)態(tài)本體的權(quán)重T(label)記為瀏覽本體的時(shí)間與用戶所有上網(wǎng)時(shí)間的比值,即:

  QQ圖片20170106142414.png

  (3) 地點(diǎn)(接觸點(diǎn))

  地點(diǎn)是用戶互聯(lián)網(wǎng)行為的接觸點(diǎn)(天貓、官網(wǎng)等),用戶行為接觸點(diǎn)的不同,對(duì)標(biāo)簽的影響亦不同。為不同接觸點(diǎn)設(shè)置重要程度度量值,則地點(diǎn)對(duì)本體的權(quán)重L(label)為:

  QQ圖片20170106142417.png

  (4) 內(nèi)容

  內(nèi)容是動(dòng)態(tài)本體權(quán)重的重要組成部分,標(biāo)識(shí)了一個(gè)互聯(lián)網(wǎng)行為的核心,用C(label)表示,即該動(dòng)態(tài)本體包含詞匯的最大TFIDF指標(biāo):

  QQ圖片20170106142420.png

  (5) 行為

  行為是用戶對(duì)網(wǎng)站內(nèi)容的操作,如瀏覽、收藏等,不同的行為具有的權(quán)重不同,用A(label)表示,計(jì)算公式為:

  QQ圖片20170106142424.png

  (6) 重返次數(shù)

  重返次數(shù)體現(xiàn)了用戶對(duì)該網(wǎng)站(產(chǎn)品、內(nèi)容)的關(guān)注程度,這將在很大程度上影響該次互聯(lián)網(wǎng)行為的“有效性”。重返次數(shù)采用R(label)表示,其權(quán)重為該行為的重返次數(shù)與用戶所有瀏覽次數(shù)的比值,計(jì)算公式為:

  QQ圖片20170106142428.png

  1.3用戶畫像最終數(shù)學(xué)模型

  用戶畫像最終數(shù)學(xué)模型如式(18)所示。

  QQ圖片20170106142432.png

  式中l(wèi)abeli表示某一方面用戶的信息標(biāo)簽,p(i)表示該標(biāo)簽的權(quán)重,Obj(label)、T(label)、L(label)、C(label)、 A(label)、R(label)為事件對(duì)應(yīng)六方面內(nèi)容對(duì)標(biāo)簽的權(quán)重,r為衰減因子,用來(lái)描述信息本體對(duì)某一標(biāo)簽的興趣隨著時(shí)間變化的衰減程度。

2基于用戶畫像的智能信息推送系統(tǒng)

  推送技術(shù)的模式分為操作式推送和觸發(fā)式推送兩種[15]?;谟脩舢嬒竦闹悄苄畔⑼扑拖到y(tǒng)是操作式推送與觸發(fā)式推送的結(jié)合體,即客戶端操作觸發(fā)信息推送與服務(wù)器主動(dòng)推送二者相結(jié)合。該系統(tǒng)分為數(shù)據(jù)獲取及處理、信息本體獲取及權(quán)重計(jì)算、信息推送三個(gè)階段,具體過(guò)程如下:

  (1) 數(shù)據(jù)獲取及處理

  用戶基本數(shù)據(jù)(年齡、體重等)通過(guò)注冊(cè)信息獲取,該部分信息相對(duì)穩(wěn)定,為靜態(tài)信息本體(如表1所示),權(quán)重定為1。動(dòng)態(tài)本體隱藏于用戶行為中,通過(guò)用戶互聯(lián)網(wǎng)行為抓取,實(shí)現(xiàn)電商、社交、媒體等信息的獲取。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,主要獲取網(wǎng)頁(yè)的標(biāo)題信息,過(guò)濾用戶行為中非文本信息,只保留動(dòng)詞與名詞,且只保留TFIDF指標(biāo)在70%以上的詞匯,并按照對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為五方面內(nèi)容以天為單位存儲(chǔ)至數(shù)據(jù)庫(kù)(如表2所示)。

圖像 004.png

圖像 005.png

  (2)動(dòng)態(tài)信息本體獲取

  通過(guò)行為主題建模、主題詞匯建模、行為詞匯建模三個(gè)過(guò)程,從用戶行為庫(kù)中挖掘動(dòng)態(tài)信息本體,提取行為主體及主題詞匯。

  (3)動(dòng)態(tài)信息本體權(quán)重計(jì)算

  根據(jù)對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為五個(gè)方面,依據(jù)動(dòng)態(tài)信息本體權(quán)重計(jì)算公式求解其聯(lián)合影響權(quán)重。

  (4)用戶畫像構(gòu)建

  根據(jù)步驟(1)、(2)、(3)所得結(jié)果,結(jié)合用戶畫像數(shù)學(xué)模型,構(gòu)建特定用戶的用戶畫像,采用非關(guān)系型數(shù)據(jù)庫(kù)MongoDB以Bson格式存儲(chǔ)。對(duì)用戶畫像做可視化處理,直觀顯示用戶偏向內(nèi)容及偏向程度,如圖2所示。

圖像 002.png

  (5)信息推送

  將用戶畫像中各信息本體按照權(quán)重排列,采用LBS技術(shù)定位用戶實(shí)時(shí)位置,以位置和信息本體為查詢條件,查詢信息數(shù)據(jù)庫(kù),將查詢結(jié)果組合、排序,為用戶提供符合個(gè)人情況的智能信息,如圖3。

圖像 003.png

3結(jié)束語(yǔ)

  本文提出的信息本體概念利于用戶描述和計(jì)算機(jī)處理,基于行為主題、主題詞匯及行為詞匯模型的信息本體提取方法和采用對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為和重返次數(shù)的聯(lián)合影響權(quán)重計(jì)算方法構(gòu)建的用戶畫像數(shù)學(xué)模型,能夠較好地描述用戶偏好。本文設(shè)計(jì)的基于用戶畫像的智能信息推送系統(tǒng),為大數(shù)據(jù)環(huán)境下的精準(zhǔn)營(yíng)銷提供了一種新的方法。

  參考文獻(xiàn)

  [1] Peng Yi .An application for digital teaching of intelligent push technology under the cloud environment[C].International Conference on Social Science and Education,2013:398-403.

 ?。?] 顏友軍.移動(dòng)平臺(tái)上基于本體知識(shí)庫(kù)的問(wèn)答與Web服務(wù)推送系統(tǒng)[D].南京:南京大學(xué),2013.

 ?。?] 赫磊.基于云平臺(tái)的智慧旅游信息推送系統(tǒng)研究[D].西安:西安工業(yè)大學(xué),2014.

  [4] 黃舒榕.基于JXTA的移動(dòng)智能小區(qū)信息推送服務(wù)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D].廈門:廈門大學(xué),2014.

 ?。?] 劉海,盧慧,阮金花,等.基于“用戶畫像”挖掘的精準(zhǔn)營(yíng)銷細(xì)分模型研究[J].絲綢,2015,52(12):37-42.

 ?。?] 莫靜泱.基于數(shù)據(jù)挖掘的用戶個(gè)性化健康消費(fèi)智能推送系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].南京:南京郵電大學(xué),2015.

 ?。?] 肖鋒,侯岳,王留召,等.基于LBS的智能信息推送技術(shù)研究[J].測(cè)繪與空間地理信息,2015 (6):125-127.

  [8] 肖鋒,侯岳,賈寶.情境建模下的LBS智能信息服務(wù)推送方法[J].測(cè)繪通報(bào),2016(4):96-98.

 ?。?] 余孟杰.產(chǎn)品研發(fā)中用戶畫像的數(shù)據(jù)建?!獜木呦蟮匠橄螅跩].設(shè)計(jì)藝術(shù)研究,2014,4(6):62-64.

  [10] 何建云,陳興蜀,杜敏,等.基于改進(jìn)的在線LDA模型的主題演化分析[J].中南大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(2):547-553.

 ?。?1] 周品.云時(shí)代的大數(shù)據(jù)[M].北京:電子工業(yè)出版社,2013.

  [12] 張亮.數(shù)字圖書館多層次閱讀擴(kuò)展系統(tǒng)[D].杭州:浙江大學(xué),2010.

 ?。?3] LDA math LDA [EB/OL].(2013-02-03)[2016-07-30].https://www.baidu.com/link?url=7pX4p07QnrELNMnz Fp8w_tOVaZQjd_M_YCzHJ3K76EkWWlLdGHKTz7O0 BUQlsgOrp5zWAa87JtJ082036AWV_DTPWUPvUrK 0x9U8Wc44_&wd=&eqid=d0a6f0b80002a92f000000035672ad45.

  [14] GREGOR Heinrich. Parameter estimation for text analysis[R].Darmstadt: Fraunhofer,2009:17-30.

 ?。?5] 石巖.基于智能推送技術(shù)的個(gè)性化服務(wù)系統(tǒng)研究[J].現(xiàn)代情報(bào),2006,26(10):146-148.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。