国产精品天天狠久久久天天,自拍欧美人类综合在线,国产乱对白刺激视频

基于用戶畫像的信息智能推送方法

2016年微型機(jī)與應(yīng)用第23期

姜建武，李景文，陸妍玲，葉良松

桂林理工大學(xué) 測(cè)繪地理信息學(xué)院，廣西桂林 541004

摘要： 針對(duì)傳統(tǒng)信息推送服務(wù)由于缺少對(duì)用戶個(gè)人綜合因素的考慮，存在針對(duì)性差、推廣轉(zhuǎn)化率低的問(wèn)題，在大數(shù)據(jù)理論基礎(chǔ)上提出了一種基于用戶畫像的智能信息推送方法。該方法將用戶抽象為結(jié)構(gòu)化信息本體，通過(guò)構(gòu)建行為－主題、主題－詞匯及行為－詞匯三位一體的數(shù)學(xué)模型，研究基于用戶畫像的信息本體提取方法。采用包含對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為和重返次數(shù)六方面內(nèi)容的事件描述法計(jì)算本體權(quán)重，以此構(gòu)建用戶畫像。設(shè)計(jì)了基于用戶畫像的智能信息推送系統(tǒng)，為大數(shù)據(jù)環(huán)境下面向用戶的智能信息推送提供了一種新的方法。

關(guān)鍵詞： 用戶畫像信息推送信息本體大數(shù)據(jù)

Abstract：

Key words :

　　姜建武，李景文，陸妍玲，葉良松

　　(桂林理工大學(xué) 測(cè)繪地理信息學(xué)院，廣西桂林 541004)

摘要：針對(duì)傳統(tǒng)信息推送服務(wù)由于缺少對(duì)用戶個(gè)人綜合因素的考慮，存在針對(duì)性差、推廣轉(zhuǎn)化率低的問(wèn)題，在大數(shù)據(jù)理論基礎(chǔ)上提出了一種基于用戶畫像的智能信息推送方法。該方法將用戶抽象為結(jié)構(gòu)化信息本體，通過(guò)構(gòu)建行為－主題、主題－詞匯及行為－詞匯三位一體的數(shù)學(xué)模型，研究基于用戶畫像的信息本體提取方法。采用包含對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為和重返次數(shù)六方面內(nèi)容的事件描述法計(jì)算本體權(quán)重，以此構(gòu)建用戶畫像。設(shè)計(jì)了基于用戶畫像的智能信息推送系統(tǒng)，為大數(shù)據(jù)環(huán)境下面向用戶的智能信息推送提供了一種新的方法。

　　關(guān)鍵詞：用戶畫像；信息推送；信息本體；大數(shù)據(jù)

　　中圖分類號(hào)：TP399文獻(xiàn)標(biāo)識(shí)碼：ADOI： 10.19358/j.issn.16747720.2016.23.025

　　引用格式：姜建武，李景文，陸妍玲，等. 基于用戶畫像的信息智能推送方法［J］.微型機(jī)與應(yīng)用，2016,35（23）：86-89,92.

0引言

　　基于“用戶畫像”的信息智能推送服務(wù)已經(jīng)廣泛應(yīng)用于亞馬遜、京東、阿里、百度、百分點(diǎn)、騰訊等電商和信息服務(wù)企業(yè)，國(guó)內(nèi)外眾多學(xué)者也對(duì)其進(jìn)行了深入研究。彭藝等研究了云環(huán)境下智能推送服務(wù)在數(shù)字化教學(xué)中的應(yīng)用［1］;顏友軍研究了移動(dòng)平臺(tái)上基于本體知識(shí)庫(kù)的問(wèn)答與Web服務(wù)推送系統(tǒng)［2］;赫磊研究了基于云平臺(tái)的智慧旅游信息推送系統(tǒng)［3］;黃舒榕提出了基于JXTA的移動(dòng)智能小區(qū)信息推送服務(wù)平臺(tái)［4］;劉海等采用4C理論構(gòu)建了服裝領(lǐng)域的“用戶畫像”數(shù)據(jù)庫(kù)，并在此基礎(chǔ)上構(gòu)建了精準(zhǔn)營(yíng)銷細(xì)分模型［5］;莫靜泱構(gòu)建了B/S架構(gòu)的用戶健康消費(fèi)智能推送系統(tǒng)［6］;肖鋒等圍繞LBS服務(wù)、情景模型和智能信息推送，提出了基于位置的智能信息服務(wù)模式［78］。然而，這些研究都是傳統(tǒng)的信息推送方法，缺少對(duì)用戶的偏好、時(shí)間、購(gòu)買力等個(gè)人因素的考慮，導(dǎo)致推送信息泛濫，缺乏精準(zhǔn)性。本文研究了用戶畫像數(shù)學(xué)模型的構(gòu)建及基于用戶畫像的智能信息推送方法，通過(guò)對(duì)用戶網(wǎng)絡(luò)行為數(shù)據(jù)和個(gè)人信息數(shù)據(jù)的采集、處理，建立用戶畫像數(shù)學(xué)模型，提取信息本體、計(jì)算本體權(quán)重，構(gòu)建用戶個(gè)人信息畫像，并融入信息智能推送過(guò)程，提供面向用戶的個(gè)性化精準(zhǔn)信息推送服務(wù)。

1構(gòu)建用戶畫像數(shù)學(xué)模型

　　1.1信息本體的確定

　　用戶畫像又稱用戶角色［9］，是一種大數(shù)據(jù)環(huán)境下用戶信息標(biāo)簽化方法。信息本體是一種語(yǔ)義本體，分為靜態(tài)(如人口屬性、商業(yè)屬性等)和動(dòng)態(tài)兩類。靜態(tài)本體來(lái)自用戶注冊(cè)信息，該類本體自成標(biāo)簽，在實(shí)際提取中主要進(jìn)行數(shù)據(jù)清洗工作。動(dòng)態(tài)本體隱藏于用戶隨機(jī)互聯(lián)網(wǎng)行為中，具有隱蔽性，需通過(guò)數(shù)據(jù)分析，挖掘隱藏信息并提取本體，其提取過(guò)程如圖1所示。

圖像 001.png

　　圖1中，K表示主題集合，M表示行為集合，Nm表示第m個(gè)行為中的詞匯個(gè)數(shù)，α,β為先驗(yàn)參數(shù)。

　　動(dòng)態(tài)本體的提取分為數(shù)據(jù)預(yù)處理、行為主題建模、主題詞匯建模和行為詞匯建模四個(gè)部分，其中行為主題模型與主題詞匯模型服從Dirichlet分布，行為詞匯模型服從Multiomial分布。

　　(1)行為數(shù)據(jù)預(yù)處理

　　首先過(guò)濾用戶行為數(shù)據(jù)，去除非文本信息，且只保留行為文本中的動(dòng)詞和名詞［10］，然后求解各詞匯的TFIDF指標(biāo)，保留指標(biāo)在70%以上的詞匯，構(gòu)成動(dòng)態(tài)本體數(shù)據(jù)源。

　　其中，TF指詞項(xiàng)頻率，TFIDF指逆文檔頻率［11］，TFIDF指標(biāo)的計(jì)算公式為：

　　 QQ圖片20170106142319.png

　　式（1）中，N代表互聯(lián)網(wǎng)行為總集，ni為詞匯i出現(xiàn)過(guò)的行為集合，j為某一行為記錄，fi,j表示詞i在j中出現(xiàn)的次數(shù)［12］。

　　(2)行為主題建模

　　從參數(shù)為α的Dirichlet分布中抽取各文檔M對(duì)應(yīng)的行為主題分布模型，記為θm，則有［10］：

　　 QQ圖片20170106142322.png

　　其中整個(gè)行為庫(kù)中主題的生成概率為：

　　 QQ圖片20170106142328.png

　　(3) 主題－詞匯建模

　　從參數(shù)為β的Dirichlet分布中抽取各主題K對(duì)應(yīng)的主題－詞匯分布模型，記為φk，則：

　　 QQ圖片20170106142331.png

　　其中所有主題中詞匯生成的概率為：

　　 QQ圖片20170106142344.png

　　根據(jù)主題生成概率和詞匯生成概率得出主題詞匯的聯(lián)合分布為：

　　 QQ圖片20170106142346.png

　　(4) 行為詞匯建模

　　根據(jù)主題詞匯分布模型和行為主題分布模型，則行為m對(duì)應(yīng)的第n個(gè)詞匯的計(jì)算過(guò)程為：

　?、?從θm中采樣一個(gè)主題，記為Zm,n，則［10］：

　　 QQ圖片20170106142351.png

　?、?根據(jù)計(jì)算的主題Zm,n，從φk中取出與Zm,n對(duì)應(yīng)的特定單詞Wm,n：

　　 QQ圖片20170106142354.png

　　在以上求解過(guò)程中，Wm,n為獲取量，Zm,n為隱含量，本文采用Gibbs Sampling采樣法求解Zm,n，由于圖1中①和②兩過(guò)程均服從Dirichlet－Multiomial共軛分布，根據(jù)前述所得的聯(lián)合分布p(w,z|α,β)，并將行為Z中的第i個(gè)詞對(duì)應(yīng)的主題記為Zi，i表示去除下標(biāo)為i的詞，假設(shè)已經(jīng)觀測(cè)的詞wi=t，則有如下推導(dǎo)：

　　 QQ圖片20170106142357.png

　　mk和kt是對(duì)應(yīng)的兩個(gè)Dirichlet后驗(yàn)分布在貝葉斯框架下的參數(shù)估計(jì)，根據(jù)Dirichlet參數(shù)估計(jì)公式得［13］：

　　 QQ圖片20170106142401.png

　　根據(jù)以上兩式，得到最終行為－詞匯模型的Gibbs Sampling公式如下［13-14］：

　　 QQ圖片20170106142407.png

　　通過(guò)以上步驟，提取用戶隨機(jī)互聯(lián)網(wǎng)行為中的動(dòng)態(tài)信息本體，綜合靜態(tài)信息本體，構(gòu)成用戶畫像數(shù)學(xué)模型的label參數(shù)。label只能表示用戶的興趣偏向內(nèi)容，而無(wú)法體現(xiàn)偏向程度，需計(jì)算label權(quán)重p(i)。

　　1.2本體權(quán)重的計(jì)算

　　權(quán)重用于表示用戶對(duì)某一本體的偏向程度。靜態(tài)本體相對(duì)穩(wěn)定，權(quán)重設(shè)為1。目前，用戶畫像標(biāo)簽權(quán)重的計(jì)算主要考慮對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容4個(gè)因素，文中提出用戶隨機(jī)互聯(lián)網(wǎng)行為的對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為和重返次數(shù)6因素事件描述法，可更全面地描述用戶的隨機(jī)互聯(lián)網(wǎng)行為。采用6因素事件描述法表示的互聯(lián)網(wǎng)隨機(jī)行為動(dòng)態(tài)本體的權(quán)重計(jì)算方法如下：

　　(1) 對(duì)象

　　對(duì)象即互聯(lián)網(wǎng)上區(qū)分用戶的標(biāo)識(shí)(Cookie、IP、Email、身份證等)，不同標(biāo)識(shí)的可信度不同。對(duì)象權(quán)重為該標(biāo)識(shí)可信度值與可信度值總和的比值，即：

　　 QQ圖片20170106142410.png

　　(2) 時(shí)間

　　時(shí)間包含時(shí)間戳和時(shí)間間隔兩方面內(nèi)容。時(shí)間戳用于標(biāo)識(shí)事件發(fā)生、結(jié)束的時(shí)刻，時(shí)間間隔用于標(biāo)識(shí)瀏覽時(shí)間，則時(shí)間對(duì)動(dòng)態(tài)本體的權(quán)重T(label)記為瀏覽本體的時(shí)間與用戶所有上網(wǎng)時(shí)間的比值，即：

　　 QQ圖片20170106142414.png

　　(3) 地點(diǎn)(接觸點(diǎn))

　　地點(diǎn)是用戶互聯(lián)網(wǎng)行為的接觸點(diǎn)(天貓、官網(wǎng)等)，用戶行為接觸點(diǎn)的不同，對(duì)標(biāo)簽的影響亦不同。為不同接觸點(diǎn)設(shè)置重要程度度量值，則地點(diǎn)對(duì)本體的權(quán)重L(label)為：

　　 QQ圖片20170106142417.png

　　(4) 內(nèi)容

　　內(nèi)容是動(dòng)態(tài)本體權(quán)重的重要組成部分，標(biāo)識(shí)了一個(gè)互聯(lián)網(wǎng)行為的核心，用C(label)表示，即該動(dòng)態(tài)本體包含詞匯的最大TFIDF指標(biāo)：

　　 QQ圖片20170106142420.png

　　(5) 行為

　　行為是用戶對(duì)網(wǎng)站內(nèi)容的操作，如瀏覽、收藏等，不同的行為具有的權(quán)重不同，用A(label)表示，計(jì)算公式為：

　　 QQ圖片20170106142424.png

　　(6) 重返次數(shù)

　　重返次數(shù)體現(xiàn)了用戶對(duì)該網(wǎng)站(產(chǎn)品、內(nèi)容)的關(guān)注程度，這將在很大程度上影響該次互聯(lián)網(wǎng)行為的“有效性”。重返次數(shù)采用R(label)表示，其權(quán)重為該行為的重返次數(shù)與用戶所有瀏覽次數(shù)的比值，計(jì)算公式為：

　　 QQ圖片20170106142428.png

　　1.3用戶畫像最終數(shù)學(xué)模型

　　用戶畫像最終數(shù)學(xué)模型如式（18）所示。

　　 QQ圖片20170106142432.png

　　式中l(wèi)abeli表示某一方面用戶的信息標(biāo)簽，p(i)表示該標(biāo)簽的權(quán)重，Obj(label)、T(label)、L(label)、C(label)、 A(label)、R(label)為事件對(duì)應(yīng)六方面內(nèi)容對(duì)標(biāo)簽的權(quán)重，r為衰減因子，用來(lái)描述信息本體對(duì)某一標(biāo)簽的興趣隨著時(shí)間變化的衰減程度。

2基于用戶畫像的智能信息推送系統(tǒng)

　　推送技術(shù)的模式分為操作式推送和觸發(fā)式推送兩種［15］。基于用戶畫像的智能信息推送系統(tǒng)是操作式推送與觸發(fā)式推送的結(jié)合體，即客戶端操作觸發(fā)信息推送與服務(wù)器主動(dòng)推送二者相結(jié)合。該系統(tǒng)分為數(shù)據(jù)獲取及處理、信息本體獲取及權(quán)重計(jì)算、信息推送三個(gè)階段，具體過(guò)程如下：

　　(1) 數(shù)據(jù)獲取及處理

　　用戶基本數(shù)據(jù)(年齡、體重等)通過(guò)注冊(cè)信息獲取，該部分信息相對(duì)穩(wěn)定，為靜態(tài)信息本體(如表1所示)，權(quán)重定為1。動(dòng)態(tài)本體隱藏于用戶行為中，通過(guò)用戶互聯(lián)網(wǎng)行為抓取，實(shí)現(xiàn)電商、社交、媒體等信息的獲取。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，主要獲取網(wǎng)頁(yè)的標(biāo)題信息，過(guò)濾用戶行為中非文本信息，只保留動(dòng)詞與名詞，且只保留TFIDF指標(biāo)在70%以上的詞匯，并按照對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為五方面內(nèi)容以天為單位存儲(chǔ)至數(shù)據(jù)庫(kù)(如表2所示)。

圖像 004.png

圖像 005.png

　　(2)動(dòng)態(tài)信息本體獲取

　　通過(guò)行為主題建模、主題詞匯建模、行為詞匯建模三個(gè)過(guò)程，從用戶行為庫(kù)中挖掘動(dòng)態(tài)信息本體，提取行為主體及主題詞匯。

　　(3)動(dòng)態(tài)信息本體權(quán)重計(jì)算

　　根據(jù)對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為五個(gè)方面，依據(jù)動(dòng)態(tài)信息本體權(quán)重計(jì)算公式求解其聯(lián)合影響權(quán)重。

　　(4)用戶畫像構(gòu)建

　　根據(jù)步驟(1)、(2)、(3)所得結(jié)果，結(jié)合用戶畫像數(shù)學(xué)模型，構(gòu)建特定用戶的用戶畫像，采用非關(guān)系型數(shù)據(jù)庫(kù)MongoDB以Bson格式存儲(chǔ)。對(duì)用戶畫像做可視化處理，直觀顯示用戶偏向內(nèi)容及偏向程度，如圖2所示。

圖像 002.png

　　(5)信息推送

　　將用戶畫像中各信息本體按照權(quán)重排列，采用LBS技術(shù)定位用戶實(shí)時(shí)位置，以位置和信息本體為查詢條件，查詢信息數(shù)據(jù)庫(kù)，將查詢結(jié)果組合、排序，為用戶提供符合個(gè)人情況的智能信息，如圖3。

圖像 003.png

3結(jié)束語(yǔ)

　　本文提出的信息本體概念利于用戶描述和計(jì)算機(jī)處理，基于行為主題、主題詞匯及行為詞匯模型的信息本體提取方法和采用對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為和重返次數(shù)的聯(lián)合影響權(quán)重計(jì)算方法構(gòu)建的用戶畫像數(shù)學(xué)模型，能夠較好地描述用戶偏好。本文設(shè)計(jì)的基于用戶畫像的智能信息推送系統(tǒng)，為大數(shù)據(jù)環(huán)境下的精準(zhǔn)營(yíng)銷提供了一種新的方法。

　　參考文獻(xiàn)

　?。?］ Peng Yi .An application for digital teaching of intelligent push technology under the cloud environment［C］.International Conference on Social Science and Education,2013:398-403.

　?。?］顏友軍.移動(dòng)平臺(tái)上基于本體知識(shí)庫(kù)的問(wèn)答與Web服務(wù)推送系統(tǒng)［D］.南京:南京大學(xué),2013.

　?。?］赫磊.基于云平臺(tái)的智慧旅游信息推送系統(tǒng)研究［D］.西安:西安工業(yè)大學(xué),2014.

　?。?］黃舒榕.基于JXTA的移動(dòng)智能小區(qū)信息推送服務(wù)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)［D］.廈門:廈門大學(xué),2014.

　?。?］劉海,盧慧,阮金花,等.基于“用戶畫像”挖掘的精準(zhǔn)營(yíng)銷細(xì)分模型研究［J］.絲綢,2015,52(12):37-42.

　　［6］莫靜泱.基于數(shù)據(jù)挖掘的用戶個(gè)性化健康消費(fèi)智能推送系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)［D］.南京:南京郵電大學(xué),2015.

　?。?］肖鋒,侯岳,王留召,等.基于LBS的智能信息推送技術(shù)研究［J］.測(cè)繪與空間地理信息,2015 (6):125-127.

　?。?］肖鋒,侯岳,賈寶.情境建模下的LBS智能信息服務(wù)推送方法［J］.測(cè)繪通報(bào),2016(4):96-98.

　　［9］余孟杰.產(chǎn)品研發(fā)中用戶畫像的數(shù)據(jù)建?！獜木呦蟮匠橄螅跩］.設(shè)計(jì)藝術(shù)研究,2014，4（6）:62-64.

　　［10］何建云,陳興蜀,杜敏,等.基于改進(jìn)的在線LDA模型的主題演化分析［J］.中南大學(xué)學(xué)報(bào)（自然科學(xué)版），2015(2):547-553.

　?。?1］周品.云時(shí)代的大數(shù)據(jù)［M］.北京:電子工業(yè)出版社,2013.

　?。?2］張亮.數(shù)字圖書(shū)館多層次閱讀擴(kuò)展系統(tǒng)［D］.杭州:浙江大學(xué),2010.

　?。?3］ LDA math LDA ［EB/OL］.（2013-02-03）［2016-07-30］.https://www.baidu.com/link?url=7pX4p07QnrELNMnz Fp8w_tOVaZQjd_M_YCzHJ3K76EkWWlLdGHKTz7O0 BUQlsgOrp5zWAa87JtJ082036AWV_DTPWUPvUrK 0x9U8Wc44_&wd=&eqid=d0a6f0b80002a92f000000035672ad45.

　　［14］ GREGOR Heinrich. Parameter estimation for text analysis［R］.Darmstadt: Fraunhofer,2009:17-30.

　?。?5］石巖.基于智能推送技術(shù)的個(gè)性化服務(wù)系統(tǒng)研究［J］.現(xiàn)代情報(bào)，2006，26(10):146-148.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容