摘 要: 不同于以往的滿意度模型中頭腦風(fēng)暴和問卷調(diào)研等手段建立指標(biāo)體系的思路,以大量掩埋和分布在各個網(wǎng)絡(luò)平臺中的評論信息為基礎(chǔ),通過文本挖掘手段分析消費者對筆記本電腦重點關(guān)注的角度和內(nèi)容,確立評價指標(biāo)體系;基于Formell模型,使用多元回歸方法,建立了筆記本電腦滿意度模型。該研究過程基于消費者的真實感受,提煉出了消費者對筆記本電腦最為關(guān)注的優(yōu)勢屬性和缺陷屬性,幫助產(chǎn)品制造商全面、準確地了解消費者的需求和心理期望。同時,滿意度模型有助于消費者和制造商對筆記本電腦的滿意度進行綜合測算、比較和選擇。
關(guān)鍵詞: 網(wǎng)絡(luò)論壇;文本挖掘;筆記本電腦;滿意度
0 引言
當(dāng)前,互聯(lián)網(wǎng)網(wǎng)站為數(shù)眾多的產(chǎn)品評論以及打分為消費者相互交流提供了平臺。這些評價內(nèi)容豐富,包含以往消費者對該產(chǎn)品的情感傾向,它們的存在將影響潛在買家所做出的購買決策。
在不受以往頭腦風(fēng)暴和傳統(tǒng)調(diào)查問卷結(jié)構(gòu)限制的環(huán)境下,從自身出發(fā)的論壇消費者評價有更強的主動性和真實性,能夠全面深入地反映消費者的真實感受。但數(shù)量眾多的評論與潛在消費者有限的時間、精力存在矛盾,容易出現(xiàn)一葉障目的問題。這些信息運用文本挖掘技術(shù)進行處理和量化之后能夠更清晰地反映出消費者對某產(chǎn)品的滿意程度和感情傾向。
本文以筆記本電腦為對象,嘗試基于網(wǎng)絡(luò)論壇文本挖掘的滿意度模型建立思路。
1 相關(guān)理論和研究
1.1 產(chǎn)品評論挖掘
產(chǎn)品評論挖掘通過對結(jié)果進行分析,用文本挖掘的方法將整理出的結(jié)果呈現(xiàn)給用戶和商家。短短幾年間,無論是在英文還是在中文領(lǐng)域,產(chǎn)品評論挖掘技術(shù)都取得了很大的進步。通過用戶隨意發(fā)表一段產(chǎn)品評論來表達對產(chǎn)品使用之后的看法,商家和購買者都可以輕易地從這些評論中獲取各自所需要的信息。
通常情況下,對產(chǎn)品評論挖掘的目的主要有兩點:一是面向該產(chǎn)品的潛在購買者,使他們能夠快速、準確、全面、及時地了解已經(jīng)購買該產(chǎn)品的消費者的真實體驗感受,減少產(chǎn)品信息搜索成本;二是面向產(chǎn)品的制造商,幫助其能夠全面、準確地了解消費者的需求和心理期望,使他們能夠有針對性地改進產(chǎn)品并且設(shè)計新產(chǎn)品。
1.2 Fomell模型
1989年,美國密歇根大學(xué)質(zhì)量研究中心的Fomell教授總結(jié)了理論研究的成果,提出了把顧客期望、購買過程中各種屬性影響等多方面因素組成了一個計量經(jīng)濟學(xué)邏輯模型,即Fomell邏輯模型。該模型是迄今為止最成熟和運用最廣泛的顧客滿意度指數(shù)理論。
1.3 相關(guān)研究現(xiàn)狀
在國外,2002年是評論挖掘開始興起的一年,TURNEY P[1]首先提出將語義傾向性應(yīng)用在非監(jiān)督的評論分類上,并設(shè)計了一個簡單的算法,即將評論分為推薦和不推薦兩類;2003年學(xué)者DAVE K、LAWRENCE S、PENNOCK D對觀點抽取和語義分類進行了系統(tǒng)研究[2];ABRAHAMS A S等人和樊衛(wèi)國教授合作在2012年利用評論挖掘進行汽車產(chǎn)品缺陷的發(fā)現(xiàn),并建立相應(yīng)的決策支持系統(tǒng)[3],在實踐中取得較好效果。
由于中文和英文的差異,中文領(lǐng)域的評論挖掘剛剛起步。2007年,評論挖掘以及句子的語義傾向性判別己經(jīng)成為很多學(xué)者的研究熱點;2011年,郗亞輝、張明等學(xué)者[4]將產(chǎn)品評論挖掘劃分為4個子任務(wù),介紹了國內(nèi)外學(xué)者對每個子任務(wù)的研究成果,并給出了該領(lǐng)域進一步的研究方向;2012年,出現(xiàn)了一些產(chǎn)品評論挖掘的研究成果,如參考文獻[5]、[6]等;2013年,結(jié)合微博的社會性特點構(gòu)建的微博產(chǎn)品評論挖掘模型[7]出現(xiàn)。
2 領(lǐng)域特征詞匯提取
2.1 筆記本電腦領(lǐng)域文本選取
讀取來自于互聯(lián)網(wǎng)的約200篇筆記本領(lǐng)域相關(guān)文本,大致為筆記本廣告和筆記本新聞,這兩類文本多為筆記本電腦公司官方或者分銷商為介紹其產(chǎn)品而對其進行的描述,因此這類文章中有大量屬性詞匯以及描述性詞匯;再者這類文本的長度一般比較長,適合統(tǒng)計詞頻,獲取筆記本電腦領(lǐng)域特有屬性詞匯,所以從以上文本中事先做出重點特征詞匯的抽取是后面研究的基礎(chǔ)。
2.2 筆記本電腦領(lǐng)域重點特征詞匯提取
領(lǐng)域內(nèi)的特殊屬性詞匯在評論中出現(xiàn)的頻率較高,表達的意思也比較重要,具體詞匯獲取辦法和步驟是:(1)把從互聯(lián)網(wǎng)上獲取的文本轉(zhuǎn)換整理為文本格式;(2)對每一個文本利用軟件ROST Content Mining進行分詞處理以及詞頻統(tǒng)計;(3)設(shè)置一個閾值,將符合條件的詞匯提取出來。
經(jīng)過提取,共有86個高頻詞匯進入筆記本領(lǐng)域產(chǎn)品屬性詞匯表,根據(jù)字母排序如表1所示。
3 筆記本電腦評論挖掘過程
3.1 挖掘?qū)ο筮x取
在進行筆記本電腦評論挖掘之前,首先要明確大部分評論的構(gòu)成要素以及所要挖掘的重點要素,這些要素直接決定了應(yīng)該關(guān)注評論中的哪些內(nèi)容。評論內(nèi)容的存在形式?jīng)Q定著最后進行數(shù)據(jù)分析時所采用的數(shù)學(xué)模型和方法。
在實際的評論挖掘工作中,默認一條完整的產(chǎn)品評論需要包含6個要素:誰、評論時間、在哪里評論、所針對的產(chǎn)品、具體針對哪個屬性和評分。所以筆記本電腦產(chǎn)品評論的抽取對象包含:(1)意見表達者(人或組織);(2)意見表達時間(包括評論的原始發(fā)表時間和評論的更新時間);(3)意見表達空間(諸如網(wǎng)絡(luò)論壇、討論組、專業(yè)評論網(wǎng)站等);(4)產(chǎn)品名稱(品牌、型號);(5)產(chǎn)品屬性;(6)評分。
3.2 筆記本電腦評論的網(wǎng)頁抓取
3.2.1 評論抓取方式和范圍
大量可用的評論意見零散地分布在各個網(wǎng)頁中,因此利用爬蟲程序識別評論信息并抓取評論網(wǎng)頁。由于筆記本電腦有較快的更新速度,不能對所有頁面都進行抓取,因此人為設(shè)定抓取時間為2012年8月至2013年3月,抓取空間為點評狂、太平洋電腦評價網(wǎng)站和中關(guān)村筆記本論壇,抓取品牌為Sony和ThinkPad。
3.2.2 數(shù)據(jù)庫設(shè)計
為抓取信息存儲,設(shè)計原始網(wǎng)頁數(shù)據(jù)庫和抽取信息數(shù)據(jù)庫。其中,原始網(wǎng)頁數(shù)據(jù)庫是網(wǎng)頁原封不動的信息存儲,而抽取信息數(shù)據(jù)庫則是用來存儲抽取之后的重要信息。抓取步驟如下:
?。?)設(shè)計原始網(wǎng)頁數(shù)據(jù)庫,包括URL、評論者、評論時間、機型、優(yōu)點、缺點、評分、價格。
?。?)在原始網(wǎng)頁數(shù)據(jù)庫基礎(chǔ)上對重點名詞和形容詞進行抽取后,存儲于抽取信息數(shù)據(jù)庫,包括了URL、評論者、評論時間、機型、優(yōu)點屬性、缺點屬性、其他、評分、價格。
?。?)根據(jù)以上兩步數(shù)據(jù)庫中存儲的信息以及筆記本電腦領(lǐng)域特殊詞匯,通過數(shù)據(jù)庫的查找篩選功能統(tǒng)計出各個詞頻。
3.3 評論挖掘結(jié)果分析
將筆記本電腦屬性作為此次評論挖掘的重要研究對象之一,在整個研究中有重要作用。通常從商家角度概括筆記本電腦性能特點及優(yōu)勢,但從消費者的個人傾向出發(fā)來看待該筆記本電腦的屬性能反映廣大消費者對該筆記本電腦的心理期望才是本文研究的重點。
為了方便研究,將筆記本電腦屬性分為內(nèi)在屬性、外在屬性和抽象屬性三類。內(nèi)在屬性包括筆記本電腦樣式、大小、重量以及硬件等性質(zhì);外在屬性包括包裝、價格、相關(guān)服務(wù)等;抽象屬性是通過使用之后由于不同消費者的不同感受而引起的,即所謂的情感傾向。
抽取的評論詞根據(jù)英文字母排序,存在大量不同的詞語表達著相同意思的情況,例如“價錢、價格、費用”和“電池、電源”。因此,將所有屬性按內(nèi)在屬性、外在屬性和抽象屬性進行重新分類,并且將內(nèi)在屬性繼續(xù)分為筆記本電腦硬件類屬性和外觀類屬性,如表2所示。
根據(jù)表2所示的筆記本電腦屬性分類進行詞頻抽取,具體原則是:對某個產(chǎn)品出現(xiàn)了哪些特征屬性,是褒還是貶,出現(xiàn)頻次分別為多少;在匯總的屬性當(dāng)中,消費者更關(guān)心哪些屬性;對于同一條評論,消費者更關(guān)心哪些屬性,消費者關(guān)注的屬性之間是否有聯(lián)系?;谝陨蠋c考慮,將86個高頻詞匯再次概括為45個具體屬性,并對出現(xiàn)頻次進行了合并統(tǒng)計,統(tǒng)計結(jié)果將在之后的頻數(shù)分析中進行詳細說明。
詞頻權(quán)值法是根據(jù)詞在文檔中出現(xiàn)的頻率來確定其重要程度的一種加權(quán)方法,即wk=fk,其中fk為特征項出現(xiàn)的詞頻。wk的計算公式如式(1)所示,其中,nt表示屬性在所有的評論中出現(xiàn)的次數(shù)。
將嚴格分類后的45個屬性進行詞頻測試,每一種屬性的具體權(quán)重如表3所示。
從表3可以看出,消費者在市面購買筆記本電腦和使用過程中,對于顯示屏和鍵盤此類屬性的關(guān)注度遠遠超過了市面上銷售人員在介紹筆記本時所用的處理器、網(wǎng)卡、內(nèi)存等屬性。對于普通消費者來說,顯示屏分辨率大小、鍵盤舒適程度以及電池的續(xù)航能力等帶有直觀感受的筆記本電腦屬性更容易影響消費者的購買傾向。與臺式機相比,筆記本電腦最大的特點就是便于攜帶,所以筆記本電腦的重量在外觀類屬性中遠遠高于設(shè)計風(fēng)格。對于外在屬性來說,用途屬性主要是以商務(wù)、辦公、游戲等形容詞為基礎(chǔ)進行統(tǒng)計,而服務(wù)質(zhì)量包括了在購買時的服務(wù)態(tài)度、售后服務(wù)是否到位等。從表3可以看出,筆記本電腦的用途、價格屬性遠遠高于其他屬性,可以反映出人們在購買筆記本電腦的過程中性價比始終是一個至關(guān)重要的影響因素。
消費者對性能方面和硬件方面的屬性關(guān)注度普遍高于一些外在屬性,說明大部分顧客還是更看重筆記本電腦的內(nèi)在品質(zhì)。在硬件屬性和外觀屬性中,前5項所占比例雖有不同,但差距并不大。相比之下,對于外在屬性,消費者似乎對于價格和用途的關(guān)注遠遠高于其他外在屬性,同時對一些直觀方面的屬性(例如電池持續(xù)能力、散熱能力以及顯示屏分辨率能力等)關(guān)注度遠遠超過一些常規(guī)屬性。畢竟對于廣大非專業(yè)消費者來說,其并不了解筆記本電腦的相關(guān)硬件知識,而市面上通常的宣傳資料以及經(jīng)銷商在為顧客講解時卻時常側(cè)重于其硬件配置等方面。通過以上頻數(shù)分析,建議銷售人員在介紹其新產(chǎn)品時關(guān)注的方向可以側(cè)重于消費者能夠直觀感受到的一些功能屬性。
4 筆記本電腦滿意度模型建立
評論中包含的屬性數(shù)量和屬性特征自然是該筆記本電腦是否符合消費者心理的一個重要因素,評價屬性數(shù)量尤其是優(yōu)勢屬性數(shù)越多,表明該產(chǎn)品的滿意度越高。再者,通過消費者對于不同屬性的關(guān)注度的區(qū)別,不同屬性對于影響筆記本電腦滿意度的權(quán)重也勢必不同。
Formell模型主要是通過顧客對質(zhì)量、價值的感知,顧客忠誠,顧客抱怨進行多元回歸分析。而根據(jù)實際研究情況,本文選擇了直接將所有感受即所收集的評價分為優(yōu)點和缺點,利用優(yōu)缺點出現(xiàn)的次數(shù)和相應(yīng)評分的回歸模型與第一部分中相關(guān)屬性在整個評價中所占權(quán)重建立筆記本電腦滿意度模型。
首先進行優(yōu)勢屬性回歸。如表4所示,首先提取出根據(jù)權(quán)值模型計算出的整個評價中權(quán)值最大的10個屬性;然后根據(jù)所抽取的評價信息,如果該評價中出現(xiàn)了首行所示的屬性,則記為1,否則為0;之后在最后一列中提取出該評價的評論者在網(wǎng)上或論壇上所給出的評分。在做滿意度評價時,統(tǒng)一把評分設(shè)定成以10為標(biāo)準。根據(jù)以上規(guī)則整理好評價,進行評分以及各屬性的回歸分析,如表5所示。
筆記本電腦優(yōu)點滿意度回歸=4.28+1.46×重量+1.00×外觀+0.88×散熱+0.58×鍵盤+0.89×屏幕+1.04×顏色+2.28×開機+1.29×價格+1.37×電池+1.70×系統(tǒng)。
根據(jù)之前的分析得出,每一種筆記本電腦優(yōu)勢屬性的權(quán)重有著很大的差別,從而在進行優(yōu)點回歸之后乘以相應(yīng)的屬性權(quán)值即為優(yōu)點回歸模型,記為:
同理,用相同的方法可以得到筆記本電腦缺陷模型。首先根據(jù)權(quán)重評價模型中對出現(xiàn)的筆記本電腦缺點的統(tǒng)計,抽取出12個出現(xiàn)頻數(shù)較高的屬性并做出布爾統(tǒng)計矩陣,結(jié)果如表6所示。
之后利用評分以及屬性進行回歸分析得出回歸分析系數(shù),結(jié)果如表7所示。
從而得出消費者對于筆記本電腦缺陷的抱怨程度模型= -(8.13+0.58×電池+1.61×開機+0.32×散熱+1.35×系統(tǒng)+0.80×屏幕+0.65×硬盤+0.41×價格+0.39×鍵盤+1.62×接口+1.21×速度+1.29×聲音+0.89×自帶軟件)
從標(biāo)準回歸方程可以看出,影響筆記本電腦顧客滿意度的因素即為筆記本電腦的重點屬性,包括由筆記本硬件屬性、內(nèi)在外在屬性以及它們每種屬性在之前詞頻模型中所占的權(quán)重。
5 結(jié)論
本文基于產(chǎn)品評論挖掘理論、Fomell模型,使用文本挖掘、多元回歸、數(shù)據(jù)庫等方法和技術(shù),完成了筆記本電腦領(lǐng)域特征詞匯的提取、產(chǎn)品評論的挖掘、滿意度評價模型的建立三項工作。本文研究思路不同于以往的頭腦風(fēng)暴、問卷調(diào)研、AHP等建立評價指標(biāo)體系的思路,充分利用了網(wǎng)絡(luò)論壇上豐富的消費者評論信息,提取和挖掘消費者最真實的產(chǎn)品使用體驗來建立指標(biāo)體系和滿意度模型,研究成果對消費者和產(chǎn)品制造商有參考借鑒意義。
參考文獻
[1] TURNEY P. Thumbs up or thumbs down semantic orientation applied to unsupervised classification of reviews[J]. Proceedings of the Association of Computational Linguistics(ACL02), Philadelphia, 2002: 417-424.
[2] DAVE K, LAWRENCE S, PENNOCK D M. Mining the peanut gallery: opinion extraction and semantic classification of product reviews[C]. Proceedings of the 12th International Conference on World Wide Web, New York, 2003:519-528.
[3] ABRAHAMS A S, Jiao Jian, WANG G A, et al. Vehicle defect discovery from social media[J]. Decision Support Systems, 2012(54): 87-97.
[4] 郗亞輝,張明,袁方,等.產(chǎn)品評論挖掘研究綜述[J].山東大學(xué)學(xué)報(理學(xué)版),2011,46(5):16-23,38.
[5] 易力,王麗亞.基于觀點挖掘的產(chǎn)品可用性建模與評價[J].計算機工程,2012,38(16):270-274.
[6] 李芳,何婷婷,宋樂,等.評價主題挖掘及其傾向性識別[J].計算機科學(xué),2012,39(6):159-162.
[7] 唐曉波,王洪艷.微博產(chǎn)品評論挖掘模型研究[J].情報雜志,2013,32(2):107-111,127.