郭楠
(同濟(jì)大學(xué) 電子與信息工程學(xué)院,上海 201800)
摘要:基于文本主題模型與眼動儀技術(shù),從主題挖掘的客觀角度與閱讀興趣的主觀角度研究文本內(nèi)容提取技術(shù)。傳統(tǒng)文本挖掘多基于文本本身內(nèi)容等客觀因素,而主觀取向的重要因素很少在文本挖掘中發(fā)揮作用。文章利用眼部追蹤技術(shù),先將眼動數(shù)據(jù)轉(zhuǎn)換為閱讀興趣等主觀結(jié)果形式,并利用LDA(Latent Dirichlet Allocation)模型對文本進(jìn)行客觀主題提取,繼而對眼部數(shù)據(jù)與主題建模結(jié)果進(jìn)行比較,提取分析主客觀因素對文本挖掘的影響。新聞數(shù)據(jù)集的眼部追蹤實驗與主題提取實驗顯示了主客觀因素對結(jié)果影響的具體差異性與相似性,未來兩者結(jié)合并調(diào)控比率可作為對文本挖掘效果提升的基本方向。
關(guān)鍵詞:文本主題建模;眼部追蹤技術(shù);文本挖掘;主題模型
中圖分類號:TP391文獻(xiàn)標(biāo)識碼:ADOI: 10.19358/j.issn.1674-7720.2017.03.023
引用格式:郭楠.文本挖掘中主客觀因素影響性的眼追蹤研究[J].微型機(jī)與應(yīng)用,2017,36(3):79-81.
0引言
文本主題建模以LDA(Latent Dirichlet Allocation)模型[1]為代表,是近年來文本挖掘領(lǐng)域的一個熱門研究方向。主題模型挖掘出的主題可以幫助理解文本背后隱藏的語義,也可以作為其他文本挖掘方法的輸入,完成文本分類、話題檢測等多方面的文本挖掘任務(wù)。然而近年來,主題建模模型的代表LDA模型的改進(jìn)與擴(kuò)展研究正面臨方法上的瓶頸,層出不窮的模型改進(jìn)算法多使用參數(shù)上調(diào)整、建模層數(shù)優(yōu)化等基本方法[2],這些改進(jìn)對于主題模型的效率、效果提高程度有限;另一方面,主題挖掘研究集中于研究文本本身內(nèi)容等客觀因素,而人類主觀取向因素很少在文本挖掘方面發(fā)揮重要作用,事實上,閱讀興趣等主觀因素對于文本挖掘有非常重要的參考價值,對主題模型本身也有極大的意義[3]。
因此針對文本挖掘、主題建模領(lǐng)域的相關(guān)研究,希望解決的相關(guān)問題就是,如何能夠在現(xiàn)有的主題建模模型基礎(chǔ)上,不僅對于不同內(nèi)容領(lǐng)域的文本本身的客觀因素能夠統(tǒng)一進(jìn)行分析挖掘,并且同時考慮人主觀閱讀規(guī)律、興趣取向因素的影響性,使得文本中所抽取的信息與知識更有價值、更有意義。
眼動儀技術(shù)可以獲得視覺信息提取過程中的生理和行為表現(xiàn),它與人的心理活動有著直接或間接的關(guān)系,能夠為主題提取與文本挖掘提供人主觀興趣取向信息[4]。本文通過對眼動儀捕獲的用戶文本閱讀數(shù)據(jù)的分析和對主題提取模型LDA的研究,比較分析主觀眼動數(shù)據(jù)結(jié)果與主題模型的挖掘結(jié)果,從主觀規(guī)律和客觀模式兩方面對文本挖掘效果進(jìn)行結(jié)果分析,對于推動未來文本挖掘領(lǐng)域建模與應(yīng)用方法的進(jìn)步,提高文本挖掘模型效果,具有一定的參考意義和應(yīng)用價值。
1文本主題提取算法
1.1LDA模型
LDA模型以一種“詞袋”假設(shè),把每個文檔當(dāng)作組成文檔的詞匯分布的向量,這樣,文檔由多個主題的概率分布所代表,而主題則由單詞的概率分布所刻畫。
它對于每個文檔的主題生成過程如下:如圖1所示的概率模型,矩形代表重復(fù)的過程,外部矩形代表一個文檔,內(nèi)部矩形則代表對于每個詞語選擇主題的重復(fù)過程,重復(fù)次數(shù)為文檔內(nèi)詞語的個數(shù)。α和β代表語料庫級的參數(shù),每進(jìn)行一次語料庫的生成都要進(jìn)行采樣化。θ則是文檔級參數(shù),每取一個文檔則進(jìn)行一次采樣化,z和w則為詞語級參數(shù),對每一個文檔的每一個詞都進(jìn)行一次采樣化。
1.2文本主題提取過程
每一個文件集合M在T主題上服從多項式分布,系數(shù)為θ。如果每個主題對于組成的詞語而言都服從多項式分布,參數(shù)記為φ。θ和φ服從Dirichlet分布,超參分別為α與β,每一個文檔d中的詞語,話題z是以多項分布θ為參數(shù)從文檔中進(jìn)行采樣的,詞語w則是以多項分布φ為參數(shù)從話題z中進(jìn)行采樣。這個生成過程重復(fù)次數(shù)為N,是文檔d中詞語的總個數(shù),形成文件D。
因此,利用該模型,有兩個參數(shù)需要從數(shù)據(jù)中推斷,即文檔的主題分布θ和主題的詞語分布φ,推斷的方式是采用Gibbs抽樣的方式來進(jìn)行模型的參數(shù)估計。θ與φ參數(shù)則可分別代表用戶文章中主題的分布情況,以及能夠刻畫該主題的詞語的分布情況。
通過LDA模型的應(yīng)用,輸入的文檔級數(shù)據(jù)可以轉(zhuǎn)化為主題分布的形式,主題數(shù)目由事先設(shè)定好的參數(shù)N來確定,最終以用戶感興趣的程度(主題分布中所占比率大小)取前N個主題輸出,以主題級數(shù)據(jù)刻畫文檔。而每個主題由組成的詞語的分布表示,詞語同樣也對應(yīng)于分布中所占比率的參數(shù)。因此,可以通過LDA獲得用戶文檔中所描述的多個主題內(nèi)容,并且抽取出描述該主題的詞語。
2基于眼動儀的閱讀興趣提取方法
通過眼動儀捕獲的實驗對象閱讀文本的視覺追蹤數(shù)據(jù),其結(jié)果形式體現(xiàn)在用戶閱讀文本的軌跡和看每個詞語的集中時間長度,圖像化結(jié)果如圖2所示,其中圓圈直徑代表對該詞語(位置)眼球集中時間長短,時間越長,直徑越大;直線代表眼球運動軌跡?!?/p>
而眼動儀的非直觀性數(shù)據(jù)形式,則以觀察文本時間內(nèi)每個捕獲視覺點的坐標(biāo)和對應(yīng)時間點的形式給出。如:(x,y),t: 0908。因此對這類數(shù)據(jù)進(jìn)行形式轉(zhuǎn)換處理,最終轉(zhuǎn)換結(jié)果應(yīng)為詞語及對應(yīng)集中時間。
2.1詞語區(qū)域統(tǒng)計
眼動儀實驗使用統(tǒng)一的圖片形式,即txt格式文本轉(zhuǎn)化為包括首行縮進(jìn)、行距等文本分布形式均相同的圖片格式。根據(jù)一致的分布形式,統(tǒng)計每篇文章每個詞語所占區(qū)域的坐標(biāo)范圍(x0x1y0 y1)。如式(1)~(4)所示。
其中,d0、D0為每行和每列第一個字符的初始x、y坐標(biāo)值;wi、Wi分別為水平與垂直方向的第i個詞的詞長和詞與詞間距長的和;K0、Q0分別為水平和垂直方向詞與詞間距長。
2.2詞語集中時間計數(shù)
根據(jù)每個詞語的坐標(biāo)區(qū)域劃分情況,對眼動數(shù)據(jù)結(jié)果文件中的坐標(biāo)與對應(yīng)時間點數(shù)據(jù)進(jìn)行統(tǒng)計,落在某個詞語坐標(biāo)區(qū)域內(nèi)的坐標(biāo)對應(yīng)的該詞語的集中時間計數(shù)加一。全部觀察時間范圍內(nèi)所有坐標(biāo)與時間點均可通過轉(zhuǎn)換關(guān)系,轉(zhuǎn)為詞語和詞語集中時間的結(jié)果形式,即實驗對象閱讀文本通過眼動儀所捕獲到的集中度和興趣規(guī)律。
通過對每個詞語集中時間的計數(shù),可以得到實驗對象對該文本中所有觀察詞語的集中時間排序結(jié)果。
3實驗結(jié)果
數(shù)據(jù)集采用BBC news的20篇文章,實驗對象為20名,每名實驗對象分別閱讀20篇新聞文章,并通過SMI眼動儀進(jìn)行眼部數(shù)據(jù)跟蹤并捕獲。文本主題建模算法應(yīng)用于同樣數(shù)據(jù)集中。如圖3所示為眼動數(shù)據(jù)實驗詞語的計數(shù)分布結(jié)果(橫軸代表各個詞語,具體內(nèi)容略);圖4所示為對于每個詞語,所有實驗對象的均值與方差變化圖,可見方差基本穩(wěn)定在0.1左右。
對LDA模型主題提取結(jié)果排序后與眼動數(shù)據(jù)結(jié)果排序后進(jìn)行比較分析,每篇文章中同一詞語的計數(shù)值比較如圖5。而圖6顯示了具體主客觀文本挖掘方法的差異性和相似性。均值的重合度以排序前30個詞語為例,基本維持在0.6左右。分析比較結(jié)果,此例中,LDA模型對文本內(nèi)容的客觀性提取有0.6的比率與人主觀興趣取向一致,而0.4比率是基于詞語頻率等內(nèi)容因素的偏向客觀性的主題內(nèi)容。
根據(jù)實驗數(shù)據(jù)結(jié)果可以看出,文本主題模型對于文本的提取結(jié)果與人的興趣行為取向存在一致性和差異性,而
通過調(diào)控主題提取結(jié)果所取的詞語比率,結(jié)合眼動數(shù)據(jù)結(jié)果中興趣部分的詞語比率,二者結(jié)合可同時反映主題內(nèi)容和閱讀興趣這兩種文本挖掘因素,對于實際文本分類、文檔摘要等文本挖掘應(yīng)用效果會有很大提升。
4結(jié)論
本文通過LDA模型進(jìn)行文檔的客觀性主題抽象,利用眼動儀提取主觀興趣取向因素結(jié)果。在News數(shù)據(jù)集上的比較分析實驗顯示了主觀因素和客觀結(jié)果對文本挖掘的具體不同影響,可以為未來主客觀因素相結(jié)合的文本挖掘算法提供一定參考與應(yīng)用價值。
參考文獻(xiàn)
?。?] BLEI D M, NG A Y,JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3):993-1022.
?。?] DU L, BUNTINE W, JIN H. Modelling sequential text with an adaptive topic model[C]. Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012:535-545.
[3] MICHELSON M, MACSKASSY S A. Discovering users’ topics of interest on twitter: a first look[C]. Proceedings of the Fourth Workshop on Analytics for Noisy Unstructured Text Data,2010:73-80.
?。?] DUCHOWSKI A T. Eye tracking methodology: theory and practice[M]. SpringerVerlag:2003.