摘 要: 受心理學(xué)激活-擴(kuò)散模型的啟發(fā),提出了在領(lǐng)域本體基礎(chǔ)上的用戶認(rèn)知結(jié)構(gòu)模型。該模型依據(jù)用戶提供的認(rèn)知中心,一方面,根據(jù)領(lǐng)域本體中概念之間的語義相關(guān)性推導(dǎo)出用戶的認(rèn)知范圍;另一方面,根據(jù)概念之間的語義相關(guān)度刻畫出用戶的認(rèn)知深度。從認(rèn)知范圍和認(rèn)知深度兩方面,描述用戶對某領(lǐng)域知識的認(rèn)知結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,該模型與通用本體模型相比,具有較高的查準(zhǔn)率。
關(guān)鍵詞: 認(rèn)知結(jié)構(gòu);激活擴(kuò)散模型;認(rèn)知廣度;認(rèn)知深度;個性化檢索
隨著信息的急劇膨脹,人們希望借助信息檢索工具如搜索引擎來獲取自己需要的信息顯得尤為迫切。然而,傳統(tǒng)的基于關(guān)鍵詞匹配的信息檢索技術(shù)往往只是得到“千人一面”的檢索結(jié)果,難以理解用戶檢索目的和區(qū)別用戶的需求。造成這種情況的主要原因有兩方面:一是當(dāng)前的互聯(lián)網(wǎng)不能恰當(dāng)?shù)奶幚碚Z義;二是缺乏對用戶的理解。針對第一個原因,Tim Berners-Lee提出了語義Web(Semantic Web)的概念[1]。其引入了以本體(Ontology)來表示概念和語義關(guān)聯(lián)信息這一思想,來實(shí)現(xiàn)不同系統(tǒng)之間的信息共享,提高網(wǎng)絡(luò)服務(wù)的智能化與自動化。語義Web通過把當(dāng)前Web上無序的信息變?yōu)橛行虻闹R,為解決數(shù)據(jù)管理有序性與Web上信息無序性相矛盾,搜索引擎的查全查準(zhǔn)要求與數(shù)據(jù)缺乏語義相矛盾等問題指明了方向[2]。針對第二個原因,許多學(xué)者引入了用戶上下文信息,如用戶工作內(nèi)容、專業(yè)背景、興趣、愛好、生活習(xí)慣、經(jīng)驗(yàn)、點(diǎn)擊反饋、用戶認(rèn)知(Cognition)、理解水平等因素都屬于用戶上下文信息。這些上下文信息都是理解用戶個性化需求的關(guān)鍵信息。
隨著語義Web的研究,人們紛紛在本體的基礎(chǔ)上對上下文信息進(jìn)行分析和描述[3],這些研究具有以下特點(diǎn):
(1)研究對象僅僅只是用戶的興趣,缺乏從多角度對用戶個性化需求,如理解水平、認(rèn)知結(jié)構(gòu)等的理解和挖掘。
(2)分析只是集中于利用上下語義關(guān)系,缺乏精確的分析和表示。這些研究工作大都基于WordNet、dmoz ODP(Open Directory Project)之類的通用本體,只在概念間的父子關(guān)系基礎(chǔ)上進(jìn)行分析,而不能從細(xì)粒度上對用戶的興趣進(jìn)行精確分析和表示。
(3)研究方法多集中在定性的分析,缺乏定量分析和描述。這些研究大部分從父子語義關(guān)系入手來描述用戶興趣范圍,缺乏對用戶興趣深度的描述和表示。如文獻(xiàn)[4]的正例/反例擴(kuò)展向量和文獻(xiàn)[5]中的個性化層次樹,只要描述的關(guān)鍵詞相同,那么用戶的個性化模型也必然相同。
心理學(xué)上認(rèn)為,人們的興趣、認(rèn)識和情感密切聯(lián)系。認(rèn)識越深刻,情感就越豐富,興趣也就越濃厚。用戶的愛好、理解水平、表達(dá)等都和用戶認(rèn)知結(jié)構(gòu)緊密相關(guān)[6]。因此,從用戶的認(rèn)知結(jié)構(gòu)入手可以更好地理解用戶的個性化需求。尤其在專業(yè)領(lǐng)域范圍內(nèi),用戶的檢索目標(biāo)往往和自身在該領(lǐng)域的認(rèn)知結(jié)構(gòu)相適應(yīng)。
受認(rèn)知心理學(xué)上激活-擴(kuò)散模型(spreading-activation model)的啟發(fā),本文提出了一種基于領(lǐng)域本體來描述用戶認(rèn)知結(jié)構(gòu)的模型ObSAM(Ontology based Spreading-Activation Model)。激活-擴(kuò)散模型是認(rèn)知心理學(xué)領(lǐng)域里一種表征個體知識的模型,它認(rèn)為個體內(nèi)部知識不是按照層次組織的,而是根據(jù)概念間的語義關(guān)系或者語義之間的距離來組織和表示的。當(dāng)概念在用戶大腦里出現(xiàn)時,用戶語義記憶中相對應(yīng)的概念節(jié)點(diǎn)會被激活,被激活了的概念節(jié)點(diǎn)就開始擴(kuò)散到其他的概念上,尤其會擴(kuò)散到那些在語義上有緊密聯(lián)系的概念。根據(jù)這個模型,本文提出了用戶認(rèn)知結(jié)構(gòu)模型,依據(jù)用戶給出的認(rèn)知中心概念,一方面,根據(jù)領(lǐng)域本體中概念之間的語義相關(guān)性推導(dǎo)出用戶認(rèn)知范圍;另一方面,通過概念之間的語義相關(guān)度刻畫出用戶認(rèn)知深度,從這兩個方面描述用戶對某領(lǐng)域知識的認(rèn)知結(jié)構(gòu)。
1 激活-擴(kuò)散模型
1968年Quillian提出了最早的語義記憶模型。在這個模型中,他用type來描述概念,用token描述詞語,用帶有標(biāo)簽說明的激活擴(kuò)散行為來描述兩個節(jié)點(diǎn)之間關(guān)聯(lián)時涉及到的中間節(jié)點(diǎn)。1975年Collins和Loftus最早提出了激活-擴(kuò)散模型。他們認(rèn)為個體內(nèi)部知識不是按層次組織的,而是根據(jù)語義關(guān)系或語義之間的距離來組織和表示的,并提出了描述人類認(rèn)知的激活-擴(kuò)散模型。
激活-擴(kuò)散模型認(rèn)為,個體頭腦里所存儲的知識是一種組織巨大的概念網(wǎng)絡(luò),概念之間是通過語義關(guān)系相關(guān)聯(lián)。激活-擴(kuò)散模型有兩個關(guān)于知識結(jié)構(gòu)的假設(shè):(1)連接節(jié)點(diǎn)的線段表示概念之間的聯(lián)系,連線越短,表明兩個概念之間的聯(lián)系越緊密;(2)語義的距離是知識組織的基本原則,即概念的內(nèi)涵是由它相關(guān)聯(lián)的其他概念,特別是聯(lián)系密切的概念來確定的。它認(rèn)為,當(dāng)概念出現(xiàn)時,認(rèn)知中相應(yīng)的概念節(jié)點(diǎn)會被激活,被激活了的概念節(jié)點(diǎn)就開始擴(kuò)散到其他的概念,特別是那些在語義上有緊密聯(lián)系的概念。而激活-擴(kuò)散的遠(yuǎn)近主要由以下因素決定:最初被激活節(jié)點(diǎn)的激活強(qiáng)度、從最初被激活的節(jié)點(diǎn)到目前節(jié)點(diǎn)的語義距離、擴(kuò)散時間等。
20世紀(jì)80年代,激活-擴(kuò)散模型已經(jīng)被應(yīng)用到信息檢索領(lǐng)域,主要運(yùn)用在文檔和詞匯查詢過程中用以擴(kuò)展詞匯和文檔集。F.Crestani曾經(jīng)綜述了激活-擴(kuò)散模型在信息檢索領(lǐng)域中的應(yīng)用,指出了激活-擴(kuò)散模型中典型的四點(diǎn)約束:扇出約束、路徑約束、距離約束以及激活約束。本文試圖在信息檢索領(lǐng)域直接按照激活-擴(kuò)散模型的本意來描述用戶的認(rèn)知結(jié)構(gòu),并把它應(yīng)用到個性化信息檢索中。


3 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)設(shè)置
為了表現(xiàn)出在領(lǐng)域本體上構(gòu)建模型ObSAM比通用本體有優(yōu)勢,實(shí)驗(yàn)中采用了2個本體進(jìn)行對比,一個是通用本體WordNet,另一個是經(jīng)濟(jì)學(xué)領(lǐng)域本體EO(economic ontology)(假設(shè)該領(lǐng)域本體包含所有的經(jīng)濟(jì)領(lǐng)域詞匯)。WordNet的讀取采用了SourceForge開放源碼社區(qū)提供的JWNL接口(http://sourceforge.net/projects/jwordnet);EO是NSFC資助項(xiàng)目“通用網(wǎng)上知識編輯器及示范主題語義網(wǎng)研究”的一部分成果,基本包含了經(jīng)濟(jì)學(xué)領(lǐng)域的重要概念和關(guān)系。
對應(yīng)于兩種不同的本體,相應(yīng)采用的測試數(shù)據(jù)集是:一個是美國國家標(biāo)準(zhǔn)技術(shù)局NIST(National Institute of Standards and Technology)與2004年公開發(fā)布的TREC2001 Filtering Track中使用的REuters數(shù)據(jù)集(http://www.jmlr.org/papers/volume5/lewis04a/lyrl2004_rcv1v2_README.htm),另一個是中國人民大學(xué)數(shù)字圖書館個性化服務(wù)系統(tǒng)DLPers V2.0中的數(shù)字資源作為測試數(shù)據(jù)集。
3.2 實(shí)驗(yàn)評測標(biāo)準(zhǔn)和實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)主要從查詢準(zhǔn)確率方面進(jìn)行評價,查準(zhǔn)率采用Precision@n和AP@k來衡量。Precision@n是前n個結(jié)果文檔中查詢準(zhǔn)確率,用來衡量大多數(shù)用戶關(guān)注的前n個結(jié)果文檔的準(zhǔn)確率。AP@k用來衡量前n個結(jié)果文檔中相關(guān)文檔的排序情況。Precision@n和AP@k在一起能更全面對top-k檢索結(jié)果進(jìn)行評價,因?yàn)榇蠖鄶?shù)用戶習(xí)慣在檢索過程中主要關(guān)注top-k檢索結(jié)果[7]。

本文以認(rèn)知心理學(xué)上的“激活-擴(kuò)散模型”為基礎(chǔ),提出了一種基于用戶認(rèn)知結(jié)構(gòu)的ObSAM模型。它具有以下優(yōu)點(diǎn):(1)它是基于領(lǐng)域本體而不是通用本體。由于人類知識的構(gòu)建本身是分領(lǐng)域進(jìn)行的,所以基于領(lǐng)域本體更有利于表達(dá)用戶的認(rèn)知結(jié)構(gòu),可以提供更精確和細(xì)致的分析。(2)基于概念之間的概念相關(guān)度來合理刻畫出用戶的認(rèn)知深度,對用戶的個性化需求增加了定量分析,從認(rèn)知廣度和認(rèn)知深度兩個方面,加深對用戶個性化需求的理解。
參考文獻(xiàn)
[1] Berners-Lee T, Hendler J, Lassila O.The Semantic Web-A New Form Of Web Content That is Meaningful to Computers Will Unleash a Revolution of New Possibilities[J]. Scientific American, 2001, 284(5):34-43.
[2] Berners-Lee T, Hendler J. Publishing On The Semantic Web-the Coming Internet Revolution Will Profoundly Affect Scientific Information[J]. Nature 2001,410(6832):1023-1024.
[3] Middleton S, Shadbolt N, De Roure D.Ontological user profiling in recommender systems[J]. ACM Transactions on Information Systems 2004,22(1):54-88.
[4] Sieg A, Mobasher B, Burke R, et al. Representing User Information Context with Ontologies[C]. In: Proceedings of 11thInternational Conference on Human-Computer Interaction(HCII2005); Las Vegas, Nevada, USA,2005.
[5] Chaffee J, Gauch S. Personal Ontologies for Web Navigation[C]. In: Proceedings of the ninth international conference on Information and knowledge management;McLean,Va.,USA,2000, P.227-234.
[6] 梁寧建.當(dāng)代認(rèn)知心理學(xué)[M].上海:上海教育出版社,2003.
[7] 田萱,杜小勇,李海華.語義查詢擴(kuò)展中詞語-概念相關(guān)度的計(jì)算[J],軟件學(xué)報(bào),2008,19(8):2043-2053.
