摘 要: 數(shù)據(jù)空間的提出旨在解決模式驅(qū)動型的數(shù)據(jù)管理方式中所遇到的瓶頸,并最終解決數(shù)據(jù)管理所面臨的挑戰(zhàn)。而其中數(shù)據(jù)源內(nèi)容之間的內(nèi)部關(guān)聯(lián)性成為數(shù)據(jù)空間研究的重點(diǎn)。從自然語言處理的角度出發(fā),建立描述數(shù)據(jù)空間的模式實(shí)體,并且綜合考慮基本刻面和內(nèi)容刻面的主要內(nèi)容,提出基于數(shù)據(jù)空間的數(shù)據(jù)源內(nèi)容的關(guān)系發(fā)現(xiàn)機(jī)制,從而為下一步創(chuàng)建索引、瀏覽、搜索、查詢以及其他服務(wù)提供良好的基礎(chǔ)。
關(guān)鍵詞: 數(shù)據(jù)空間;刻面;自然語言處理
計(jì)算機(jī)網(wǎng)絡(luò)的飛速發(fā)展以及信息化的推進(jìn),使得人類面臨著巨大的數(shù)據(jù)量,而且數(shù)據(jù)的采集、存儲、處理和傳播依然與日俱增,數(shù)據(jù)管理也呈現(xiàn)出海量、共享以及多樣化等新的特點(diǎn)。這些新特點(diǎn)使得數(shù)據(jù)管理技術(shù)面臨著挑戰(zhàn),DBMS無法解決這些挑戰(zhàn),如何對數(shù)據(jù)進(jìn)行集成并有效的管理成為當(dāng)前迫在眉睫的研究課題,數(shù)據(jù)空間就是在這個大背景下應(yīng)運(yùn)而生的。
數(shù)據(jù)空間[1]的概念由FRANKLIN M、HALEVY A、MAIER D等人在2005年的SIGMOD會議上提出,旨在解決數(shù)據(jù)空間包含的所有與主體(用戶)相關(guān)的信息,它不是一個信息集成的方法,而是一種信息共存的措施。數(shù)據(jù)空間淡化模式,凸顯數(shù)據(jù),支持多種不同的異質(zhì)異構(gòu)的數(shù)據(jù)源,而且具有pay-as-you-go(演化集成)的特性,強(qiáng)調(diào)數(shù)據(jù)的可關(guān)聯(lián)性和演化性,最終可實(shí)現(xiàn)對個人數(shù)據(jù)的輕量級管理。其中演化集成的思想以及人在數(shù)據(jù)管理中的主體作用越來越得到關(guān)注,對主體人的研究日益成為數(shù)據(jù)管理技術(shù)研究中的重要問題。數(shù)據(jù)空間強(qiáng)調(diào)數(shù)據(jù)的可關(guān)聯(lián)性,不僅要從用戶(主體人)的行為上來獲取數(shù)據(jù)的關(guān)聯(lián),還要從數(shù)據(jù)源內(nèi)容上來獲取數(shù)據(jù)源之間存在的內(nèi)部關(guān)系,對數(shù)據(jù)源內(nèi)容關(guān)系的發(fā)現(xiàn)也成為目前數(shù)據(jù)空間研究的一個重點(diǎn)難點(diǎn)。本文從自然語言的角度,通過分析數(shù)據(jù)空間刻面描述模型,對基本刻面和內(nèi)容刻面進(jìn)行描述,輔以詞語語義相關(guān)度的模型,提出一個基于數(shù)據(jù)空間的數(shù)據(jù)源內(nèi)容關(guān)系發(fā)現(xiàn)機(jī)制。
1 相關(guān)研究
數(shù)據(jù)源內(nèi)容之間的關(guān)系發(fā)現(xiàn)是數(shù)據(jù)空間研究的一個重要問題,是創(chuàng)建索引、瀏覽、搜索、查詢以及其他服務(wù)的基礎(chǔ)。當(dāng)前的研究前提大多假設(shè)已經(jīng)獲得數(shù)據(jù)之間的關(guān)系,但這往往有其局限性,為了解決這個問題,需要提出更加精確的發(fā)現(xiàn)數(shù)據(jù)源之間關(guān)系的方法,以便有效地管理數(shù)據(jù)空間的數(shù)據(jù)源。參考文獻(xiàn)[2]認(rèn)為采用統(tǒng)一的數(shù)據(jù)模型來描述數(shù)據(jù)空間中不同類型的物理數(shù)據(jù)源是困難的,故而提出一種三層(即物理層、邏輯層、應(yīng)用數(shù)據(jù)層)組織結(jié)構(gòu),文章集中在邏輯數(shù)據(jù)層,并通過領(lǐng)域本體代表一類數(shù)據(jù)源資源,從而劃分為直接關(guān)系和間接關(guān)系。參考文獻(xiàn)[3]通過關(guān)聯(lián)調(diào)整(Reference Reconciliation)來解決數(shù)據(jù)源復(fù)雜信息空間問題,使用基于一個基本框架的算法,通過關(guān)聯(lián)調(diào)整傳播信息,使用上下文信息、相關(guān)實(shí)體上的相似性來計(jì)算和豐富關(guān)聯(lián)。參考文獻(xiàn)[4]提出了使用貝葉斯網(wǎng)絡(luò)模型來抽取元數(shù)據(jù)的匹配,通過可能性推理來解決不確定問題,建立數(shù)據(jù)的關(guān)系網(wǎng),通過元數(shù)據(jù)匹配來抽取實(shí)體之間的關(guān)系。參考文獻(xiàn)[5]提出了新的分散的語義元數(shù)據(jù)組織模型SmartStore,利用元數(shù)據(jù)的語義來增加相關(guān)的文件。參考文獻(xiàn)[6]通過制定數(shù)據(jù)源之間聯(lián)系,并將每個聯(lián)系集定義為聯(lián)系軌跡(Association Trail),創(chuàng)建來自不同數(shù)據(jù)源的無聯(lián)系數(shù)據(jù)之間的一個增強(qiáng)的關(guān)聯(lián)圖??傊嚓P(guān)方面的研究也都是基于各自對數(shù)據(jù)空間的描述而進(jìn)行的,通過本體或推理模型來發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系。本文基于之前所研究的詞語相關(guān)度模型,綜合分析基本刻面和內(nèi)容刻面,從而確立數(shù)據(jù)源內(nèi)容之間的關(guān)系發(fā)現(xiàn)機(jī)制。
2 刻面內(nèi)容的關(guān)系發(fā)現(xiàn)機(jī)制
2.1 數(shù)據(jù)空間數(shù)據(jù)特點(diǎn)
數(shù)據(jù)空間的數(shù)據(jù)源是異質(zhì)異構(gòu)的,課題組提出了一個FADSM模型即基于刻面描述的數(shù)據(jù)空間模型,通過內(nèi)容刻面以及基本刻面對數(shù)據(jù)空間進(jìn)行描述,并分析刻面的內(nèi)容來發(fā)現(xiàn)數(shù)據(jù)源本身之間的內(nèi)部關(guān)聯(lián)性。
數(shù)據(jù)空間個人數(shù)據(jù)的特點(diǎn):(1)多樣性和異構(gòu)型。個人數(shù)據(jù)均來自不同的數(shù)據(jù)源,如Web、Email、文件系統(tǒng),數(shù)據(jù)都存儲在不同的位置,需要采取統(tǒng)一的方法來制定異構(gòu)數(shù)據(jù)源;(2)個性化。緣于不同的知識背景,使用計(jì)算機(jī)的不同習(xí)慣,以及每個人不同的組織數(shù)據(jù)的方式;(3)復(fù)雜結(jié)構(gòu)。RDBMS都是基于表結(jié)構(gòu)的,但是在PDS中,關(guān)系都是基于元組級別的,數(shù)據(jù)源之間可能都是有關(guān)系的。
2.2 數(shù)據(jù)源描述
本文主要從兩個方面來討論數(shù)據(jù)源,一個是基本刻面,另一個是內(nèi)容刻面。
將每個數(shù)據(jù)源作為一個模式實(shí)體來描述,每個數(shù)據(jù)實(shí)體都有一個獨(dú)立的實(shí)體標(biāo)識符?;究堂媸菙?shù)據(jù)源的主體屬性,包括文件名、文件類型、訪問頻率、目錄以及大小等。內(nèi)容刻面是每個數(shù)據(jù)源的描述性的主體內(nèi)容,在課題研究組中已經(jīng)將內(nèi)容刻面提取出來。將內(nèi)容刻面的內(nèi)容進(jìn)行分詞(應(yīng)用ICTCLAS軟件),分詞后進(jìn)行預(yù)處理,去除停頓詞、虛擬詞、語氣詞等?;诳堂婷枋龅臄?shù)據(jù)空間中數(shù)據(jù)源實(shí)體的表示如圖1所示。
通過對基本刻面和內(nèi)容刻面的內(nèi)容進(jìn)行分析,對內(nèi)容刻面進(jìn)行分詞預(yù)處理,形成刻面內(nèi)容主題詞集合,即代表了該數(shù)據(jù)源的實(shí)體內(nèi)容;而基本刻面主要考慮其刻面屬性。作為實(shí)體的類型集合,綜合兩者構(gòu)造數(shù)據(jù)源實(shí)體的語義模式,發(fā)現(xiàn)數(shù)據(jù)源的內(nèi)部關(guān)聯(lián)性即是發(fā)現(xiàn)語義實(shí)體模式之間的關(guān)聯(lián)機(jī)制。圖2所示為數(shù)據(jù)源內(nèi)容關(guān)系發(fā)現(xiàn)機(jī)制的流程。
2.3 語義模式的建立和匹配
本文采用中科院的ICTCLAS進(jìn)行分詞。對數(shù)據(jù)源的刻面內(nèi)容進(jìn)行分詞預(yù)處理,去掉一些修飾詞、停用詞等,所獲得的主題詞代表了該數(shù)據(jù)源的核心內(nèi)容。而刻面屬性需要逐一考慮4個屬性,對其進(jìn)行相關(guān)的匹配策略。數(shù)據(jù)源表示為模式實(shí)體即[實(shí)體標(biāo)識符,基本刻面,內(nèi)容刻面]的形式。
語義模式匹配的過程為:(1)考慮基本刻面各刻面屬性的匹配程度;(2)過濾掉內(nèi)容刻面中修飾以及停頓的詞語、標(biāo)點(diǎn)符號、數(shù)字、名字等;(3)提取內(nèi)容刻面的主題詞集合以及該數(shù)據(jù)源所代表的實(shí)體類型組成待比較向量;(4)對于基本刻面中 [文件類型,目錄,訪問頻率,大小]等條件進(jìn)行刻面匹配,以此對基本刻面的說明作為基本刻面的匹配策略;對于內(nèi)容刻面,比較模式向量中的詞語與待比較向量中的每個詞語的語義相關(guān)度(應(yīng)用相關(guān)度模型)。具體的內(nèi)容刻面匹配策略如下。
2.3.1 基本刻面相關(guān)性匹配
基本刻面屬性即一個數(shù)據(jù)實(shí)體的主體屬性,能夠直接獲得,如一篇文檔的文件名、路徑、大小、修改時間、訪問時間等。
鑒于此處在分子中,已經(jīng)對詞語項(xiàng)進(jìn)行了相關(guān)度的計(jì)算,而在SVM中,對分母的取模是為了保證整個余弦值的范圍在(0,1)之間,而在式(7)中,已經(jīng)轉(zhuǎn)化為對詞語項(xiàng)進(jìn)行相關(guān)度計(jì)算了,因此直接使用了點(diǎn)積公式作為計(jì)算內(nèi)容刻面相關(guān)度的公式形式,即RSource就是所求的兩個內(nèi)容刻面的相關(guān)度值。
2.3.3 數(shù)據(jù)源內(nèi)容關(guān)系發(fā)現(xiàn)機(jī)制
將基本刻面和內(nèi)容刻面的相關(guān)性匹配策略結(jié)合起來,本文著重以內(nèi)容刻面中表達(dá)的數(shù)據(jù)源內(nèi)容來發(fā)現(xiàn)關(guān)聯(lián)關(guān)系,因而內(nèi)容刻面所占的權(quán)重會比基本刻面對數(shù)據(jù)源關(guān)系發(fā)現(xiàn)的貢獻(xiàn)率更大,設(shè)基本刻面對數(shù)據(jù)源內(nèi)容關(guān)系發(fā)現(xiàn)的貢獻(xiàn)率是λ,而內(nèi)容刻面的貢獻(xiàn)率是σ。通過加權(quán)值來獲得最終數(shù)據(jù)源內(nèi)容的關(guān)系發(fā)現(xiàn)機(jī)制,如式(8)所示,其中λ+σ=1且σ>λ。
2.4 討論與分析
根據(jù)以上對數(shù)據(jù)空間數(shù)據(jù)源的刻面模型描述以及對基本刻面和內(nèi)容刻面的主要內(nèi)容進(jìn)行考慮,輔助以詞語相關(guān)度模型計(jì)算,可以從理論上分析出獲取數(shù)據(jù)源內(nèi)容關(guān)系發(fā)現(xiàn)機(jī)制,并以上述的計(jì)算模型來表達(dá)其關(guān)系程度。但是,這個方案存在一些不足之處:(1)相關(guān)度的研究存在一些主觀上的誤差;(2)分詞上出現(xiàn)的誤差;(3)考慮內(nèi)容刻面時,其中的許多主關(guān)鍵字沒有考慮到人物名詞,人物名詞對于發(fā)現(xiàn)數(shù)據(jù)空間中數(shù)據(jù)源之間的內(nèi)部關(guān)系起到很大的作用,本文主要是考慮數(shù)據(jù)源的具體內(nèi)容,而未涉及到具體的人物之間的聯(lián)系,因此對數(shù)據(jù)源的關(guān)系發(fā)現(xiàn)有一定的影響;(4)在基于數(shù)據(jù)空間對數(shù)據(jù)源內(nèi)容的關(guān)系發(fā)現(xiàn)研究上,存在很多不同的方式,本文作為基礎(chǔ)性的研究,因而輔以之前的相關(guān)度的研究,從而提出這個數(shù)據(jù)源內(nèi)容關(guān)系發(fā)現(xiàn)機(jī)制的方案。
數(shù)據(jù)空間中的數(shù)據(jù)源都是異質(zhì)異構(gòu)的,且基于數(shù)據(jù)空間,是數(shù)據(jù)驅(qū)動型的管理手段,這些數(shù)據(jù)源彼此之間的內(nèi)部關(guān)聯(lián)性發(fā)現(xiàn)是數(shù)據(jù)空間研究的一個重點(diǎn)難點(diǎn),國外研究方面,數(shù)據(jù)源內(nèi)容關(guān)系的發(fā)現(xiàn)都是通過制定聯(lián)系或者是參考協(xié)調(diào)等方法來完成,而本文研究是以自然語言處理中的詞語相關(guān)度模型作為突破口,提出一個關(guān)系機(jī)制來發(fā)現(xiàn)數(shù)據(jù)源之間的關(guān)系。
今后的工作將繼續(xù)完善該策略,特別是在考慮到幾個不足之處的影響因素中,盡量減少這些因素所造成的誤差,以該策略為基礎(chǔ),實(shí)現(xiàn)從相關(guān)度上進(jìn)行數(shù)據(jù)空間中數(shù)據(jù)源的檢索和查詢。
參考文獻(xiàn)
[1] 李玉坤,孟小峰,張相於.數(shù)據(jù)空間技術(shù)研究[J].軟件學(xué)報(bào),2008,19(8):2018-2031.
[2] Dong Yanlei,Shen Derong,Nie Tiezheng,et al.Discovering relationships among data resourcesin DataSpac[C].IEEE, 2009 Sixth Web Information Systems and Applications Conference,2009.
[3] Xin Dong.Providing best-effort services in dataspace systems[J].Doctor of Philosophy University of Washington,2007(9):76-81.
[4] Sun Daring,Ma Anxiang,Zhang Bin,et al.Metadata matching based bayesian network in DataSpace[C].Computer Design and Applications(ICCDA),2010:358-362.
[5] Hua Yu,Jiang Hong,Zhu Yifeng,et al.SmartStore:a new metadata organization paradigm with metadata semantic-awareness for next-generation file systems[C].Proceedings of the Conference on High Performance Computing
Networking,Storage and Analysis,Portland,Oregon,USA,2009.
[6] SALLES M A V,DITTRICH J,BLUNSCHI L.Intensional associations in dataspace[C].Data Engineering(ICDE),2010 IEEE 26th International Conference,2010:984-987.
[7] Li Yukun,Meng Xiaofeng.Exploring Personal corespace for dataspace management[C].Fifth International Conference on Semantics,Knowledge and Grid,2009.