123,123

基于数据空间的数据源内容关系发现机制

来源：微型机与应用2012年第14期

曾淑琴，吴扬扬

(华侨大学计算机科学与技术学院，福建厦门 361021)

摘要： 数据空间的提出旨在解决模式驱动型的数据管理方式中所遇到的瓶颈，并最终解决数据管理所面临的挑战。而其中数据源内容之间的内部关联性成为数据空间研究的重点。从自然语言处理的角度出发，建立描述数据空间的模式实体，并且综合考虑基本刻面和内容刻面的主要内容，提出基于数据空间的数据源内容的关系发现机制，从而为下一步创建索引、浏览、搜索、查询以及其他服务提供良好的基础。

關(guān)鍵詞： 软件数据空间刻面自然语言处理

Abstract：

Key words :

摘要： 數(shù)據(jù)空間的提出旨在解決模式驅(qū)動型的數(shù)據(jù)管理方式中所遇到的瓶頸，并最終解決數(shù)據(jù)管理所面臨的挑戰(zhàn)。而其中數(shù)據(jù)源內(nèi)容之間的內(nèi)部關(guān)聯(lián)性成為數(shù)據(jù)空間研究的重點(diǎn)。從自然語言處理的角度出發(fā)，建立描述數(shù)據(jù)空間的模式實(shí)體，并且綜合考慮基本刻面和內(nèi)容刻面的主要內(nèi)容，提出基于數(shù)據(jù)空間的數(shù)據(jù)源內(nèi)容的關(guān)系發(fā)現(xiàn)機(jī)制，從而為下一步創(chuàng)建索引、瀏覽、搜索、查詢以及其他服務(wù)提供良好的基礎(chǔ)。
關(guān)鍵詞： 數(shù)據(jù)空間；刻面；自然語言處理

   計算機(jī)網(wǎng)絡(luò)的飛速發(fā)展以及信息化的推進(jìn)，使得人類面臨著巨大的數(shù)據(jù)量，而且數(shù)據(jù)的采集、存儲、處理和傳播依然與日俱增，數(shù)據(jù)管理也呈現(xiàn)出海量、共享以及多樣化等新的特點(diǎn)。這些新特點(diǎn)使得數(shù)據(jù)管理技術(shù)面臨著挑戰(zhàn)，DBMS無法解決這些挑戰(zhàn)，如何對數(shù)據(jù)進(jìn)行集成并有效的管理成為當(dāng)前迫在眉睫的研究課題，數(shù)據(jù)空間就是在這個大背景下應(yīng)運(yùn)而生的。
   數(shù)據(jù)空間[1]的概念由FRANKLIN M、HALEVY A、MAIER D等人在2005年的SIGMOD會議上提出，旨在解決數(shù)據(jù)空間包含的所有與主體（用戶）相關(guān)的信息，它不是一個信息集成的方法，而是一種信息共存的措施。數(shù)據(jù)空間淡化模式，凸顯數(shù)據(jù)，支持多種不同的異質(zhì)異構(gòu)的數(shù)據(jù)源，而且具有pay-as-you-go（演化集成）的特性，強(qiáng)調(diào)數(shù)據(jù)的可關(guān)聯(lián)性和演化性，最終可實(shí)現(xiàn)對個人數(shù)據(jù)的輕量級管理。其中演化集成的思想以及人在數(shù)據(jù)管理中的主體作用越來越得到關(guān)注，對主體人的研究日益成為數(shù)據(jù)管理技術(shù)研究中的重要問題。數(shù)據(jù)空間強(qiáng)調(diào)數(shù)據(jù)的可關(guān)聯(lián)性，不僅要從用戶（主體人）的行為上來獲取數(shù)據(jù)的關(guān)聯(lián)，還要從數(shù)據(jù)源內(nèi)容上來獲取數(shù)據(jù)源之間存在的內(nèi)部關(guān)系，對數(shù)據(jù)源內(nèi)容關(guān)系的發(fā)現(xiàn)也成為目前數(shù)據(jù)空間研究的一個重點(diǎn)難點(diǎn)。本文從自然語言的角度，通過分析數(shù)據(jù)空間刻面描述模型，對基本刻面和內(nèi)容刻面進(jìn)行描述，輔以詞語語義相關(guān)度的模型，提出一個基于數(shù)據(jù)空間的數(shù)據(jù)源內(nèi)容關(guān)系發(fā)現(xiàn)機(jī)制。
1 相關(guān)研究
   數(shù)據(jù)源內(nèi)容之間的關(guān)系發(fā)現(xiàn)是數(shù)據(jù)空間研究的一個重要問題，是創(chuàng)建索引、瀏覽、搜索、查詢以及其他服務(wù)的基礎(chǔ)。當(dāng)前的研究前提大多假設(shè)已經(jīng)獲得數(shù)據(jù)之間的關(guān)系，但這往往有其局限性，為了解決這個問題，需要提出更加精確的發(fā)現(xiàn)數(shù)據(jù)源之間關(guān)系的方法，以便有效地管理數(shù)據(jù)空間的數(shù)據(jù)源。參考文獻(xiàn)[2]認(rèn)為采用統(tǒng)一的數(shù)據(jù)模型來描述數(shù)據(jù)空間中不同類型的物理數(shù)據(jù)源是困難的，故而提出一種三層(即物理層、邏輯層、應(yīng)用數(shù)據(jù)層)組織結(jié)構(gòu)，文章集中在邏輯數(shù)據(jù)層，并通過領(lǐng)域本體代表一類數(shù)據(jù)源資源，從而劃分為直接關(guān)系和間接關(guān)系。參考文獻(xiàn)[3]通過關(guān)聯(lián)調(diào)整(Reference Reconciliation)來解決數(shù)據(jù)源復(fù)雜信息空間問題，使用基于一個基本框架的算法，通過關(guān)聯(lián)調(diào)整傳播信息，使用上下文信息、相關(guān)實(shí)體上的相似性來計算和豐富關(guān)聯(lián)。參考文獻(xiàn)[4]提出了使用貝葉斯網(wǎng)絡(luò)模型來抽取元數(shù)據(jù)的匹配，通過可能性推理來解決不確定問題，建立數(shù)據(jù)的關(guān)系網(wǎng)，通過元數(shù)據(jù)匹配來抽取實(shí)體之間的關(guān)系。參考文獻(xiàn)[5]提出了新的分散的語義元數(shù)據(jù)組織模型SmartStore，利用元數(shù)據(jù)的語義來增加相關(guān)的文件。參考文獻(xiàn)[6]通過制定數(shù)據(jù)源之間聯(lián)系，并將每個聯(lián)系集定義為聯(lián)系軌跡（Association Trail），創(chuàng)建來自不同數(shù)據(jù)源的無聯(lián)系數(shù)據(jù)之間的一個增強(qiáng)的關(guān)聯(lián)圖?？傊?，相關(guān)方面的研究也都是基于各自對數(shù)據(jù)空間的描述而進(jìn)行的，通過本體或推理模型來發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系。本文基于之前所研究的詞語相關(guān)度模型，綜合分析基本刻面和內(nèi)容刻面，從而確立數(shù)據(jù)源內(nèi)容之間的關(guān)系發(fā)現(xiàn)機(jī)制。
2 刻面內(nèi)容的關(guān)系發(fā)現(xiàn)機(jī)制
2.1 數(shù)據(jù)空間數(shù)據(jù)特點(diǎn)
   數(shù)據(jù)空間的數(shù)據(jù)源是異質(zhì)異構(gòu)的，課題組提出了一個FADSM模型即基于刻面描述的數(shù)據(jù)空間模型，通過內(nèi)容刻面以及基本刻面對數(shù)據(jù)空間進(jìn)行描述，并分析刻面的內(nèi)容來發(fā)現(xiàn)數(shù)據(jù)源本身之間的內(nèi)部關(guān)聯(lián)性。
   數(shù)據(jù)空間個人數(shù)據(jù)的特點(diǎn)：(1)多樣性和異構(gòu)型。個人數(shù)據(jù)均來自不同的數(shù)據(jù)源，如Web、Email、文件系統(tǒng)，數(shù)據(jù)都存儲在不同的位置，需要采取統(tǒng)一的方法來制定異構(gòu)數(shù)據(jù)源；(2)個性化。緣于不同的知識背景，使用計算機(jī)的不同習(xí)慣，以及每個人不同的組織數(shù)據(jù)的方式；(3)復(fù)雜結(jié)構(gòu)。RDBMS都是基于表結(jié)構(gòu)的，但是在PDS中，關(guān)系都是基于元組級別的，數(shù)據(jù)源之間可能都是有關(guān)系的。
2.2 數(shù)據(jù)源描述
   本文主要從兩個方面來討論數(shù)據(jù)源，一個是基本刻面，另一個是內(nèi)容刻面。
   將每個數(shù)據(jù)源作為一個模式實(shí)體來描述，每個數(shù)據(jù)實(shí)體都有一個獨(dú)立的實(shí)體標(biāo)識符?；究堂媸菙?shù)據(jù)源的主體屬性，包括文件名、文件類型、訪問頻率、目錄以及大小等。內(nèi)容刻面是每個數(shù)據(jù)源的描述性的主體內(nèi)容，在課題研究組中已經(jīng)將內(nèi)容刻面提取出來。將內(nèi)容刻面的內(nèi)容進(jìn)行分詞（應(yīng)用ICTCLAS軟件），分詞后進(jìn)行預(yù)處理，去除停頓詞、虛擬詞、語氣詞等?；诳堂婷枋龅臄?shù)據(jù)空間中數(shù)據(jù)源實(shí)體的表示如圖1所示。

通過對基本刻面和內(nèi)容刻面的內(nèi)容進(jìn)行分析，對內(nèi)容刻面進(jìn)行分詞預(yù)處理，形成刻面內(nèi)容主題詞集合，即代表了該數(shù)據(jù)源的實(shí)體內(nèi)容；而基本刻面主要考慮其刻面屬性。作為實(shí)體的類型集合，綜合兩者構(gòu)造數(shù)據(jù)源實(shí)體的語義模式，發(fā)現(xiàn)數(shù)據(jù)源的內(nèi)部關(guān)聯(lián)性即是發(fā)現(xiàn)語義實(shí)體模式之間的關(guān)聯(lián)機(jī)制。圖2所示為數(shù)據(jù)源內(nèi)容關(guān)系發(fā)現(xiàn)機(jī)制的流程。

2.3 語義模式的建立和匹配
   本文采用中科院的ICTCLAS進(jìn)行分詞。對數(shù)據(jù)源的刻面內(nèi)容進(jìn)行分詞預(yù)處理，去掉一些修飾詞、停用詞等，所獲得的主題詞代表了該數(shù)據(jù)源的核心內(nèi)容。而刻面屬性需要逐一考慮4個屬性，對其進(jìn)行相關(guān)的匹配策略。數(shù)據(jù)源表示為模式實(shí)體即[實(shí)體標(biāo)識符,基本刻面,內(nèi)容刻面]的形式。
   語義模式匹配的過程為：(1)考慮基本刻面各刻面屬性的匹配程度；(2)過濾掉內(nèi)容刻面中修飾以及停頓的詞語、標(biāo)點(diǎn)符號、數(shù)字、名字等；(3)提取內(nèi)容刻面的主題詞集合以及該數(shù)據(jù)源所代表的實(shí)體類型組成待比較向量；(4)對于基本刻面中 [文件類型，目錄，訪問頻率，大小]等條件進(jìn)行刻面匹配，以此對基本刻面的說明作為基本刻面的匹配策略；對于內(nèi)容刻面，比較模式向量中的詞語與待比較向量中的每個詞語的語義相關(guān)度（應(yīng)用相關(guān)度模型）。具體的內(nèi)容刻面匹配策略如下。
2.3.1 基本刻面相關(guān)性匹配
   基本刻面屬性即一個數(shù)據(jù)實(shí)體的主體屬性，能夠直接獲得，如一篇文檔的文件名、路徑、大小、修改時間、訪問時間等。

    鑒于此處在分子中，已經(jīng)對詞語項(xiàng)進(jìn)行了相關(guān)度的計算，而在SVM中，對分母的取模是為了保證整個余弦值的范圍在（0，1）之間，而在式（7）中，已經(jīng)轉(zhuǎn)化為對詞語項(xiàng)進(jìn)行相關(guān)度計算了，因此直接使用了點(diǎn)積公式作為計算內(nèi)容刻面相關(guān)度的公式形式，即RSource就是所求的兩個內(nèi)容刻面的相關(guān)度值。
2.3.3 數(shù)據(jù)源內(nèi)容關(guān)系發(fā)現(xiàn)機(jī)制
   將基本刻面和內(nèi)容刻面的相關(guān)性匹配策略結(jié)合起來，本文著重以內(nèi)容刻面中表達(dá)的數(shù)據(jù)源內(nèi)容來發(fā)現(xiàn)關(guān)聯(lián)關(guān)系，因而內(nèi)容刻面所占的權(quán)重會比基本刻面對數(shù)據(jù)源關(guān)系發(fā)現(xiàn)的貢獻(xiàn)率更大，設(shè)基本刻面對數(shù)據(jù)源內(nèi)容關(guān)系發(fā)現(xiàn)的貢獻(xiàn)率是λ，而內(nèi)容刻面的貢獻(xiàn)率是σ。通過加權(quán)值來獲得最終數(shù)據(jù)源內(nèi)容的關(guān)系發(fā)現(xiàn)機(jī)制，如式（8）所示，其中λ+σ=1且σ>λ。

2.4 討論與分析
   根據(jù)以上對數(shù)據(jù)空間數(shù)據(jù)源的刻面模型描述以及對基本刻面和內(nèi)容刻面的主要內(nèi)容進(jìn)行考慮，輔助以詞語相關(guān)度模型計算，可以從理論上分析出獲取數(shù)據(jù)源內(nèi)容關(guān)系發(fā)現(xiàn)機(jī)制，并以上述的計算模型來表達(dá)其關(guān)系程度。但是，這個方案存在一些不足之處：(1)相關(guān)度的研究存在一些主觀上的誤差；(2)分詞上出現(xiàn)的誤差；(3)考慮內(nèi)容刻面時，其中的許多主關(guān)鍵字沒有考慮到人物名詞，人物名詞對于發(fā)現(xiàn)數(shù)據(jù)空間中數(shù)據(jù)源之間的內(nèi)部關(guān)系起到很大的作用，本文主要是考慮數(shù)據(jù)源的具體內(nèi)容，而未涉及到具體的人物之間的聯(lián)系，因此對數(shù)據(jù)源的關(guān)系發(fā)現(xiàn)有一定的影響；(4)在基于數(shù)據(jù)空間對數(shù)據(jù)源內(nèi)容的關(guān)系發(fā)現(xiàn)研究上，存在很多不同的方式，本文作為基礎(chǔ)性的研究，因而輔以之前的相關(guān)度的研究，從而提出這個數(shù)據(jù)源內(nèi)容關(guān)系發(fā)現(xiàn)機(jī)制的方案。
   數(shù)據(jù)空間中的數(shù)據(jù)源都是異質(zhì)異構(gòu)的，且基于數(shù)據(jù)空間，是數(shù)據(jù)驅(qū)動型的管理手段，這些數(shù)據(jù)源彼此之間的內(nèi)部關(guān)聯(lián)性發(fā)現(xiàn)是數(shù)據(jù)空間研究的一個重點(diǎn)難點(diǎn)，國外研究方面，數(shù)據(jù)源內(nèi)容關(guān)系的發(fā)現(xiàn)都是通過制定聯(lián)系或者是參考協(xié)調(diào)等方法來完成，而本文研究是以自然語言處理中的詞語相關(guān)度模型作為突破口，提出一個關(guān)系機(jī)制來發(fā)現(xiàn)數(shù)據(jù)源之間的關(guān)系。
   今后的工作將繼續(xù)完善該策略，特別是在考慮到幾個不足之處的影響因素中，盡量減少這些因素所造成的誤差，以該策略為基礎(chǔ)，實(shí)現(xiàn)從相關(guān)度上進(jìn)行數(shù)據(jù)空間中數(shù)據(jù)源的檢索和查詢。
參考文獻(xiàn)
[1] 李玉坤,孟小峰,張相於.數(shù)據(jù)空間技術(shù)研究[J].軟件學(xué)報，2008，19(8)：2018-2031.
[2] Dong Yanlei，Shen Derong，Nie Tiezheng，et al.Discovering relationships among data resourcesin DataSpac[C].IEEE， 2009 Sixth Web Information Systems and Applications Conference，2009.
[3] Xin Dong.Providing best-effort services in dataspace systems[J].Doctor of Philosophy University of Washington，2007(9)：76-81.
[4] Sun Daring，Ma Anxiang，Zhang Bin，et al.Metadata matching based bayesian network in DataSpace[C].Computer Design and Applications(ICCDA)，2010：358-362.
[5] Hua Yu，Jiang Hong，Zhu Yifeng，et al.SmartStore：a new metadata organization paradigm with metadata semantic-awareness for next-generation file systems[C].Proceedings of the Conference on High Performance Computing
     Networking，Storage and Analysis，Portland，Oregon，USA，2009.
[6] SALLES M A V，DITTRICH J，BLUNSCHI L.Intensional associations in dataspace[C].Data Engineering(ICDE)，2010 IEEE 26th International Conference，2010：984-987.
[7] Li Yukun，Meng Xiaofeng.Exploring Personal corespace for dataspace management[C].Fifth International Conference on Semantics，Knowledge and Grid，2009.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容