《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 模擬設(shè)計(jì) > 設(shè)計(jì)應(yīng)用 > 空間數(shù)據(jù)挖掘認(rèn)識(shí)及其思考
空間數(shù)據(jù)挖掘認(rèn)識(shí)及其思考
2015年微型機(jī)與應(yīng)用第22期
李圍成,張雪萍,祝玉華
(河南工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,河南 鄭州 450001)
摘要: 在這個(gè)大數(shù)據(jù)時(shí)代,空間數(shù)據(jù)正在從各個(gè)領(lǐng)域飛速累計(jì)。空間數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘的一部分,現(xiàn)已成為人們研究空間數(shù)據(jù)的重點(diǎn)學(xué)科。主要介紹了空間數(shù)據(jù)挖掘的基本概念、一般步驟及其最新的挖掘方法,表達(dá)了對(duì)當(dāng)前空間數(shù)據(jù)挖掘的看法。最后對(duì)未來(lái)空間數(shù)據(jù)挖掘的研究方向進(jìn)行了更加深入的探討。
Abstract:
Key words :

  摘  要: 在這個(gè)大數(shù)據(jù)時(shí)代,空間數(shù)據(jù)正在從各個(gè)領(lǐng)域飛速累計(jì)。空間數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘的一部分,現(xiàn)已成為人們研究空間數(shù)據(jù)的重點(diǎn)學(xué)科。主要介紹了空間數(shù)據(jù)挖掘的基本概念、一般步驟及其最新的挖掘方法,表達(dá)了對(duì)當(dāng)前空間數(shù)據(jù)挖掘的看法。最后對(duì)未來(lái)空間數(shù)據(jù)挖掘的研究方向進(jìn)行了更加深入的探討。

  關(guān)鍵詞: 大數(shù)據(jù);空間數(shù)據(jù)挖掘;挖掘方法

0 引言

  空間數(shù)據(jù)挖掘(Spatial Data Mining,SDM)即找出開(kāi)始并不知道但是卻隱藏在空間數(shù)據(jù)中潛在的、有價(jià)值的規(guī)則的過(guò)程。具體來(lái)說(shuō),空間數(shù)據(jù)挖掘就是在海量空間數(shù)據(jù)集中,結(jié)合確定集、模糊集、仿生學(xué)等理論,利用人工智能、模式識(shí)別等科學(xué)技術(shù),提取出令人相信的、潛在有用的知識(shí),發(fā)現(xiàn)空間數(shù)據(jù)集背后隱藏的規(guī)律、聯(lián)系,為空間決策提供理論技術(shù)上的依據(jù)[1]。

1 空間數(shù)據(jù)挖掘的一般步驟

  空間數(shù)據(jù)挖掘系統(tǒng)大致可以分為以下步驟:

 ?。?)空間數(shù)據(jù)準(zhǔn)備:選擇合適的多種數(shù)據(jù)來(lái)源,包括地圖數(shù)據(jù)、影像數(shù)據(jù)、地形數(shù)據(jù)、屬性數(shù)據(jù)等。

 ?。?)空間數(shù)據(jù)預(yù)處理和特征提?。簲?shù)據(jù)預(yù)處理目的是去除數(shù)據(jù)中的噪聲,包括對(duì)數(shù)據(jù)的清洗、數(shù)據(jù)的轉(zhuǎn)換、數(shù)據(jù)的集成等。特征提取是剔除掉冗余或不相關(guān)的特征并將特征轉(zhuǎn)化為適合數(shù)據(jù)挖掘的新特征。

 ?。?)空間數(shù)據(jù)挖掘和知識(shí)評(píng)估:采用空間數(shù)據(jù)挖掘技術(shù)對(duì)空間數(shù)據(jù)進(jìn)行分析處理和預(yù)測(cè),從而發(fā)現(xiàn)數(shù)據(jù)背后的某種聯(lián)系。然后結(jié)合具體的領(lǐng)域知識(shí)進(jìn)行評(píng)估,看是否達(dá)到預(yù)期效果。

2 空間數(shù)據(jù)挖掘的方法研究

  空間數(shù)據(jù)挖掘是一門綜合型的交叉學(xué)科,結(jié)合了計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、地理學(xué)等領(lǐng)域的很多特性,產(chǎn)生了大量處理空間數(shù)據(jù)的挖掘方法。

  2.1 空間關(guān)聯(lián)規(guī)則

  關(guān)聯(lián)規(guī)則挖掘是尋找數(shù)據(jù)項(xiàng)之間的聯(lián)系,表達(dá)式形式是X→Y,其中X與Y是兩種不相交的數(shù)據(jù)項(xiàng)集,即X∩Y=?覫。KOPERSKI K等人將關(guān)聯(lián)規(guī)則與空間數(shù)據(jù)庫(kù)相結(jié)合,提出了空間關(guān)聯(lián)規(guī)則挖掘[2]。空間關(guān)聯(lián)規(guī)則將數(shù)據(jù)項(xiàng)替換為了空間謂詞,一般表達(dá)形式如下:

  A1∧A2∧…∧An→B1∧B2∧…∧Bm(3)

  令A(yù)=(A1,A2,…,An),B=(B1,B2,…,Bm),A和B分別表示Ai和Bj的謂詞集合,A和B可以是空間謂詞或非空間謂詞,但是必須至少包含一個(gè)空間謂詞且A∩B=?覫。SHEKHAR S和HUANG Y針對(duì)空間關(guān)聯(lián)規(guī)則的特點(diǎn)提出了把關(guān)聯(lián)規(guī)則的思想泛化成空間索引點(diǎn)集的空間同位規(guī)則的概念,在不違背空間相關(guān)性的同時(shí)用鄰域替換掉了事務(wù)[3]。時(shí)空關(guān)聯(lián)不僅涉及事件在空間中的關(guān)聯(lián),還考慮了空間位置和時(shí)間序列因素。國(guó)內(nèi)的柴思躍、蘇奮振和周成虎提出了基于周期表的時(shí)空關(guān)聯(lián)規(guī)則挖掘方法[4]。

  2.2 空間聚類

  空間聚類分析是普通聚類分析的擴(kuò)展,不能完全按照處理普通數(shù)據(jù)的聚類分析方法來(lái)處理空間數(shù)據(jù)。由于存在地理學(xué)第一定律,即空間對(duì)象之間都存在一定的相關(guān)性,因此在空間聚類分析中,對(duì)于簇內(nèi)的定義,要考慮空間自相關(guān)這一因素。通過(guò)對(duì)空間數(shù)據(jù)進(jìn)行自相關(guān)分析,可判斷對(duì)象之間是否存在空間相關(guān)性,從而可合理判斷出對(duì)象是否可以分為一簇。

  基本的聚類挖掘算法有:

 ?。?)劃分聚類算法:存在n個(gè)數(shù)據(jù)對(duì)象,對(duì)于給定k個(gè)分組(k≤n),將n個(gè)對(duì)象通過(guò)基于一定目標(biāo)劃分規(guī)則,不停迭代、優(yōu)化,直到將這n個(gè)對(duì)象分配到k個(gè)分組中,使得每組內(nèi)部對(duì)象相似度大于組之間相似度。

 ?。?)層次聚類算法:通過(guò)將數(shù)據(jù)不停地拆分與重組,最終把數(shù)據(jù)轉(zhuǎn)為一棵符合一定標(biāo)準(zhǔn)的具有層次結(jié)構(gòu)的聚類樹(shù)。

 ?。?)密度聚類算法:用低密度的區(qū)域?qū)?shù)據(jù)對(duì)象進(jìn)行分割,最終將數(shù)據(jù)對(duì)象聚類成為若干高密度的區(qū)域。

 ?。?)圖聚類算法:用空間結(jié)點(diǎn)表示每個(gè)數(shù)據(jù)對(duì)象,然后基于一定標(biāo)準(zhǔn)形成若干子圖,最后把所有子圖聚類成一個(gè)包含所有空間對(duì)象的整圖,子圖則代表一個(gè)個(gè)空間簇。

  (5)網(wǎng)格聚類算法:把空間區(qū)域分割成具有多重分辨率的和有網(wǎng)格結(jié)構(gòu)特性的若干網(wǎng)格單元,在網(wǎng)格單元上對(duì)數(shù)據(jù)進(jìn)行聚類。

  (6)模型聚類算法:借助一定的數(shù)學(xué)模型,使用最佳擬合數(shù)據(jù)的數(shù)學(xué)模型來(lái)對(duì)數(shù)據(jù)進(jìn)行聚類,每一個(gè)簇用一個(gè)概率分布表示。

  僅采用一種算法通常無(wú)法達(dá)到令人滿意的預(yù)期結(jié)果,王家耀、張雪萍、周海燕將遺傳算法與K-均值算法結(jié)合提出了用于空間聚類分析的遺傳K-均值算法[5]?,F(xiàn)實(shí)空間環(huán)境中,存在很多像道路、橋梁、河流的障礙物,張雪萍、楊騰飛等人把K-Medoids算法與量子粒子群算法結(jié)合進(jìn)行帶有空間障礙約束的聚類分析[6]。

  2.3 空間分類

  分類,簡(jiǎn)單地說(shuō)是通過(guò)學(xué)習(xí)得到一定的分類模型,然后把數(shù)據(jù)對(duì)象按照分類模型劃分至預(yù)先給定類的過(guò)程??臻g分類時(shí),不僅考慮數(shù)據(jù)對(duì)象的非空間屬性,還要顧及鄰近對(duì)象的非空間屬性對(duì)其類別的影響,是一種監(jiān)督式的分析方法。

  空間分類挖掘方法有統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)的方法和神經(jīng)網(wǎng)絡(luò)方法等。貝葉斯分類器是基于統(tǒng)計(jì)學(xué)的方法,利用數(shù)據(jù)對(duì)象的先驗(yàn)概率和貝葉斯公式計(jì)算出其后驗(yàn)概率,選擇較大后驗(yàn)概率的類作為該對(duì)象映射的類別。決策樹(shù)分類器是機(jī)器學(xué)習(xí)的方法,采取從上到下的貪心策略,比較決策樹(shù)內(nèi)部節(jié)點(diǎn)的屬性值來(lái)往下建立決策樹(shù)的各分支,每個(gè)葉節(jié)點(diǎn)代表滿足某個(gè)條件的屬性值,從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑表示一條合適的規(guī)則。支持向量機(jī)也是機(jī)器學(xué)習(xí)的方法,思路是使用非線性映射把訓(xùn)練數(shù)據(jù)集映射到較高維,然后尋找出最大邊緣超平面,將數(shù)據(jù)對(duì)象分類。神經(jīng)網(wǎng)絡(luò)是一種模擬人神經(jīng)的網(wǎng)絡(luò),由一組連接的輸入和輸出單元組成,賦予各個(gè)連接相應(yīng)的權(quán)值,通過(guò)調(diào)節(jié)各連接的權(quán)值使得數(shù)據(jù)對(duì)象得到正確分類。

  針對(duì)融入空間自相關(guān)性的空間分類挖掘,SHEKHAR S等人使用空間自回歸模型和基于貝葉斯的馬可夫隨機(jī)場(chǎng)進(jìn)行空間分類挖掘[7],汪閩、駱劍承、周成虎等人將高斯馬爾可夫隨機(jī)場(chǎng)與支持向量機(jī)結(jié)合并將其用于遙感圖像的信息提取[8]。

  2.4 其他空間挖掘方法

  空間數(shù)據(jù)挖掘的方法多種多樣,其他還包括:空間分析的方法,即利用GIS的方法、技術(shù)和理論對(duì)空間數(shù)據(jù)進(jìn)行加工處理,從而找出未知有用的信息模式;基于模糊集、粗糙集和云理論的方法可用來(lái)分析具有不確定性的空間數(shù)據(jù);可視化方法是對(duì)空間數(shù)據(jù)對(duì)象的視覺(jué)表示,通過(guò)一定技術(shù)用圖像的形式表達(dá)要分析的空間數(shù)據(jù),從而得到其隱含的信息;國(guó)內(nèi)張自嘉、岳邦珊、潘琦等人將蟻群算法與自適應(yīng)濾波的模糊聚類算法相結(jié)合用以對(duì)圖像進(jìn)行分割[9]。

3 結(jié)論

  空間數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘的延伸,有很好的傳統(tǒng)數(shù)據(jù)挖掘方法理論的基礎(chǔ),雖然取得了很大進(jìn)步,然而其理論和方法仍需進(jìn)一步的深入研究。伴隨著大數(shù)據(jù)時(shí)代,面對(duì)越來(lái)越多的空間數(shù)據(jù),提升數(shù)據(jù)挖掘的準(zhǔn)確度和精度是一個(gè)有待研究的問(wèn)題。同時(shí)現(xiàn)在流行的空間數(shù)據(jù)挖掘算法的時(shí)間復(fù)雜度仍停留在O(nlog(n))~O(n3)之間,處理大量的異構(gòu)數(shù)據(jù),數(shù)據(jù)挖掘算法的效率也需要進(jìn)一步提高。數(shù)據(jù)挖掘在云環(huán)境下已經(jīng)得到很好的應(yīng)用[10],對(duì)于處理空間數(shù)據(jù)的空間云計(jì)算是有待學(xué)者們研究的方向。大多數(shù)空間數(shù)據(jù)挖掘算法沒(méi)有考慮含有障礙約束的情況,如何解決現(xiàn)實(shí)中障礙約束問(wèn)題值得探討。帶有時(shí)間屬性的空間數(shù)據(jù)呈現(xiàn)出了一種動(dòng)態(tài)、可變的空間現(xiàn)象,時(shí)空數(shù)據(jù)挖掘?qū)⑹俏磥?lái)研究的重點(diǎn)。

  由于數(shù)據(jù)挖掘涉及多種學(xué)科,其基本理論與方法也已經(jīng)比較成熟,針對(duì)空間數(shù)據(jù)挖掘,如何合理地利用和拓展這些理論方法以實(shí)現(xiàn)對(duì)空間數(shù)據(jù)的挖掘仍將是研究人員們需要長(zhǎng)期努力的方向。

參考文獻(xiàn)

  [1] 李德仁,王樹(shù)良,李德毅.空間數(shù)據(jù)挖掘理論與應(yīng)用(第2版)[M].北京:科學(xué)出版社,2013.

  [2] KOPERSKI K, HAN J W. Discovery of spatial association rules in geographic information databases[C]. Procedings of the 4th International Symposium on Advances in Spatial Databases, 1995: 47-66.

  [3] SHEKHAR S, HUANG Y. Discovering spatial co-location patterns: a summary of results[C]. Procedings of the 7th International Symposium on Advances in Spatial and Temporal Databases, 2001:236-256.

  [4] 柴思躍,蘇奮振,周成虎.基于周期表的時(shí)空關(guān)聯(lián)規(guī)則挖掘方法與實(shí)驗(yàn)[J].地球信息科學(xué)學(xué)報(bào),2011,13(4):455-464.

  [5] 王家耀,張雪萍,周海燕.一個(gè)用于空間聚類分析的遺傳K-均值算法[J].計(jì)算機(jī)工程,2006,32(3):188-190.

  [6] Zhang Xueping, Du Haohua, Yang Tengfei, et al. A novel spatial clustering with obstacles constraints based on PNPSO and K-medoids[C]. Advances in Swarm Intelligence, Lecture Notes in Computer Science (LNCS), 2010: 476-483.

  [7] SHEKHAR S, SCHRATER P R, VATSAVAI R R, et al.Spatial contextual classification and prediction models for mining geospatial data[J]. IEEE Transactions on Multimedia, 2002, 4(2):174-187.

  [8] 汪閩,駱劍承,周成虎,等.結(jié)合高斯馬爾可夫隨機(jī)場(chǎng)紋理模型與支撐向量機(jī)在高分辨率遙感圖像上提取道路網(wǎng)[J].遙感學(xué)報(bào),2005,9(3):271-275.

  [9] 張自嘉,岳邦珊,潘琦,等.基于蟻群和自適應(yīng)濾波的模糊聚類圖像分割[J].電子技術(shù)應(yīng)用,2015,41(4):144-147.

  [10] 石杰.云計(jì)算環(huán)境下的數(shù)據(jù)挖掘應(yīng)用[J].微型機(jī)與應(yīng)用,2015,34(5):13-15.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。