123,123,123

云计算环境下的数据挖掘应用

2015年微机与应用第5期

石杰1，2

（1.山东青年政治学院实验设备管理处，山东济南 250103； 2.山东省高校信息安全与智能控制重点实验室，山东济南 250103）

摘要： 云计算是一个新的商业模型，它可以提供无限的廉价存储和计算能力。而数据挖掘中面临的主要问题是项目集合的空间需求问题，并且其操作非常巨大。将数据挖掘技术应用到云计算环境中，可以按需从云服务运营商那里获取项目集合所需空间，从而解决了数据挖掘需要巨大空间的问题。文章论述和分析了将数据挖掘应用到云计算环境的有效性。

關(guān)鍵詞： 数据挖掘云计算频繁模式云存储

Abstract：

Key words :

　　摘要：云計(jì)算是一個(gè)新的商業(yè)模型，它可以提供無(wú)限的廉價(jià)存儲(chǔ)和計(jì)算能力。而數(shù)據(jù)挖掘中面臨的主要問(wèn)題是項(xiàng)目集合的空間需求問(wèn)題，并且其操作非常巨大。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到云計(jì)算環(huán)境中，可以按需從云服務(wù)運(yùn)營(yíng)商那里獲取項(xiàng)目集合所需空間，從而解決了數(shù)據(jù)挖掘需要巨大空間的問(wèn)題。文章論述和分析了將數(shù)據(jù)挖掘應(yīng)用到云計(jì)算環(huán)境的有效性。

　　關(guān)鍵詞：數(shù)據(jù)挖掘；云計(jì)算；頻繁模式；云存儲(chǔ)

0 引言

　　“云計(jì)算”被描述為是一個(gè)平臺(tái)系統(tǒng)或軟件應(yīng)用程序。首先，平臺(tái)系統(tǒng)意味著云計(jì)算系統(tǒng)可以實(shí)時(shí)地動(dòng)態(tài)部署、配置、再部署、再配置。在云計(jì)算平臺(tái)下，服務(wù)器是一個(gè)物理服務(wù)器或一個(gè)虛擬服務(wù)器。云計(jì)算通常包括很多計(jì)算資源。

　　云計(jì)算是一個(gè)新的商業(yè)模型[1-2]。它描述了計(jì)算任務(wù)到資源池的過(guò)程。資源池由大量計(jì)算機(jī)組成，從而保證各種應(yīng)用可以按需獲得計(jì)算能力、存儲(chǔ)空間和各種軟件服務(wù)。云計(jì)算的新穎性在于它可以提供無(wú)限的廉價(jià)存儲(chǔ)和計(jì)算能力，這可以使其存儲(chǔ)和挖掘大量的數(shù)據(jù)。

　　處理高維度和大規(guī)模數(shù)據(jù)有很多方法，但請(qǐng)求處理通常是瓶頸。認(rèn)識(shí)發(fā)現(xiàn)任務(wù)算法通常被應(yīng)用到多維未來(lái)空間廣泛搜索或最近鄰居搜索[3]。商業(yè)智能和數(shù)據(jù)倉(cāng)庫(kù)可以存放T字節(jié)級(jí)以上的數(shù)據(jù)。云計(jì)算作為數(shù)據(jù)挖掘的需求正被廣泛使用。Map Reduce是一個(gè)程序框架，并且被用于處理大的數(shù)據(jù)集合。分割、調(diào)度和失敗處理以及通信等細(xì)節(jié)被Map Reduce隱藏[4]。

1 云計(jì)算

　　云計(jì)算是一種計(jì)算服務(wù)而不單單是一個(gè)產(chǎn)品，它由計(jì)算資源、軟件和各種信息組成。通過(guò)網(wǎng)絡(luò)在任何地點(diǎn)，可以使用計(jì)算機(jī)或其他設(shè)備等終端訪問(wèn)。云是一個(gè)并行和分布式系統(tǒng)，由相互連接的虛擬計(jì)算機(jī)構(gòu)成，可以被動(dòng)態(tài)部署，并作為一個(gè)或多個(gè)統(tǒng)一的計(jì)算資源呈現(xiàn)出來(lái)。云計(jì)算基于服務(wù)運(yùn)營(yíng)商和用戶簽訂的服務(wù)等級(jí)協(xié)議提供服務(wù)。

　　數(shù)據(jù)連接緊密度的增長(zhǎng)和數(shù)據(jù)量增長(zhǎng)導(dǎo)致許多運(yùn)營(yíng)商和部分?jǐn)?shù)據(jù)中心使用大的、可以動(dòng)態(tài)均衡負(fù)載的基礎(chǔ)設(shè)施作為云計(jì)算平臺(tái)。通過(guò)按需地在服務(wù)器上分布和復(fù)制數(shù)據(jù)，資源利用率顯著提高。

　　“云”是一個(gè)彈性的資源執(zhí)行環(huán)境，涉及到多個(gè)利益方，并能提供可以計(jì)量的服務(wù)。這些服務(wù)可以分為多個(gè)粒度級(jí)別。換言之，本文中所講的云是基礎(chǔ)平臺(tái)，可以在多種資源上面以各種形式執(zhí)行。從而提供資源和服務(wù)的管理性、彈性和系統(tǒng)平臺(tái)獨(dú)立性等能力。

2 數(shù)據(jù)挖掘技術(shù)

　　目前有幾種主要的數(shù)據(jù)挖掘技術(shù)已經(jīng)開發(fā)并應(yīng)用到數(shù)據(jù)挖掘項(xiàng)目中。包括關(guān)聯(lián)規(guī)則、分類、聚類、預(yù)測(cè)和序列模式。下面將簡(jiǎn)要地介紹這些數(shù)據(jù)挖掘技術(shù)的例子。

　?。?）關(guān)聯(lián)規(guī)則

　　關(guān)聯(lián)規(guī)則是一種最好的已知的數(shù)據(jù)挖掘技術(shù)。對(duì)關(guān)聯(lián)規(guī)則挖掘的研究可分為兩種類型，一種是Apriori算法研究，一種是頻繁模式增長(zhǎng)算法研究[5]（FP-growth增長(zhǎng)等）。在關(guān)聯(lián)規(guī)則中，一種模式的發(fā)現(xiàn)是基于在同一個(gè)交易數(shù)據(jù)庫(kù)中特定項(xiàng)目與其他項(xiàng)目的關(guān)系。例如，該技術(shù)用于市場(chǎng)購(gòu)物籃分析中確定什么樣的產(chǎn)品客戶經(jīng)常一起購(gòu)買。基于該數(shù)據(jù)業(yè)務(wù)會(huì)有相應(yīng)的營(yíng)銷活動(dòng)，從而銷售更多的產(chǎn)品，創(chuàng)造更大的利潤(rùn)。

　?。?）分類

　　分類是一種基于機(jī)器學(xué)習(xí)的經(jīng)典的數(shù)據(jù)挖掘技術(shù)。分類方法是利用數(shù)學(xué)方法實(shí)現(xiàn)，如決策樹，線性規(guī)劃，神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)。在分類過(guò)程中，軟件可以學(xué)習(xí)如何將數(shù)據(jù)項(xiàng)分到不同的組中。例如，可以應(yīng)用于“給那些離開公司的員工過(guò)去的記錄應(yīng)用分類，預(yù)測(cè)當(dāng)前的雇員很可能在將來(lái)離開”，在這種情況下，把員工的記錄分為兩組，“離開”、“留下”，然后，可以利用數(shù)據(jù)挖掘軟件將雇員劃分到每個(gè)組。

　?。?）聚類

　　聚類分析是數(shù)據(jù)挖掘技術(shù)中很有意義或有用的一種自動(dòng)聚類技術(shù)。不同于分類技術(shù)，聚類技術(shù)也定義了類和類中的對(duì)象，而在分類中，對(duì)象被分配到預(yù)定義的類中。以圖書館為例，在圖書館里圖書的種類有很多，如何使讀者能夠在如此廣泛的主題中找到相關(guān)主題的書目是一個(gè)很麻煩的問(wèn)題。利用聚類技術(shù)，使相似類型的圖書歸在一起或放在同一個(gè)書架上，通過(guò)標(biāo)簽標(biāo)識(shí)有意義的名稱。這樣讀者想獲取書中的主題時(shí)，只需去那個(gè)書架就可找到，而不必在整個(gè)圖書館中查找。

　?。?）預(yù)測(cè)

　　正如它的名字暗示的，預(yù)測(cè)是一種數(shù)據(jù)挖掘技術(shù)，用于發(fā)現(xiàn)自變量之間及自變量和因變量之間的關(guān)系。例如，預(yù)測(cè)分析技術(shù)，如果考慮銷售額是一個(gè)自變量，利潤(rùn)可能是一個(gè)因變量，那就可以預(yù)測(cè)將來(lái)的銷售利潤(rùn)，根據(jù)歷史銷售數(shù)據(jù)和利潤(rùn)數(shù)據(jù)，就可以得出一個(gè)用于預(yù)測(cè)盈利的回歸擬合曲線。

　?。?）序列模式

　　序列模式分析是一種發(fā)現(xiàn)事件間在順序上的相關(guān)性的數(shù)據(jù)挖掘技術(shù)。發(fā)現(xiàn)的模式是用于識(shí)別數(shù)據(jù)之間關(guān)系的進(jìn)一步分析。

　　2010年，Kawuu W. Lin等人[6]提出了一套多任務(wù)的頻繁模式挖掘的策略。通過(guò)各種模擬條件下的實(shí)驗(yàn)，算法在執(zhí)行時(shí)間上表現(xiàn)出較好的性能。

　　2011年，李玲娟等人[7]提出了一種在云計(jì)算環(huán)境中的關(guān)聯(lián)規(guī)則挖掘算法。該算法利用Hadoop框架平臺(tái)及MapReduce編程模型，以實(shí)現(xiàn)云計(jì)算環(huán)境下的并行挖掘?yàn)槟繕?biāo)，給出了改進(jìn)Apriori算法在Hadoop框架平臺(tái)中MapReduce編程模型上的執(zhí)行過(guò)程。算法在頻繁項(xiàng)集挖掘中表現(xiàn)出較好的性能和實(shí)用性。

　　2011年，T.R.Gopalakrishnan Nair等人[8]提出了k-均值算法，算法通過(guò)迭代過(guò)程把數(shù)據(jù)集分為不同類別，使評(píng)價(jià)聚類性能的準(zhǔn)則函數(shù)達(dá)到最優(yōu)，且每個(gè)聚類內(nèi)緊湊，類間獨(dú)立。

3 云計(jì)算面臨的挑戰(zhàn)

　　云計(jì)算作為大幅降低成本技術(shù)，在受到追捧的同時(shí)也面臨著諸多挑戰(zhàn)性問(wèn)題。

　?。?）安全

　　在使用云計(jì)算服務(wù)時(shí)，用戶往往不清楚自己數(shù)據(jù)存放的位置，這樣就會(huì)導(dǎo)致用戶對(duì)數(shù)據(jù)安全的擔(dān)心，云計(jì)算架構(gòu)于互聯(lián)網(wǎng)之上，傳統(tǒng)安全問(wèn)題依然存在，如病毒、木馬的入侵、隱私信息的泄露等，新的安全問(wèn)題也將浮出水面。另外，身份認(rèn)證、授權(quán)與訪問(wèn)控制、責(zé)任認(rèn)定、安全與隱私等技術(shù)問(wèn)題也都還處于探索階段。

　　（2）Ad-hoc網(wǎng)絡(luò)模式

　　Ad-hoc網(wǎng)絡(luò)是一個(gè)沒(méi)有有線基礎(chǔ)設(shè)施支持的移動(dòng)網(wǎng)絡(luò)，是一種無(wú)線多跳網(wǎng)絡(luò)。在Ad-Hoc網(wǎng)絡(luò)中，所有的節(jié)點(diǎn)都是由移動(dòng)主機(jī)構(gòu)成的。與傳統(tǒng)的無(wú)線網(wǎng)絡(luò)相比，它不依賴于任何固定的基礎(chǔ)設(shè)施和管理中心，而是由一組自主的移動(dòng)節(jié)點(diǎn)臨時(shí)組成，通過(guò)移動(dòng)節(jié)點(diǎn)間的相互協(xié)作和自我組織，保持網(wǎng)絡(luò)連接，實(shí)現(xiàn)數(shù)據(jù)的傳遞。其特點(diǎn)是：動(dòng)態(tài)變化的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)，多條通信，較低的安全性。

　?。?）管理性

　　易管理性在云計(jì)算中非常重要，與傳統(tǒng)的系統(tǒng)相比，受有限的人工干涉、工作負(fù)載變化幅度大和多種多樣的共享設(shè)備這三個(gè)因素的影響，云計(jì)算中管理更加復(fù)雜。大多數(shù)情況下，沒(méi)有協(xié)助基于云的應(yīng)用開發(fā)的數(shù)據(jù)庫(kù)管理員和系統(tǒng)管理員。甚至是單一用戶的負(fù)載隨時(shí)間都會(huì)發(fā)生大幅度的變化。

　?。?）龐大的規(guī)模

　　現(xiàn)有的SQL數(shù)據(jù)庫(kù)不能簡(jiǎn)單地處理放置在云中的海量數(shù)據(jù)。在存儲(chǔ)方面，是用不同的事務(wù)實(shí)現(xiàn)技術(shù)，還是用不同的存儲(chǔ)技術(shù)，或者二者都用來(lái)解決一些限制性問(wèn)題還不確定。在這個(gè)問(wèn)題上，目前在數(shù)據(jù)庫(kù)領(lǐng)域內(nèi)有很多提議?，F(xiàn)有的云計(jì)算已經(jīng)開始探索一些簡(jiǎn)單的實(shí)用性方法，但是還需要做更多的工作來(lái)融合現(xiàn)有的云計(jì)算機(jī)制中的好思想。

　?。?）新的應(yīng)用場(chǎng)景

　　預(yù)測(cè)一些需要預(yù)載大量數(shù)據(jù)集（像股票價(jià)格、天氣歷史數(shù)據(jù)以及網(wǎng)上檢索等）的服務(wù)。從私有和公共環(huán)境中獲取有用信息引起人們?cè)絹?lái)越多的注意。這就需要從結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)的異構(gòu)數(shù)據(jù)中提取出有用信息。

　　（6）延遲

　　延遲通常是因特網(wǎng)上的常見問(wèn)題。云計(jì)算中產(chǎn)生的延遲并不是致命的，可以通過(guò)智能化設(shè)計(jì)的高性能基礎(chǔ)設(shè)施以及靈巧的應(yīng)用程序來(lái)補(bǔ)救。就像桌面計(jì)算機(jī)最大的瓶頸就是需要更大的硬盤和內(nèi)存，云計(jì)算中延遲的真正原因必須確定和解決。云計(jì)算既需要較高性能的集群服務(wù)器，也需要高性能的通信設(shè)備來(lái)支持。

4 結(jié)論

　數(shù)據(jù)挖掘技術(shù)的主要問(wèn)題是項(xiàng)目集合需要空間，并且項(xiàng)目級(jí)操作是巨大的。如果將數(shù)據(jù)挖掘應(yīng)用于云計(jì)算環(huán)境，將會(huì)從云運(yùn)營(yíng)商那里按需租賃空間。這種方法解決了需要大量空間的問(wèn)題。并且用戶不再需要考慮空間大小，可直接使用數(shù)據(jù)挖掘技術(shù)。

參考文獻(xiàn)

　　[1] WEISS A. Computing in clouds[J]. ACM Networker， 2007，11（4）：18-25.

　　[2] BUYYA R， VENUGOPAL S. Market-oriented cloud computing： vision， hype， and reality for delivering IT services as computing utilities[C]. Proceedings of the 2008 10th IEEE International Conference on High Performance Computing and Communications， 2008： 5-13.

　　[3] BOHM C， BERCHTOLD S， MICHEL U. Multidimensional index structures in relational databases[C]. in 1st International Conference on Data Warehousing and Knowledge Discovery， 1999：51-70.

　　[4] DEAN J， GHEMAWAT S， USENIX. Map Reduce： simplified data processing on large clusters[C]. 6th Symposium on Operating Systems Design and Implementation， 2004：137-149.

　　[5] Han J， Pei J， Yin Y. Mining frequent patterns without candidate generation[C]. Proc. of ACM Int. Conf. on Management of data （SIGMOD）， 2000：1-12.

　　[6] KAWUU W LIN， LUO Y C. Efficient strategies for many-task frequent pattern mining in cloud computing environments[C]. Systems Man and Cybernetics（SMC）， IEEE International Conference，2010（10）：620-623.

　　[7] 李玲娟，張敏.云計(jì)算環(huán)境下關(guān)聯(lián)規(guī)則挖掘算法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展，2011（2）：43-46.

　　[8] NAIR T Ｒ G， MADHURI K L. Data mining using hierarchical virtual k-means approach integrating data fragments in cloud computing environment[C].Cloud Computing and Intelligence Systems（CCIS）， IEEE International Conference， 2011（1）：230-234.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容